CN1480344A - 中文字词典汉字英文信息排序法 - Google Patents
中文字词典汉字英文信息排序法 Download PDFInfo
- Publication number
- CN1480344A CN1480344A CNA031440193A CN03144019A CN1480344A CN 1480344 A CN1480344 A CN 1480344A CN A031440193 A CNA031440193 A CN A031440193A CN 03144019 A CN03144019 A CN 03144019A CN 1480344 A CN1480344 A CN 1480344A
- Authority
- CN
- China
- Prior art keywords
- radicals
- characters
- traditional chinese
- chinese character
- english
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明公布了一种新的中文字词典汉字排序方法,它选定了94个基本部首和45个归类部首,还有一、丨、丿、丶、>五个单笔部首,并为每一个部首起了一个单字母的英文名字,然后按照笔顺规律把组成每个汉字的部首(或称部件)的英文名字排成英文字母串,称汉字的英文信息,汉字排序时依A、B、C、D……的顺序排列。汉字查字时只要按照汉字的英文信息就会象查英语单词一样一翻就到。本发明如果只取每个汉字信息的前4个字母,就可以作为一种新的计算机汉字输入编码。
Description
一、技术领域
本发明属一种中文字词典的汉字排序方法。
二、背景技术
在目前的中文字词典中,汉字的排序方法多种多样。有按部首排序的,有按拼音排序的,还有按笔画排序的。比如《辞海》中单字照部首表分部排列,同部首的单字按笔画数顺序排列,笔划数相同的按起笔笔形排列。在《新华字典》和《现代汉语小词典》中,正文中单字的排序是按汉语拼音顺序排列的,同时也有按部首排序的“部首检字表”。其它字词典大同小异。读者要是使用这些字词典查字,可以按部首查字,也可以按拼音查字,还可以按笔画数来查字。要是按部首来查字,当遇到一个不认识或不懂的汉字时,总是先确定该字的部首,然后在字典的部首目录中查该部首在检字表中的页码,并数一数该字的笔画数,之后才能在同笔画数的一列字中找到该字和它在字典正文中的页码,最后翻到这个页码,才能找到该字以及相关词条。这个过程要是顺利的话,一般需一分钟左右的时间,要是不顺利的话,可能需几分钟,十几分钟,甚至有时几个小时也查不到某字。如果按拼音来查字,认识的字一翻就到,不认识的字一筹莫展,可是我们查字还往往是查不认识的字。用笔画数来查字更困难,往往是在前述两种方法不灵时才被迫采用的。而用英文词典来查英语单词可就不一样了。无论是认识的单词还是不认识的单词基本上都是一翻就到,所需时间只有数秒,本发明的目的就是要寻找一种全新的中文字词典汉字排序方法。旨在查汉字时也能象查英语单词一样又快又准。
三、发明内容
本发明从汉字的部首着眼,首先对汉字的部首进行规范化,然后给规范化后的部首起一个英文名字,英文名字用单字母表示。最后对汉字进行信息化处理。中文字词典排序时按汉字信息化后的英文字母串来进行排序。
(一)汉字部首的规范化
汉字的部首无论是从定义上,还是从部首在汉字中的位置上,或者从部首的总量上都是极不规范的。国家语言文字应用研究“十五”科研项目中就有该课题。问题是怎样来规范汉字的部首,什么样的规范最简单,最能得到人们的接收。
本发明确定汉字的部首时,把汉字的部首定义为:汉字按照笔顺规律,首先书写的部件就是该字的部首。这里的部件可以是多笔部件,也可以是单笔部件,这些部件的选定要符合国家语委公布的“汉字部件规范”。本发明按笔顺来定义部首很简单。例如:“太”字,先写“大”,所以为“大”部;“部”字先写“立”,所以为“立”部;“说”字先写“讠”,所以为“讠”旁;“杆”字先写“木”,所以为“木”部。那么“甲”字为何部呢?一般字词典都无“甲”部,因其首笔为竖,所以定在竖部,本发明认为定竖部也不好,能定多笔部首的要优先定多笔部首。书写“甲”字时,首先书写的部件是“日”,所以定“日”部。这是否违反“汉字部件规范”中“交重不拆”的原则呢?本发明认为我们不违反这个原则,我们是避开了这个原则。因为我们不是在拆分汉字,我们是在按汉字的书写规律来定义部首,就象写“甲”字时,先写“日”,然后一竖则为“甲”。这是不违反“交重不拆”的原则的,这恰恰是最正确的书写方法。如此这样,顺理成章,甲、申、电、鸭等字就都是“日”部了。还有“国”字,一般字典都是大“口”部。本发明认为该类字首先书写的是“同”字头,并不是大口,所以定“冂”部。同理:因、团、回、囚、由等都是同字头部。
任何事情都不便一刀切,过分简单的一刀切,很可能造成对事物完美性的伤害。确定汉字部首时有一种字要特殊对待。例:这、边、选、造、速等字,它们的部首是走之旁,而走之旁又不是在起笔,如果按笔顺定义成别的部首,将会感到别扭。所以本发明特别处理,凡是由走之旁与它所包围的部分所形成的汉字,其部首仍为走之旁,但只此一种特例。
汉字首先书写的部件有时可能存在几个部件迭合在一起的情况。我们规定:当一个汉字的起笔有多笔部首和少笔部首迭合时,优先取多笔部首,这叫“取大优先”的原则。例“部”字的起笔由“亠”和“立”迭合。我们取多笔部首“立”,不取“亠”。
汉字部首的数量也要有个规范,也就是要定量。汉字有560个基础部件,都作为部首,不便于记忆,而且作为一个部首它要统属一定数量的汉字,可是有许多部件只在少数汉字中出现,无代表性;部首总量也不能太少,实际上5个单笔部件,就能统属所有汉字,但这不便于检索。本人通过十数年的研究,优化出了94个基本部首,感觉颇好。另有45个归类部首和5个单笔部首。所谓归类部首就是和某一基本部首非常相似或相近的部首。一般地记住了基本部首,它的归类部首也就顺便记住了。例如:“人”是一个基本部首,“入”和“八”是它的归类部首;“羊”是一个基本部首,歪尾羊(
)和无尾羊“”是它的归类部首。5个单笔部首是一、丨、丿、丶、フ。
(二)汉字部首的英文名字
本发明对所选定的所有部首都定义了一个英文名字,用单字母表示。例“日”部的英文名字叫“A”;“辶”的英文名字叫“B”;“阝”的英文名字叫“C”;等等。部首的英文名字就是部首的笔画结构的字形信息。它与部首本身的中文名字或拼音完全无关。定义部首的英文名字是为汉字的信息化作准备。
(三)汉字的信息化
确定了汉字的部首,并给了每个汉字部首(也是部件)一个单字母的英文名字,就很容易实现汉字的信息化。通过对GB2312-80字符集6763个字符的逐字分析,这些汉字都能按笔顺先后由本发明所述的部首(部件)组成。具体确定汉字的英文信息的方法是:每个汉字首先书写的部首的英文名字是该汉字信息的第一个字母;第二步书写的部件的英文名字是该汉字信息的第二个字母;第三步书写的部件的英文名字是该汉字信息的第三个字母,依次类推所形成的英文字母串就是该汉字的英文信息,或称字形信息。编撰字词典时只要按汉字的英文信息排序就可行了,排序时按A、B、C、D……的顺序进行。查找汉字时只要按照汉字的英文信息字母串,无论是认识的,或不认识的汉字都会一翻就到,其速度决不亚于查找英语单词的速度。
特殊地,确定汉字的信息时,如果遇到有走之旁和它所包围的部分组成的复合部件,走之旁的英文名字要排在它所包围的部分的信息字母串的前面。
对于繁体汉字的信息化,只要把简体部首的英文名字命名成相应的繁体部首的英文名字就基本解决问题。
上述中文字词典汉字英文信息排序法,其特征在于:本发明的规则是:首先确定汉字的英文信息字母串,然后按各汉字的英文信息字母串的首字母照A、B、C、D……的顺序排列;首字母相同的按汉字信息的第二个字母排序;第二个字母相同的,按汉字信息的第三个字母排序……,依此类推。
上述中文字词典汉字英文信息排序法,其特征在于:所述的部首为94个基本部首和45个归类部首,还有5个单笔部首,本发明为这些部首都起了一个单字母的英文名字。
上述中文字词典汉字英文信息排序法,其特征在于:除个别特殊的部首外,它们绝大多数部首的英文名字都有以下特点:凡是撇起笔的部首,其英文名字都是计算机标准英文键盘第一行左5键的字母,右5键的字母是点起笔部首的名字;第二行左5键的字母是是竖起笔部首的名字,右四键加上M键的字母是横起笔部首的名字;第三行中间5键是折起笔部首的名字;Z是几个动物类部首的名字;一、丨、丿、丶、フ的英文名字分别是B、V、C、X、Z。
上述中文字词典汉字英文信息排序法,其特征在于,本发明确定汉字部首的规则是:汉字的部首是按照笔顺规范首先书写的汉字部件。特殊情况,当一个汉字是由走之旁和它所包围的部分组成时,汉字的部首是走之旁。
上述中文字词典汉字英文信息排序法,其特征在于:汉字的英文信息字母串的第一个字母是汉字首先书写的部首的英文名字;第二个字母是第二步书写的汉字部件的英文名字;第三个字母是第三步书写的汉字部件的英文名字;依此类推所形成的英文字母串是该汉字的英文信息。特殊地对于汉字中有由走之旁和它所包围的部分组成的复合部件时,走之旁的英文名字排在该被包围部分的英文信息字母串的前面。
本发明具有以下优点:
1、本发明把汉字的字形信息通过汉字部首(部件)的英文名字,直接转变成了汉字的英文信息字母串,从而实现了汉字的信息化。
2、汉字的信息化使得中文字词典的汉字排序工作能象英语词典一样按英文字母的顺序排列。
3、本发明将使汉字的查字象查英语单词一样方便快捷。而且将对中文信息领域的设计、科研、图书资料的检索、教学和出版等方面的工作起到极大的促进作用。
4、本发明汉字信息化后的英文字母串也就是对汉字的编码,该编码重码极少,GB2312-80字库中的6763个字符有6100多字是单字单码,对汉字的排序极为有利。
5、本发明把汉字的部首定义为:汉字按照笔顺规律首先书写的部件就是该字的部首。极大地推动了汉字部首的规范化。从此人们不再需要在一个汉字的上、下、左、右、外、中坐和左上角七个位置寻找部首,确定部首的速度和准确性将极大的提高。
6、本发明将彻底解决学习汉语的外国人在查字典时所遇到的困难。为汉字走向世界助一臂之力。
7、本发明对汉字部首的规范化和汉字的信息化,将在一定程度上促进我国的中小学的汉字教学工作。
8、要记住本发明所选定的部首的英文名字并不困难,只要依次看着每一个汉字的部首,口中读它的英文名字,一遍、两遍、三遍……很快就会记住,对于学习过英语字母的小学学生来说,这个问题不用一天时间就会解决。
9、汉字的英文信息的长度多数在1-5个字母之间,虽有少数汉字的信息较长,但实际查字时,一般只要确定前4个字母就足可以顺利地找到该字了。
四、具体实施方法
(一)首先规定汉字部首的定义:除走之旁外,汉字按照笔顺规律首先书写的部件是汉字的部首。由走之旁和它所包围的部分形成的汉字的部首是走之旁。
(二)其次,确定汉字部首的总量。本发明选定了94个基本部首和45个归类部首,还有5个单笔部首一、丨、丿、丶、フ。所谓归类部首就是和某一基本部首非常相近或相似的部首。然后给上述所有的部首分别起一个单字母的英文名字,例“日”部的英文名字为A;“辶”部的英文名字为B;“阝”部的英文名字为C等等。下面列出本发明全部部首一览表,部首前面的英文字母就是它们的英文名字,括号里的部首是它前面相近的一个基本部首的归类部首。表中英文字母的排列顺序是按计算机标准英文键盘26个字母键从左到右、从上到下的顺序列出。
汉字部首及其英文名字一览表:Q:月(
)、几(儿、
): W:亻、隹、、乂;E:彳、禾、竹、九、气; R:钅(金)、人、(入、八、丷)T:鸟、鱼、舟、身、勹(
)、夕(夂) Y:氵(冫、水、
)心;U:讠(言)、亠、立、广; I:小(
)、米、忄、;O:衤、(礻)、宀(冖)、火; P:羊(
)、疒、门、尸;A:闩、罒、
业、(
)、冂(
): S:贝、见、大、虫、且(
):D:山(
)、巾、止(
)、饣(食)、黑、刂(刀); F:车、目、
臼;G:口、皿; H:扌(手)、寸、J、艹、
十、匕、(
); K:木(
)、覀、厂(ㄏ)、
L:土(士)、、酉; Z:马、
虍、豕、犭、(豸);X:彐(
)、女、母、雨; C:阝(卩、耳)、子(孑)、癶(
);V:弓、力、石; B:辶、艮(
);N:纟(
幺)、又(マ、厶),矛 M:王、二、革、
一、|、丿、丶、フ的英文名字分别是:B、V、C、X、Z。
部首表中部首“二”有一特殊规定:“二”的两横都不与别的笔划相交,或都与别的笔划相交时才可以定为“二”部。例“示”字有“二"部,“韦”字有“二”部,但“于”字无“二”部,应为横部。
(三)汉字信息化处理的办法是:汉字按照笔顺规律首先书写的部首的英文名字是汉字信息的第一个字母;第二步书写的汉字部件的英文名字是汉字信息的第二个字母;第三步书写的汉字部件的英文名字是汉字信息的第三个字母,依次类推所形成的英文字母串就是这个汉字的英文信息。特殊地,由走之旁和它所包围的部分形成的汉字或汉字的一部分,走之旁的英文名字排在它所包围的部分的信息字母串的前面
下面举例说明:
根据上文汉字部首一览表可知,下列部首的英文名字是它们后面的字母。口——G 日——A 艹——J 田——F 禾——E火——O 冖——O 一——B 丨——V 丷——R木——K 厂——K 土——L 阝——C 车——F豕——Z
上面的部首(部件)可以组成下面的一些汉字。把组成汉字的部件的英文名字按笔顺先后排成一个字母串,这就是汉字的英文信息。唱(GAA) 喵(GJF) 啾(GEO) 苗(JF)秋(EO) 呷(GAV) 唠(GJOV) 喳(GKAB)喱(GKAL) 噪(GGGGK)
特殊地,对于有走之旁的汉字,例连、莲、隧等,编制汉字信息时,对于走之旁和它所包围的部分,走之旁的英文名字排在它所包围的部分的英文信息的前面。
例:连(BF)、莲(JBF)、隧(CBRZ)。
(四)当一个汉字的某一部位是由几个部件迭合时,确定汉字的部首或部件时采取“取大优先”的原则。
例:“部”字的部首,取“立”部,而不取“亠”。
(五)编撰字词典时依据汉字的英文信息(或称字形信息)字母串的首字母,按A、B、C……的字母顺序排列,首字母相同的按第二个字母的顺序排列,第二个字母也相同的按第三个字母的顺序排列。依此类推。
(六)本发明所确定的汉字英文信息,可以作为一种汉字计算机输入编码,作为编码时只取汉字信息的前四个字母,不足四个字母的汉字打空格键结束。
Claims (6)
1、一种中文字词典的汉字排序方法,其特征在于:根据汉字信息化后的英文字母串的首字母,按照A、B、C、D……的顺序排列:首字母相同的汉字按其信息的第二个字母顺序排列;第二个字母相同的按第三个字母的顺序排列,依此类推。
2、根据权利要求1所述的中文字词典汉字排序法,其特征在于:所述的汉字信息化是给组成汉字的各个部首(或部件)各起了一个单字母的英文名字,然后按照笔顺规律把组成每个汉字的部首(或部件)的英文名字排成一个英文字母串,从而形成了一个汉字的英文信息,或称字形信息。
3、根据权利要求2所述的中文字词典汉字排序法,其特征在于,所述的部首(或部件)为94个基本部首和45个归类部首,还有5个单笔部首,这些部首和它们的英文名字如下表,表中的英文字母是它后面的部首(或部件)的英文名字,括号里的部首(或部件)是它前面相近的一个基本部首的归类部首:Q:月(
)、几(儿、;
) W:亻、隹、、乂;E:彳、禾、竹、九、气; R:钅(金)、人、(入、八、丷)T:鸟、鱼、舟、身、勹(
)、夕(夂) Y:氵(冫、水、
)心;U:讠(言)、亠、立、广; I:小(、
)、米、忄、;O:衤、(礻)、宀(冖)、火: P:羊(
)、疒、门、尸;A:日、罒、
业(
)、冂(
): S:贝、见、大、虫、且(
);D:山(
)、巾、止(
)、饣(食)、黑、刂(刀); F:车、目、田、臼;G:口、皿; H:扌(手)、寸;J、艹、
十、匕(
); K:木(覀、
)、
厂(ㄏ)、
L:土(士)、、酉: Z:马、
虍、豕、犭(豸);X:彐(
)、女、母、雨; C:阝(卩、耳)、子(孑)、癶(
);V:弓、力、石; B:辶、艮(
):N:纟(
幺)、又(マ、厶)、矛; M:王、二、革、
一、|、丿、丶、フ的英文名字分别是:B、V、C、X、Z。
4、根据权利要求3所述的中文字词典汉字排序法,其特征在于:所述的部首的定义不同于一般字典,部首的定义为:汉字按照笔顺规律首先书写的部件称为部首。
5、根据权利要求3所述的中文字词典汉字排序法,其特征在于:所述的部首的中文名字,除几个特殊的外,凡是撇起笔的部首的英文名字是计算机通用标准键盘26个字母键第一行左5键的英文字母,凡是点起笔部首的英文名字是第一行右5键的字母;第二行左5键的字母是竖起笔部首的英文名字,第二行右4键加M键的字母是横起笔部首的英文名字;第三行中间5键的字母是折起笔部首的英文名字;Z是几个动物类部首的英文名字;一、丨、丿、丶、フ的英文名字分别是:B、V、C、X、Z。
6、根据权利要求书1所述的中文字词典汉字排序法,其特征在于:所述的汉字英文信息,可以作为一种新的汉字计算机输入编码,作为编码时只取汉字信息的前4个字母。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA031440193A CN1480344A (zh) | 2003-07-26 | 2003-07-26 | 中文字词典汉字英文信息排序法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA031440193A CN1480344A (zh) | 2003-07-26 | 2003-07-26 | 中文字词典汉字英文信息排序法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1480344A true CN1480344A (zh) | 2004-03-10 |
Family
ID=34155830
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA031440193A Pending CN1480344A (zh) | 2003-07-26 | 2003-07-26 | 中文字词典汉字英文信息排序法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1480344A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105711285A (zh) * | 2014-08-06 | 2016-06-29 | 宋茹 | 多册组合字典词典 |
CN112861487A (zh) * | 2020-11-30 | 2021-05-28 | 新绎健康科技有限公司 | 一种用于对汉字五音进行标注的方法及系统 |
-
2003
- 2003-07-26 CN CNA031440193A patent/CN1480344A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105711285A (zh) * | 2014-08-06 | 2016-06-29 | 宋茹 | 多册组合字典词典 |
CN112861487A (zh) * | 2020-11-30 | 2021-05-28 | 新绎健康科技有限公司 | 一种用于对汉字五音进行标注的方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103927329B (zh) | 一种即时搜索方法和系统 | |
CN110309305A (zh) | 基于多任务联合训练的机器阅读理解方法及计算机存储介质 | |
CN102122298A (zh) | 一种中文相似性匹配方法 | |
CN102214238B (zh) | 一种汉语词语相近性匹配装置及方法 | |
CN103927330A (zh) | 一种在搜索引擎中确定形近字的方法和装置 | |
CN101694601B (zh) | 零记忆汉字编码输入法 | |
Li et al. | MFE-NER: multi-feature fusion embedding for Chinese named entity recognition | |
CN103838392B (zh) | 高频词语并全部汉字快易的键盘、手写、语音输入法 | |
Kwapien et al. | Linguistic complexity: English vs. Polish, text vs. corpus | |
CN110705306B (zh) | 一种作文文题一致性的测评方法 | |
CN1480344A (zh) | 中文字词典汉字英文信息排序法 | |
CN112650817A (zh) | 关键词汇扩展方法及系统、电子设备及存储介质 | |
CN111090720A (zh) | 一种热词的添加方法和装置 | |
CN103135788B (zh) | 一种汉字四象意形输入法 | |
CN108509060A (zh) | 一种通过输入法电子字典注册偏僻汉字拼音代码的方法 | |
CN1059746C (zh) | 计算机拼音汉字输入方法 | |
CN107256092A (zh) | 汉字数字形码快速输入法 | |
CN1316686A (zh) | 电子计算机汉字词语码编码技术 | |
CN101706685A (zh) | 一种汉字输入法 | |
CN101364144B (zh) | 一种计算机汉字输入方法 | |
CN1770071A (zh) | 数字式三击形音汉字输入法 | |
CN1025135C (zh) | 汉字元音码计算机输入方法及键盘 | |
Cioni | An algorithm for the syllabification of written Italian | |
CN1198199C (zh) | 一种基于英文键盘的汉字输入法 | |
CN1293451C (zh) | 三击形音汉字输入法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |