CN102272753A

CN102272753A - 基于中文类型字符的结构编码中文类型字符(cjk字符)的方法

Info

Publication number: CN102272753A
Application number: CN2009801543002A
Authority: CN
Inventors: 赵仁杰
Original assignee: Individual
Current assignee: Individual
Priority date: 2009-01-12
Filing date: 2009-12-28
Publication date: 2011-12-07
Also published as: US20100177971A1; WO2010079395A1

Abstract

本发明涉及编码中文类型字符的方法。该方法包括：按指定顺序将整个所述字符细分为N个单元，所述顺序对于所述字符是特定的；按照所述顺序将基本描述符与N个单元的每一个相关联，这些基本描述符的每一个基于其相关联的所述单元的结构；定义由在前一步骤中定义的基本描述符组成的基础标记，这些基本描述符按所述指定顺序排列。通过使用本发明，使用字符的代码找回字符、以逻辑的方式编码新字符并将其加入已编码的字符的集合中以及基于字符的结构对字符进行分类变得简单。这样，“外来字符问题”得以解决。

Description

基于中文类型字符的结构编码中文类型字符(CJK字符)的方法

技术领域

本发明涉及编码中文类型字符的方法。

背景技术

中文类型字符，一是指在书写在中国说的汉语中使用的字符，也指在诸如中国大陆、日本、韩国、越南、台湾、香港、澳门、朝鲜、新加坡、马来西亚的不同国家或地区中使用(或曾经使用)的相同起源的字符。

中文类型字符组成非常重要的字符集合(几万个)，这些字符看起来都不相同。另外，该集合是开放的，这意味着新的字符可以加入该集合中。例如，可以创建新的字符以表示由于技术创新而带来的对象或概念。

因此，从本质上讲，该集合是不同于字母表的，因为在字母表中，字母的数量很少(最多几十个)，并且形成封闭式的集合(数量是常数)。

考虑到中文类型字符的特殊性质，在包含所有这些字符的数据库中搜索指定字符，例如为了在文件中或在纸上打印该字符，或者这些字符的分类，变得非常困难。

对于基于计算机的应用，已经开发出字符编码的方法，诸如

系统，它将代码与每一个字符相关联。每个代码是一串字母数字字符。

这种编码系统具有很多缺点。由于代码被随机地分配给字符，因此，没有索引的帮助，仅使用字符的代码找到该字符是不可能的。基于字符的结构对字符进行分类也是不可能的。因此，对包括不属于现有的已编码字符的集合的字符的中文文本进行数字化也是不可能的。当前，有大量的这种不能在现有集合中找到的字符。这些字符被称为“外来字符”，在集合中缺少这些字符的问题被称为“外来字符问题”。

另外，当新的字符必须添加到集合中时(或者是与技术创新对应的新字符，或者是刚被发现的字符)，被分配给该新的字符的新代码必然是随机的。

已知一种编码中文类型字符的方法，称为“认图笔画方法(Geo-strokemethod)”，并在Yu的美国专利US5,790,055中公开。

每个字符由八位数字代码标识，包括四位数字结构(FRAME)代码和四位数字ID代码。基于字符的四个角的每一个的形状，将数字与该字符的四个角的每一个相关联，从而产生FRAME码。然后，基于一组规则选择组成字符的一个块。然后，基于该块的四个角的每一个的形状，将数字与该块的四个角的每一个相关联(遵循已知的“四角”方法)，从而产生ID码。如果在两个截然不同的字符之间存在重复的八位数字代码，则增加第9个数字来表示在所选择的块中某些笔画的数量，并且如果需要，则增加第10个数字来表示组成该字符的块的总数量。

然而，“认图笔画法”不能够给出字符的完整结构，因为它不能编码组成字符的所有块。“认图笔画法”不允许基于字符的结构对字符进行分类。另外，角的几种不同的形状与同一个数字相关联，这妨碍了根据代码重构字符。

因此，仅通过字符的非选择块区分的字符不能够区分彼此，因此，不能解决外来字符问题。

本发明寻求解决这些缺陷。

发明内容

本发明的目的是提供一种基于中文类型字符的结构编码中文类型字符的方法。

该目的通过该方法包括以下步骤的事实来实现：

(a)按指定顺序将所述字符细分成N个单元，所述顺序对于所述字符是特定的；

(b)按所述指定顺序，将基本描述符与N个单元的每一个相关联，这些基本描述符的每一个基于其相关联的所述单元的结构；

(c)定义由在步骤(b)定义的基本描述符组成的基础标记(basereference)，这些基本描述符按所述指定顺序排列。

本发明的另一个目的是提供一种基于字符的结构对字符分类的方法，其允许以逻辑的方式将新字符添加到已编码的字符的集合中。

该目的通过该方法包括以下步骤的事实来实现：

(a)检查所述集合的字符是否是正体(orthodox)；

(b)如果所述字符不是正体，则用所述字符的正体形式代替所述字符；

(c)按书写组成所述字符的正体形式的笔画的顺序，将所述字符的该正体形式细分为4个单元，包含笔画的所述单元的每一个由基本块组成，其可在所述单元中重复，所述基本块在有限的字符列表中选择；

(d)按所述顺序将基本描述符与4个单元的每一个相关联，这些基本描述符的每一个由表示所述基本块在所述单元中出现的次数的重复指数和与所述基本块相关联的基础组件组成，并且该基本描述符基于所述基本块的结构；

(e)定义由在步骤(d)定义的基本描述符组成的基础标记，这些基本描述符按所述顺序排列；

(f)如果所述字符具有多于一个的正体形式，则对于所述字符的每一个其它正体形式，重复步骤(b)至(e)；

(g)对于所述集合中的每个字符，重复步骤(a)至(f)；

(h)对于所述集合的每一个正体字，将所述集合中具有与所述每个正体字相同的基础标记的所有字符组合在一起，从而定义所述每个正体字的族；

(i)对于在步骤(h)定义的每个族，向所述族的每个字符分配指示符，其将该字符与同一族的其它字符相区别；

(j)向所述字符分配由所述指示符和所述基础标记组成的结构标记(structural reference)。

通过这些措施，完全包含任何指定字符的结构的代码可与该字符相关联。

使用本发明的方法，使用字符的代码找回字符变得简单。使用本发明的方法，还可以按逻辑的方式编码新的字符(或者是与技术创新对应的新字符，或者是刚被发现的字符)并将其添加到已编码的字符的集合中。

因此，基于字符的结构对字符进行分类变得容易，诸如将共同具有指定基本块的所有字符组成子集。

附图说明

通过阅读下面以非限定性的例子给出的实施例的详细说明，本发明可以得到更好理解，并且它的优点变得更加清楚。描述参照附图，其中：

图1示出根据本发明的应用于中文类型字符的编码方法。

具体实施方式

中文类型字符由笔画组成。这些笔画按指定顺序书写。书写笔画的顺序遵循对于任何学习中文的学生熟知的七个基本规则，并且是不变的。这些规则如下所述，其中根据哪个字符被书写来应用每一个或者几个规则：

规则1：先横后竖

规则2：先撇后捺

规则3：从上到下

规则4：先外后内

规则5：从左到右

规则6：底部的笔画最后写

规则7：从中间到左边再到右边

根据这些规则，组成任何指定字符的笔画仅能按某一顺序书写，因此，只有一种方式书写指定字符。下面是书写字符的笔画顺序的例子和使用的对应规则：

规则1：一十

规则2：丿人

规则3：一

三，

昱

规则4：冂

肉，冂同

规则5：氵洽，

稍

规则6：

园

规则7：亅小，

尔

在每个字符中，笔画形成一个或多个组，因此任何字符都由一组或多组笔画组成，其中每一组可能实质上是已知的中文类型字符。所有已知的字符实际上是由小数量N(正整数)组的笔画组成：指定字符通常具有少于10组的笔画。通过大量的研究，发明人已经发现组成所有已知字符的这些组笔画的总数量是有限的数字(几千)，其比已知中文类型字符的数量小几个数量级。

所有这些组笔画形成字符集合，其因此可用于建立所有已知字符。

属于该集合的一组笔画被称为基本块。

因此，通过将诸如一串字母数字字符的不同的基本描述符与组成中文字符的每个基本块相关联，每个中文类型字符可通过一系列组合在一起的基本描述符唯一地标识。这些基本描述符按照基本块在字符内书写的顺序排列，以致由相同的基本块组成但其在字符内的位置改变的两个字符可以被区分。这样排列的基本描述符组成基础标记，其例如可以是一串数字。因此，用于指定字符的基础标记直接基于该字符的结构。

可选地，基本描述符可以按不同顺序排列，诸如相反的基本块的读取顺序。

因此，基础标记可用于在字符集合中找到字符。更有趣地，包含指定基本块的所有字符可通过在所有基础标记中查找包含与该基本块对应的基本描述符的字符而容易地找到。另外，当需要添加新的字符时，该字符可使用上述方法而被直接分配基础标记，该基础标记将直接表示该新的字符的结构。因此，新的字符可以逻辑的方式添加到一组已知的字符中。

下面描述本发明的一个实施例。

根据本发明，每个中文类型字符首先被分析以看其是否是正体形式字符或另一种形式的字符。中文类型字符的正体(orthodoxy)是已知的概念，字符的正体或非正体性质可在现有文献中由任何学习中文的学生容易地识别。每个字符或者是正体的或者至少具有一个正体的等同体。如果字符不是正体的，则用该字符的一个正体的等同体代替该字符。

通过深入地研究，发明人已编辑了特殊的基本块集合，其使得所有已知的正体字可使用至多四个来自该集合的不同基本块而从该集合中建立(基本块可能在正体字内重复，如下所述)。本发明人还发现该特殊集合包含大约1500个基本块。因此，在当前描述的实施例中，N总等于4。

采用正体形式的所有这些基本块以及每个基本块的对应基础组件在表4和表5中列出(参见说明书的结尾)。

因此，任何正体字可以被细分为4个单元，每个单元或者由一个基本块组成，或者由一个基本块重复几次而组成，或者是空的(即，未包含笔画)。

正体字的细分方法如下所述：开始，识别字符中的所有基本块。这些基本块在该特殊集合中选择。如果基本块在字符中被重复(两次或多次)，则由相同的基本块组成的这个组被认为是一个单个的单元。否则，每个基本块(在字符内没有重复)组成一个单元。然后，计算字符内单元的总数量。

如果所计算的总数量等于4，则每个单元包含至少一个基本块，该字符由4个单元组成。

如上面所指出的，特殊的基本块的集合使得总有可能用至多4个来自该特殊集合的不同的基本块建立任何正体字。当选择正体字如何被分成基本块时，在正体字中出现并且具有最多笔画数的基本块应当被选择，以便正体字由至多4个基本块组成。

如果所计算的单元的总数量是1、2或3，则分别有3个、2个或1个单元没有包含任何笔画并且是空的。这些空的单元被添加到所计算的单元的总数量中，以致字符正好由4个单元组成。

组成字符的4个单元的每一个都与不同的基本描述符相关联。每个基本描述符由表示基本块在单元中出现的次数的重复指数和与基本块相关联的基础组件组成。例如，重复指数是等于基本块在单元中出现的次数的数字，基础组件是四位数字(因为有少于10,000个基本块)。因此，基本描述符包含5位数。

基础组件的四位数字可以被随机地分配给基本块。为了方便，如果基本块是在表5中列出的已知的康熙字典中的214个词根(偏旁)中的一个，则与所述基本块相关联的基础组件的首位数字是0。词根是已知的概念；它是字符中给出有关字符的含义的指示的部分。对于任何包括词根的指定字符，词根可以容易地被任何学习中文的学生识别。另外，如果基本块不是康熙词典中的214个词根中的一个时，则与该基本块相关联的基础组件的首位数是1或更大的数，并且由基础组件的前两位数字组成的数字P通过与基础组件相关联的基本块中的笔画数T确定。

表4和表5给出基础组件如何与特殊集合的每个基本块相关联的例子，其中，根据该特殊集合，所有已知的正体字可使用上面的方法建立。这仅仅是例子，不同的基础组件可以被分配给每一个基本块。

重复指数等于0且基础组件等于0000与不包含任何笔画的单元(空单元)相关联。与空单元相关联的基本描述符写为0.0000，并被称为空基本描述符。

因此，对于每个单元，分配包含5位数字的基本描述符。因此，基础标记包含4组5位数字，即20位数字。这4组根据使用在此给出的不变规则书写字符的顺序而排列在一起(即，从左到右一个接一个地写出)。

当组成正体字的一个或多个单元是空时出现特殊情况。于是，与该空单元对应的空基本描述符可以被放在包含笔画的相邻单元之前或之后。

可以设计一组控制该空单元在基础标记内的位置的规则。

在下面的表1中给出了这样的规则的一个例子。

这些规则利用了每个正体字包含作为词根或能够用作词根的单元的事实。

表1

表1列出字符的总体结构、子结构和对应的基本描述符，其中词根(如在表5中列出的)用字母“R”表示，组成字符的其它单元用字母“N”表示(这些其它单元可属于表4或表5)。

根据词根在字符中的位置，字符的总体结构被确定。对于给定的总体结构，根据除了词根以外的其它单元在字符中的位置，字符的多种子结构是可能的。

在表1中，通过查看与由两个单元并排组成且词根位于左侧的字符对应的情形3(第3行)和与由两个单元并排组成且词根位于右侧的字符对应的情形4(第4行)，可以看出，与字符的两个空单元的每一个对应的两个空基本描述符处于基础标记中的不同位置。

因此，通过使用在上面的表1中列出的规则并在基础标记中查看空基本描述符的位置，还可以立刻知道词根或用作词根的单元在正体字中的位置。

另外，上述方法可用于在正体字中找到所有具有相同词根的字符或者所有在相同位置具有相同词根的字符。这对于分类字符非常有用。

除了表1的规则之外的规则也可以用于在基础标记中定位空基本描述符。

作为例子，图1示出字符

如何如上所述地被细分。该字符是正体字。如图1所示，与该字符重叠的虚方块被分成4个小的矩形，即左上方矩形、左下方矩形、右上方矩形和右下方矩形。每个矩形覆盖一个单元，并且如果单元是空的，则该矩形也是空的。本字符从左到右(规则5)，然后从上到下(规则3)地读出。按读出的顺序，在左上方矩形中的第一个单元包含基本块

在左下方矩形中的第二个单元是空的。在右上方矩形中的第三个单元包含基本块

在右下方矩形中的第四个单元包含字符

第一个和第三个单元由单个基本块组成。第四个单元由重复两次的基本块

组成。

根据表1，可以看出空单元实际在第二个位置，因为字符对应于情形5(第5行)。

与第一个单元相关联的第一个基本描述符是1.0195。第一个数字是重复指数。它等于1，因为基本块在第一个单元中出现一次。为了更方便阅读，点“.”将重复指数与基础组件分离。基于表5(因为该基本块是康熙词根，具有用零开始的基础组件)，在第一个单元中的基本块的基础组件是0195。

第二个基本描述符是0.0000(空基本描述符)，因为第二个单元是空的。

第三个基本描述符是1.2851，因为基本块在第三个单元中仅出现一次，基于表4(该基本块不是康熙词根)，基本块的基础组件是2851。

第四个基本描述符是2.0142，因为基本块在第四个单元中出现两次，基于表5(因为该基本块是康熙词根，具有用零开始的基础组件)，它的基础组件是0142。

因此，用于该字符的基础标记由第一个、第二个、第三个和第四个基本描述符组成，并按该顺序书写，如下所示(参见图1)：

1.0195-0.0000-1.2851-2.0142

为了可读性的原因，4个基本描述符用连字号“-”彼此分开。可选地，它们也可以用其它符号分开或者不分开。

上述例子说明了每个基础标记与唯一的正体字相关联的事实。

接下来说明字符族的概念。

大多数的中文字符不是正体字。我们已经知道每个非正体字具有至少一个正体等同体，即正体字。非正体字实际上是至少一个正体字的异体。在现有文献(诸如字典)中可以找到非正体字的每个正体等同体。

为了编码非正体字，该字符被分配某个指示符。例如，它被分配形式指示符、可能的层级指示符以及地区指示符。

形式指示符表明非正体字的形式。该形式可以是正体，可以是正体字的异体形式、字符的错误形式(erroneous form)、字符的繁体形式、字符的简体形式、字符的避讳形式(alternative form)、字符的回避形式(prohibited form)、字符的词根形式或字符的笔画形式。学习中文的学生可以使用现有文献容易地识别上述8种形式中的哪种形式是非正体字的形式。除了上述形式之外，还有其它可能的字体，诸如甲骨文形式、金文形式、大篆形式、小篆形式、隶书形式、行书形式、草书形式(草书)。

下面的表2给出不同的字母数字字符(在本例中是不同的字母)如何被分配给每个形式。该字母是形式指示符。

表2

如果需要，更多的形式可以添加到该列表中，并且不同的字母被分配给每个形式。

非正体字可能具有许多异体。当几个(已知的)非正体字具有相同的形式指示符和基础标记时，非正体字通过将称为层级指示符的另一个指示符添加到它的基础标记和形式指示符中而与另一个非正体字区别。例如，层级指示符通过根据在康熙字典中给出的顺序增加词根的顺序和增加词根后的笔画数来分配。

例如，字符

和字符

具有：

-相同的形式指示符(Y，见表2)；

-相同的基础标记(1.0195-0.0000-1.2851-2.0142)。

为了将一个字符与另一个字符区别，层级指示符被添加到这些字符的每一个的形式指示符和基础标记中(见下面)。

层级指示符例如可以是从1开始的数字，并且被增加以将一个字符与另一个区别。

如果正体字符仅有一个具有相同的形式指示符和基础标记的非正体字，则无需向该非正体字分配层级指示符。然而，如果有可能存在另一个具有相同的形式指示符和基础标记的非正体字，则非正体字可以被分配层级指示符1。

字符还可以被分配地区指示符。地区指示符表明字符的当前地理起源。该起源的地区可以是中国大陆、日本、韩国、越南、台湾、香港、澳门、朝鲜、新加坡和马来西亚。字符所属的文本的起源或者字符来自的环境可以给出字符的当前起源。

下面的表3给出不同的字母如何被分配给上述列表的每个地理起源。可选地，可以使用定义另一个地理起源的集合的分区(诸如基于国家的不同省的分区)，并且向每一个地理起源分配不同的字母。

表3

对于每个字符，正体字或非正体字，现在可被分配至少一个代码，称为结构标记，其由形式指示符、基础标记、可能的层级指示符以及地区指示符组成。所有具有相同的基础标记的字符属于(正体字的)同一族。

某些非正体字具有几个正体等同体。因此，它们具有几个结构标记，并因此属于几个族。

另外，某些已经是正体的字符可属于除了它们自己的族之外的一个或多个族。

根据表2，正体字被分配形式指示符Z。上述的正体字

可以在来自台湾的文本中找到，因此，根据表3它被分配地区指示符T。为了可读性，地区指示符被写作形式指示符的下标。如图1所示，该整体字的结构标记是：

Z_T 1.0195-0.0000-1.2851-2.0142

例如，在台湾，字符是正体字

的变体形式，因此具有结构标记：

Y_T 1.0195-0.0000-1.2851-2.0142①

它具有层级指示符①，因为它是

的第一个图形变体。它属于正体字

的族。

本方法包括向每个字符分配结构标记，其由形式指示符、基础标记、可能的层级指示符以及地区指示符组成，该方法是对中文类型字符分类的有效方法。实际上，仅通过观察该正体字的族来找出作为正体字的图形变体的非正体字变得容易。

例如，上述两个字符属于具有基础标记1.0195-0.0000-1.2851-2.0142的族。该族还包括以下4个字符：

-正体字其具有结构标记：

Z_T1.0195-0.0000-1.2851-2.0142

-第一图形变体

其具有结构标记：

Y_T1.0195-0.0000-1.2851-2.0142①

-第二图形变体

其具有结构标记：

Y_T1.0195-0.0000-1.2851-2.0142②

-第三图形变体

其具有结构标记：

Y_T1.0195-0.0000-1.2851-2.0142③

另外，已知属于指定已存在的族的新字符(它是最近发现或创建的)可以逻辑的方式添加到字符的当前集合中。如果该新字符具有与已属于该指定族的一个或几个字符相同的形式指示符和基础标记，则该新字符仅被提供层级指示符。例如，该层级指示符通过增加该族的具有相同的形式指示符和基础标记的字符的最大已有层级指示符而获得。

下面说明“联系”和“主结构标记”的概念。

如果中文类型字符属于几个不同的族，则它被认为具有几个联系，并且这些联系的每一个对应于不同的结构标记。

字符的“联系”概念有点类似于英文中单词的“意思”的概念，因为单词(例如“shell”)可能具有不同的意思((海洋动物的)“壳”或(在军火中用作)“炸弹”)。

实际上，中文类型字符已经发展了超过几千年，很多时候第一字符已演变成第二字符，而第二字符最终与第三现有字符相同。因此，一个字符可具有几个历史或演变路径。

例如，字符

具有第一联系，其具有结构标记：

Z_T 1.0195-0.0000-1.2851-2.0142

因为它是具有基础标记1.0195-0.0000-1.2851-2.0142的族的在台湾使用的正体字(如上所示)。字符

还具有第二联系，其具有结构标记：

Y_T 1.0195-0.0000-0.0000-1.3622⑤

因为该字符也是具有基础标记1.0195-0.0000-0.0000-1.3622的族的正体字

在台湾使用的第五个(⑤)异体形式(Y)。

因此，可以看出字符

属于两个不同的族(它自己的族和正体字

的族)。

在某些情况下，字符仅属于一个族，然而，该字符可能具有多个联系。实际上，在中国大陆，字符已经被简化成简体形式。在许多情况下，族的字符的简体形式在起源上也是该族的正体字的异体形式。因此，同一个字符可在同一族中具有两个或多个联系，从而被分配两个或多个不同的结构标记。

例如，字符

具有第一联系，其具有结构标记

Y_T 1.0205-0.0000-0.0000-0.0000②

因为该字符是具有基础标记1.0205-0.0000-0.0000-0.0000的族的正体字

在台湾使用的第二个(②)异体形式(Y)(见表3)。

字符

还在同一族中具有第二联系，其具有结构标记

J_C 1.0205-0.0000-0.0000-0.0000

因为它是同一个正体字在中国大陆使用(自1964年)的简体形式(J)(见表3)。

于是，字符

具有两个联系，并因此具有两个结构标记：第一联系是第一字符的第二个异体形式，第二联系是第二相同字符

的简体形式。

可以看出，字符可具有不同的联系，并因此被分配不同的结构标记。在这些结构标记中，一个是字符的“主结构标记”，以致每个字符总是对应于唯一的“主结构标记”。

“主结构标记”如下确定：

-如果字符仅具有一个结构标记，则它的“主结构标记”是该结构标记。

-如果字符具有几个结构标记，其中一个是正体形式，则“主结构标记”是该正体形式。

-如果字符具有几个结构标记，其中没有一个是正体形式，则“主结构标记”是具有最小层级指示符的结构标记，并且如果这些结构标记中的两个或多个具有最小层级指示符，则主结构标记是这两个或多个结构标记中具有最少非零基础组件的一个。

当然，除了在此描述的方案外的其它方案也可以用于确定“主结构标记”。

许多字符具有几个联系。使用“联系”的概念允许将用中文类型字符写的文本转换成该文本的其它版本。对于原始文本的另一个版本，它意味着从原始文本开始，每个字符已被转换成该字符的另一个异体的文本。字符的该其它异体可以是例如在另一个国家使用的该字符的形式或者是该字符的传统形式。

因此，为了将用在香港使用的繁体中文写的文本转换为在中国大陆使用的简体中文，对于每个字符，可以在它的多种联系中找到其简体形式。

本发明的编码方法可以变换成计算机软件。该软件可以用多种方式实现，诸如例如：使用如在IME(输入方法编辑器)中的软件，使用如在操作系统和字符集之间的字符编码层的软件，使用如创建新标准的支持工具的软件。

本发明的优点在于所有的中文类型字符都可以使用数字(0-9)和字母(A-Z)来编码，而无需使用特殊的字母数字字符。这样，用户可以更有效并快速地使用中文类型字符的集合以及用这些字符写的文本。

如上所述的表4和表5在下面给出。

表4

表5

Claims

1.一种编码中文类型字符的方法，包括以下步骤：

(b)按所述顺序将基本描述符与所述N个单元中的每一个相关联，这些基本描述符的每一个基于其相关联的所述单元的结构；

(c)定义由在步骤(b)定义的基本描述符组成的基础标记，这些基本描述符按所述指定顺序排列。

2.如权利要求1所述的方法，其中，在步骤(a)之前执行以下步骤：

检查所述字符是否是正体，如果所述字符不是正体，则用所述字符的正体形式代替所述字符。

3.如权利要求2所述的方法，其中，所述指定顺序是书写组成所述字符的笔画的顺序。

4.如权利要求2所述的方法，其中，数量N等于4。

5.如权利要求2所述的方法，其中，包含笔画的所述单元的每一个由基本块组成，其可在所述单元中重复，所述基本块在有限的字符列表中选择。

6.如权利要求4所述的方法，其中，包含笔画的所述单元的每一个由基本块组成，其可在所述单元中重复，所述基本块在有限的字符列表中选择。

7.如权利要求6所述的方法，其中，对于所述单元的每一个，与该单元相关联的所述基本描述符由表示所述基本块在所述单元中出现的次数的重复指数和与所述基本块相关联的基础组件组成，并且所述基本描述符基于所述基本块的结构。

8.如权利要求7所述的方法，其中，所述基本块属于在表4和表5中列出的字符集合。

9.如权利要求8所述的方法，其中，所述基本描述符的每一个是一串字母数字字符。

10.一种对至少一个中文类型字符的集合分类的方法，包括以下步骤：

(a)检查所述集合的所述至少一个字符是否是正体；

(b)如果所述至少一个字符不是正体，则用所述字符的正体形式代替所述至少一个字符；

(c)按照书写组成所述至少一个字符的正体形式的笔画的顺序将所述至少一个字符的正体形式细分成4个单元，包含笔画的所述单元的每一个由基本块组成，其可在所述单元中重复，所述基本块在有限的字符列表中选择；

(d)按所述顺序将基本描述符与这4个单元的每一个相关联，这些基本描述符的每一个由表示所述基本块在所述单元中出现的次数的重复指数和与所述基本块相关联的基础组件组成，并且该基本描述符基于所述基本块的结构；

(f)当所述至少一个字符具有多于一个的正体形式时，对于所述至少一个字符的每个其它正体形式，重复步骤(b)至(e)。

11.如权利要求10所述的方法，其中，所述集合具有多于一个的中文类型字符，所述方法还执行以下步骤：

(g)对于所述集合中的每个字符，重复步骤(a)至(f)；

(h)对于所述集合中的每个正体字，将所述集合中具有与所述正体字相同的基础标记的所有字符组合在一起，从而定义所述正体字的族；

(i)对于在步骤(h)中定义的每个族，向所述族中的每个字符分配指示符，其将该字符与同一族中的其它字符相区别；

(j)向所述字符分配结构标记，其由所述指示符和所述基础标记组成。

12.如权利要求11所述的方法，其中，所述指示符包括：

-形式指示符，其从一组形式指示符中选择，所述形式指示符表明所述字符的形式；

-层级指示符，其用于将具有相同的基础标记和形式指示符的字符彼此区别；以及

-地区指示符，其从一组地区指示符中选择，所述地区指示符取决于所述字符的地理起源。

13.如权利要求12所述的方法，其中，所述形式指示符表明所述字符是否是正体字、正体字的异体、字符的错误形式、字符的繁体形式、字符的简体形式、字符的避讳形式、字符的回避形式、字符的词根形式或字符的笔画形式。

14.如权利要求13所述的方法，其中，所述地区指示符根据所述字符起源于中国大陆、日本、韩国、越南、台湾、香港、澳门、朝鲜、新加坡、马来西亚而不同。

15.如权利要求11所述的方法，其中，所述基本块属于在表4和表5中列出的字符集合。

16.如权利要求12所述的方法，其中，在步骤(j)后，将唯一的主结构标记分配给所述集合的每个字符，如下所述：

-如果字符仅有一个结构标记，则它的主结构标记是该结构标记；

-如果字符具有几个结构标记，并且其中一个是正体形式，则主结构标记是该正体形式；

-如果字符具有几个结构标记，并且没有一个是正体形式，则主结构标记是具有最小层级指示符的结构标记，如果这些结构标记中的两个或多个具有最小层级指示符，则主结构标记是这两个或多个结构标记中具有最少非零基础组件的结构标记。