CN101937459A

CN101937459A - 基于通用音节结构的藏文字符排序装置和方法

Info

Publication number: CN101937459A
Application number: CN201010269086XA
Authority: CN
Inventors: 黄鹤鸣; 达飞鹏
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2010-08-31
Filing date: 2010-08-31
Publication date: 2011-01-05

Abstract

一种藏文字符排序的装置和方法，该装置由预处理子装置、音节展开子装置、排序元素调用子装置和排序元素串压缩子装置组成。其中，预处理子装置对不符合通用音节结构的藏文音节和梵音藏文组合字符进行适当分解，得到一个音节序列，使得序列中的每个音节都符合通用结构；音节展开子装置对符合通用音节结构的音节按照特定顺序展开，得到与原音节序性等价的字母串；排序元素调用子装置调用展开式中每个字母的排序元素，得到排序元素串；排序元素串压缩子装置对排序元素串进行合理压缩。本发明对全部藏文音节和梵音藏文组合字符的排序结果符合传统藏文字典的排序规律。

Description

基于通用音节结构的藏文字符排序装置和方法

技术领域

本发明涉及语言文字信息处理技术，特别涉及藏语言文字信息处理技术，具体是一种基于通用音节结构的藏文字符排序装置和方法。虽然，本发明使用于广泛的应用范围，它尤其使用于信息处理装置对基于藏文字符集国际标准的藏文音节和梵音藏文组合字符的排序。

背景技术

排序是计算机系统的一个重要函数。一组字符串呈现给用户时，用户希望这组字符串是按照一定规律排序的，从而能很容易且很可靠地找到其中的某个特定字符串。排序对数据库来说也是至关重要的，不仅是为了记录的排序更是为了在给定域范围时能够选择符合条件的记录。藏文字符的计算机排序也是藏文分词、语料库建设、拼写检查、文本检索以及操作系统藏化等问题的基础，可以说，藏文字符的计算机排序是藏文信息处理的基础。

藏文字符的计算机排序要符合以下几方面的要求：

①藏文字符的计算机排序结果要符合传统字典中音节的排序规律。经过1300多年的发展，藏文传统字典中音节的排序规律已被广大藏文使用者完全接受和遵循。因此，传统藏文字典中音节的排序规律是检验藏文字符计算机排序结果是否准确的主要标准。

②藏文字符的编码要符合字符集国际标准。1997年，193个基本藏文字符被收录到ISO的基本多文种平面(Basic Multilingual Plane，简写为BMP)的0F行，从而使藏文成为我国第一个拥有国际标准的少数民族文字。2004年后，MS Windows、Linux等主流操作系统开始全面支持藏文字符集的国际标准。从此以后，包括字符排序在内的所有藏文信息处理都应完全基于字符集国际标准，否则，无法得到主流操作系统的支持。

③藏文字符的排序技术要符合相关国际标准。Unicode和ISO在充分研究古今中外各种文字排序特点的基础上，发布了ISO/IEC 14651、ISO/IEC 14652以及Unicode Technical Standard #10等技术标准，这些标准给出了编码字符计算机排序的通用规则，并给出了所有编码字符的排序元素(Collation elements)。只有完全符合这些标准的藏文字符排序技术才符合标准化要求，才能得到操作系统、应用软件的全面支持。

④要研究全部藏文的合理排序。从排序的角度出发，藏文字符串可以分为八种类型：本地藏文音节(例如：

)、梵音藏文组合字符(例如：)、非音节藏文字母串(特指不构成本地藏文音节和梵音藏文组合字符的字母串，例如：

)、藏文数字串(例如：)、藏文标点符号串(例如：

)、其它文字字符串(例如：aBc)、藏文图形符号串以及混合字符串。藏文字符计算机排序的重点是本地藏文音节和梵音藏文组合字符的正确排序，但也要兼顾其余六类字符串的合理排序。

总之，藏文字符的计算机排序要从字符集的国际标准出发，排序技术要符合ISO以及Unicode的相关标准，重点解决本地藏文音节和梵音藏文组合字符的排序问题，排序结果要符合传统藏文字典的排序规律。

发明内容

为了解决现有技术中存在的上述问题，本发明提出一种基于通用音节结构的藏文字符排序装置和方法，具体技术方案如下：

一种用于对本地藏文音节和梵音藏文组合字符排序的基于通用音节结构的藏文字符排序装置装置，包括：

预处理子装置，对以

和

为后缀的藏文音节和不符合藏文音节通用结构的梵音藏文组合字符进行适当分解，得到一个音节序列，使得序列中的每个音节都符合藏文音节通用结构；

音节展开子装置，将符合藏文音节通用结构的音节按照特定顺序展成一维字母串；

排序元素调用子装置，调用一维字母串中每个字母的排序元素，然后，按照一维字母串中所有字母的第一级权重、第二级权重、第三级权重的顺序排列，得到原音节的排序元素串；

排序元素串压缩子装置，对音节的排序元素串利用游程长度等方法压缩；

所述的藏文音节通用结构由基本辅音、前加辅音、上加辅音、第一下加辅音、第二下加辅音、第一元音、第二元音/第一后加辅音和第二后加辅音组成；

所述预处理子装置对以

和

为后缀的藏文音节的预处理方法是：将

或者

看作独立的音节，而将剩余字母的组合看作一个音节；

所述预处理子装置对不符合藏文音节通用结构的梵音藏文组合字符的预处理方法是：将最上层的辅音看成独立的音节，考察剩余字母的组合是否符合通用音节结构，如果不符合则重复此过程，直到剩余字母的组合符合通用音节结构为止；

将符合通用结构的音节展成一维字母串的特定顺序是，按照优先级依次是，基本辅音、前加辅音、上加辅音、第一下加辅音、第二下加辅音、第一元音、第二元音/第一后加辅音和第二后加辅音；

所述的音节展开子装置把符合通用音节结构的音节按照所述的特定顺序展成一维字母串时，如果音节在某个位置上的字母空缺，则展开式的相应位置用排序元素为[.2020.0020.0002]的特殊字符填补。

一种利用上述装置对本地藏文音节和梵音藏文组合字符排序的基于通用音节结构的藏文字符排序方法，包括步骤：

1)预处理，指对以

或

2)音节展开，指将符合通用音节结构的音节按照特定的顺序展成一维字母串；

3)排序元素调用，指依次调用一维字母串中每个字母的排序元素，然后，按照所有字母的第一级权重、第二级权重、第三级权重的形式排列，得到原音节的排序元素串；

4)排序元素串压缩，指对音节的排序元素串利用游程长度方式压缩；

所述的预处理对以和为后缀的本地藏文音节的预处理方法是：将或者

看作独立的音节，而将剩余字母的组合看作一个音节；

所述的预处理对不符合藏文音节通用结构的梵音藏文组合字符的预处理方法是：将最上层的辅音看成独立的音节，考察剩余的字母是否符合通用音节结构，如果不是则重复此过程，直到剩余字母的组合符合通用音节结构为止；

符合通用音节结构的音节按照特定的顺序展成字一维母串时，如果音节在某个位置上的字母空缺，则展开式的相应位置用排序元素为[.2020.0020.0002]的特殊字符填补。

发明的优点和积极效果

1.本发明实现了全部藏文音节和梵音藏文组合字符的计算机排序，排序结果符合传统藏文字典的排序规律；提高了排序质量和效率，是计算机对藏文文字进行高效处理的基础。

2.本发明统一用图1所示的通用结构直接或者间接表示所有藏文音节和梵音藏文组合字符，克服了藏文音节和梵音藏文组合字符无统一结构的弊端。

3.本发明统一了所有藏文音节和组合字符的展开顺序，简化了藏文字符的排序算法。

4.本发明引入排序元素为[.2020.0020.0002]的特殊字符用以填补音节展开时的空缺位置，提高了排序元素串的压缩比率。

附图说明

附图被包括而且作为本申请的一部分揭示了本发明的实例，并结合描述来解释本发明的原理。在附图中：

图1是本发明的藏文音节通用结构示意图；

图2是本发明的藏文字符排序装置示意图；

图3是本发明的通用藏文音节结构中字母的展开顺序示意图；

图4是本发明所依托的计算机系统硬件环境示意图；

图5是本发明所依托的计算机系统软件环境示意图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步说明：

图1是本发明的藏文音节通用结构。藏文是一种音节文字，有30个辅音和5个元音。30个辅音为：5个元音为：

这些字母按照正字规律相互组合而形成藏文音节，例如：

这样形成的音节称为本地藏文音节。本地藏文音节中，有一个是基本辅音，其他辅音根据它们相对于基本辅音的位置而分别称为前加辅音、上加辅音、下加辅音、后加辅音以及又后加辅音。例如：音节

中，

是基本辅音、

是前加辅音、

是上加辅音、

是下加辅音、字母

和

分别是后加辅音和又后加辅音。此处，一个藏文音节中基本辅音的确定对本领域的专业人员而言是显然的。为了书写美观，上加辅音和下加辅音可能会变形，例如：字母为上加辅音时变形为

而字母和

作下加辅音时分别变形为

和

每个本地藏文音节都有元音，如果元音是或

则分别写元音符号

或

如果元音是

则元音符号省略。

藏民族全民信教，在佛教经典的翻译过程中借用了大量的梵文词。为了准确音译这些梵文词，创造了与本地藏文在字母系统、拼写规则等方面差异较大的梵音藏文。梵音藏文有34个辅音和16个元音，34个辅音为：16个元音为：梵音藏文对垂直方向上叠加的辅音个数没有严格的限制，但仍以音节为单位进行排序。梵音藏文音节没有前加辅音、后加辅音和又后加辅音，因此，一个梵音藏文音节最多是基本辅音、下加辅音以及元音的垂直组合，称为梵音藏文组合字符。但梵音藏文组合字符可能有两个下加辅音，例如：组合字符

有两个下加辅音为

和也可能有两个元音，例如：组合字符有两个元音

和

本地藏文音节有基本辅音、前加辅音、上加辅音、下加辅音、元音、后加辅音以及又后加辅音，而梵音藏文组合字符可能有两个元音(依次称为第一元音和第二元音)，还可能有两个下加辅音(依次称为第一下加辅音和第二下加辅音)。因此，藏文音节的通用结构应该能够表示基本辅音、前加辅音、上加辅音、第一下加辅音、第二下加辅音、第一元音、第二元音、后加辅音和又后加辅音等九个字母。由于第二元音

出现在后加辅音的位置，可以一般地让第二元音和后加辅音共用一个位置。因此，藏文音节的通用结构共有八个元素：基本辅音、前加辅音、上加辅音、第一下加辅音、第二下加辅音、第一元音、第一后加辅音/第二元音和第二后加辅音(见图1)。

图2是本发明的藏文字符排序装置图。这个排序装置由预处理子装置200、音节展开子装置202、排序元素调用子装置204以及排序元素串压缩子装置206构成。

本发明的第一个子装置是预处理子装置200，子装置200对以和

为后缀的本地藏文音节和不符合通用结构的梵音藏文组合字符进行适当分解，得到一个音节序列，使得序列中的每个音节都符合通用结构。

由于受语法影响而以

或

为后缀的本地藏文音节不符合藏文音节通用结构，这类音节有：①受属格助词

影响的音节，例如：

等；②受终结词

影响的音节，例如：

等；③受构形词缀

影响的音节，例如：

等；④同时受构形词缀

和属格助词影响的音节，例如：

对以

或

为后缀的本地藏文音节的预处理方式是：将

和

看作独立的音节，而将剩余字母的组合看作一个音节，从而得到一个每个音节都符合通用音节结构的音节序列。例如：音节中的后缀和看作独立的音节后，得到音节序列

其中的每个音节即

和

都符合通用结构。

有些梵音藏文组合字符(例如：

)不符合藏文音节通用结构，对这类组合字符的预处理方法是：将最上层的辅音看成一个独立音节，考察剩余字母的组合是否符合藏文音节通用结构，如果不符合则重复此过程，直到剩余字母的组合符合藏文音节通用结构为止。例如：将组合字符

的第一层辅音

看作独立的音节后，剩余字母的组合符合通用结构，从而把组合字符

分解成了音节序列

这个序列中的每个音节即

和

都符合通用结构。

本发明的第二个子装置是音节展开子装置202，子装置202的功能是将符合通用结构的音节按照图3所示的顺序即按照基本辅音、前加辅音、上加辅音、第一下加辅音、第二下加辅音、第一元音、第二元音/后加辅音和又后加辅音的顺序展开；如果音节中某个位置上的字母空缺，则展开式的相应位置要用一个特殊字符(此处暂时用符号“□”表示)来替补，但要求这个特殊字符的排序元素要小于任何一个藏文字母的排序元素，从而得到一个和原音节序性等价的藏文字母串。由表1可以看出，藏文音节和它的一维展开式的序性是等价的。

表1 二维音节的一维展开式

本发明的第三个装置是排序元素调用子装置204。Unicode的DUCET(Default Unicode Collation Element Table，Unicode缺省排序元素表)为每个具有Unicode编码的字符规定了排序元素，例如，字母

的排序元素为[.1C22.0020.0002.0F40]。每个排序元素由四级权重构成，每级权重是一个双字节的16进制数。其中，第一级权重用来区分不同的基本字母；第二级权重用来区分是否含有语音符号；第三级权重用来区分同一字母的不同形式，例如：同一个字母的大小写等；如果仅用前三级权重仍无法区分两个待比较字符的前后时，则可用第四级权重即字符的Unicode编码。对藏文而言，用前三级权重就可以进行合理排序。

DUCET中藏文字符的排序元素有较强的规律：①第一级权重从2021开始逐步递增到207B；②第二级权重一般为0020；③第三级权重一般为0002。本地藏文音节和梵音藏文组合字符在展成字母串时，空缺的位置要用一个特殊字符替补，但和通用音节结构相比，绝大多数本地藏文音节和梵音藏文组合字符都会有空缺位置，也就是说展开式中这个特殊字符的出现频率很高，因此，特殊字符排序元素的取值会对排序元素串的压缩效果产生很大影响。另外，这个特殊字符的排序元素要小于任何藏文字母的排序元素。因此，本发明规定这个特殊字符的排序元素为：[.0020.0020.0002]。

利用子装置204调用展开式中每个字母包括特殊字符的排序元素，便可得到音节的排序元素串。方法是：首先，依次列出展开式中所有字母包括特殊字符的第一级权重；其次，依次列出展开式中所有字母包括特殊字符的第二级权重；最后，依次列出展开式中所有字母包括特殊字符的第三级权重。例如：音节

的展开式为

经过子装置204后得到音节

的排序元素串：2027 2046 2063 205B 2020 206E 2026 2063 0020 0020 0020 0020 0020 0020 0020 0020 0002 0002 0002 0002 0002 0002 0002 0002。

本发明的第四个子装置是排序元素串压缩子装置206。从音节的排序元素串可以看出，存储一个音节的排序元素串需要48字节，因此，有必要对排序元素串进行大幅度压缩。排序元素串压缩子装置206根据藏文字符排序元素的取值特点，对排序元素串采用了游程长度等方式进行压缩，取得了较好的效果。例如：音节

的排序元素串被压缩为：62 69 88 A5 9D B0 68 A5 00 0A 00 09。

图4是本发明装置所依托的硬件环境。对于专业技术人员而言，计算机硬件系统的结构和各个组成部分的功能是显然的，但为了本技术方案的完备性，仍在此处做个简要介绍。

计算机硬件是计算机系统中各种设备的总称。计算机硬件包括中央处理器400、存储器406、输入设备402、输出设备404以及通信接口408等部件。中央处理器400是计算机系统的核心，它完成算术运算、逻辑运算等运算功能，并对指令进行分析，根据指令的要求，有目的地向各个部件发出有序控制信号，使计算机的各部件协调一致地工作。

存储器406是计算机系统的记忆装置。存储器分为主存储器和辅存储器。主存储器是存取速度快而容量小的一类存储器，辅存储器则是存取速度慢但容量很大的一类存储器。主存储器直接与CPU相连接，当前运行的程序与数据都存放在主存储器中。计算机系统执行程序和处理数据时，辅存储器中的信息只有先送入主存储器才能使用。因此，计算机系统运行时主辅存储器间始终进行着数据交换。

输入设备402用于数据输入。现代计算机系统能够接收各种各样的数据，这些数据通过不同类型的输入设备输入到计算机中。常用的输入设备有键盘(包括软键盘)、鼠标、轨迹球、光笔、光学字符阅读机、扫描仪、触摸屏等。

输出设备404用于数据输出，它把各种计算结果以数字、字符、图像、声音等形式表示出来。常见的输出设备有显示器、打印机、语音输出系统、磁记录设备等。

从数据流动的角度来看，计算机网络410也可以看作一个输入/输出设备。计算机网络410利用电缆、电话线或无线通讯等通信线路通过通信接口408将不同地理位置的具有独立功能的计算机412连接起来，实现资源共享和信息传递。

图5是本发明所依托的软件环境。软件是计算机系统必不可少的组成部分，提供了用户与硬件之间的接口。软件总体分为操作系统500和应用软件502两大类。操作系统500控制其他程序运行，管理系统资源并为用户提供操作界面。操作系统500还身负诸如内存管理、系统资源分配、设备控制、文件系统管理等基本事务。主要的操作系统有Mac OS，Open VMS，GNU/Linux，AIX，Solaris，Windows CE，Windows XP，Windows Vista等。

ISO 10646收录了包括占位辅音字母、不占位辅音字母、元音符号、语音符号、藏文数字、标点符号、图形符号等在内195个藏文基本字符，这些字符位于基本多文种平面(Basic Multilingual Plane，简称BMP)的0F行即U+0F00-U+0FFF。藏文字符集国际标准的出发点是利用基本字符动态地组合出所有藏文组合字符，要使计算机实现藏文组合字符的表示、存储、显示以及传输等功能，不仅需要藏文OpenType字库还需要操作系统支持藏文字符的动态组合。目前，藏文Opentype字库主要有Ximalaya、TibetanZT等，对操作系统版本的要求也较高，例如：Windows操作系统要求Windows XP-SP2或者更高版本。

应用软件502的种类很多，如工具软件、游戏软件、管理软件等都属于应用软件类。输入法也属于应用软件。要进行藏文字符的计算机排序，一般需要藏文输入法。藏文输入法可分为两类：基于藏文字符集国际标准或者基于其他字符集标准的。本排序装置需要安装基于藏文字符集国际标准的输入法，例如：微软的Himalaya、玛钦藏文输入法等。

用户接口504是为方便用户使用计算机资源而开发的软件，分为命令接口、程序接口和图形接口。命令接口是操作系统500为方便用户直接或间接控制自己的作业而向用户提供的一组命令；程序接口是操作系统提供给编程人员的一组系统调用命令；图形用户接口则采用图形化的操作界面，将系统各项功能、各种应用程序和文件用非常容易识别的图标直观、逼真地表示出来。图形用户接口的基本元素包括窗口、图标、菜单和对话框。

排序元素表508中存放的是每个字符的排序元素，以便系统调用。

本发明所披露的装置是藏文字符排序装置510。如图2所示，藏文字符排序装置510由预处理子装置200、音节展开子装置202、排序元素调用子装置204和排序元素串压缩子装置206组成。排序元素调用子装置204需要从排序元素表508中调用字符的排序元素。

排序引擎506可以是操作系统500的一个部件也可以是应用软件502的一个部件，还可以是一个利用应用程序接口和操作系统500以及应用软件502相联系的独立模块。排序引擎506从应用程序接口接到对一定数量字符串排序的命令，如果待排序的字符串是藏文字符串，则被传送到藏文字符排序装置510中，每个字符串依次经过藏文字符排序装置510后，得到压缩的排序元素串，将压缩排序元素串传递给排序引擎506，排序引擎506完成大量字符串的快速排序，并将排序结果传送到用户界面或者存储起来。

下面以

以及

为例，结合附图详细阐释本发明的实施方式。

1.音节是规范的藏文音节，因此，直接进入音节展开子装置202而不必进入预处理子装置200，音节展开子装置202将音节

按照图3的顺序展开，得到展开式：

其次，进入排序元素调用子装置204，子装置204从排序元素表508中调用展开式

中每个字符的排序元素，并按照所有字母的第一级权重、第二级权重、第三级权重的顺序排列，得到音节

的排序元素串：2027 2046 2063 205B 2020 206E 2026 2063 0020 0020 0020 0020 0020 0020 0020 0020 0002 0002 0002 0002 0002 0002 0002 0002；再次，该排序元素串通过子装置206，排序元素串被压缩为：62 69 88 A5 9D B0 68 A5 00 0A 00 09，并将压缩后的排序元素串传递给排序引擎506，从而得到音节

的排序结果。

2.音节

因受语法影响而不符合通用结构，该音节通过预处理子装置200后，被分割成三个音节

和

这三个音节依次进入音节展开子装置202，每个音节按照图3的顺序展开，依次得到展开式

和

其次，这三个展开式依次进入排序元素调用子装置204，子装置204从排序元素表508中调用每个字母的排序元素，并按照所有字母的第一级权重、第二级权重、第三级权重的顺序排列，分别得到音节

的排序元素串：2043 2020 2063 205B 2020 2078 2020 2020 0020 0020 0020 0020 0020 0020 0020 0020 0002 0002 0002 0002 0002 0002 0002 0002，音节

的排序元素串：2056 2020 2020 2020 2020 2072 2020 2020 0020 0020 0020 0020 0020 0020 0020 0020 0002 0002 0002 0002 0002 0002 0002，以及音节

的排序元素串：2056 2020 2020 2020 2020 206E 2020 2020 0020 0020 0020 0020 0020 0020 0020 0020 0002 0002 0002 0002 0002 0002 0002；再次，这三个排序元素串依次通过子装置206，依次得到音节

压缩后的排序元素串：62 85 62 A5 9D 62 BA 05 00 0A 00 09，音节

压缩后的排序元素串：62 98 B9 B4 BB 00 0A 00 09，和音节

压缩后的排序元素串：62 98 B9 B0 BB 00 0A 00 09；最后，这三个压缩后的排序元素串依次传递给排序引擎506，从而得到音节

的排序结果。

3.梵音藏文组合字符

不符合通用结构，通过预处理子装置200后，被分解成音节序列

这两个音节依次进入音节展开子装置202，每个音节按照图3的顺序展开，得到音节

的展开式：

和音节

的展开式：其次，这两个展开式依次进入子装置204，子装置204从排序元素表508中调用每个字母的排序元素，并按照所有字母的第一级权重、第二级权重、第三级权重的顺序排列，得到音节

的排序元素串：203E 2020 2020 2020 2020 2020 2020 2020 0020 0020 0020 0020 0020 0020 0020 0002 0002 0002 0002 0002 0002 0002 0002 0002 和音节的排序元素串：2026 2020 2020 205B 2020 207A 2020 2020 0020 0020 0020 0020 0020 0020 0020 0020 0002 0002 0002 0002 0002 0002 0002 0002；再次，这两个排序元素串依次通过排序元素串压缩子装置206，依次得到音节

压缩后的排序元素串：62 80 0A 00 0A 00 09和音节

压缩后的排序元素串：62 68 BB 9D 62 BC 05 00 0A 00 09；最后，将这两个压缩后的排序元素串依次传递给排序引擎506，从而得到梵音藏文组合字符

的排序结果。

Claims

1.一种基于通用音节结构的藏文字符排序装置，其特征是包括：

预处理子装置，对以

和

为后缀的藏文音节和不符合藏文音节通用结构的梵音藏文组合字符进行分解，得到一个音节序列，该音节序列中的每个音节都符合藏文音节通用结构；

排序元素调用子装置，调用一维字母串中每个字母包括特殊字符的排序元素，然后，按照一维字母串中所有字母包括特殊字符的第一级权重、第二级权重、第三级权重的顺序排列，得到原音节的排序元素串；

排序元素串压缩子装置，对音节的排序元素串进行压缩。

2.根据权利要求1所述的基于通用音节结构的藏文字符排序装置，其特征是所述预处理子装置所述的藏文音节通用结构由基本辅音、前加辅音、上加辅音、第一下加辅音、第二下加辅音、第一元音、第二元音/第一后加辅音和第二后加辅音组成。

3.根据权利要求1所述的基于通用音节结构的藏文字符排序装置，其特征是所述预处理子装置对以

和为后缀的藏文音节的预处理方法是：将

或者看作独立的音节，而将剩余字母的组合看作一个音节；

所述的预处理子装置对不符合藏文音节通用结构的梵音藏文组合字符的预处理方法是：将最上层的辅音看成独立的音节，考察剩余字母的组合是否符合通用音节结构，如果不符合则重复此过程，直到剩余字母的组合符合通用音节结构为止。

4.根据权利要求2所述的基于通用音节结构的藏文字符排序装置，其特征是所述音节展开子装置将符合通用结构的音节展成一维字母串的特定顺序是，按照优先级依次是，基本辅音、前加辅音、上加辅音、第一下加辅音、第二下加辅音、第一元音、第二元音/第一后加辅音和第二后加辅音。

5.根据权利要求1所述的基于通用音节结构的藏文字符排序装置，其特征是所述的音节展开子装置把符合通用音节结构的音节按照所述的特定顺序展成一维字母串时，如果音节在某个位置上的字母空缺，则展开式的相应位置用排序元素为[.2020.0020.0002]的特殊字符填补。

6.一种利用权利要求1所述装置的基于通用音节结构的藏文字符排序方法，其特征是包括步骤：

1)预处理，指对以或为后缀的藏文音节和不符合藏文音节通用结构的梵音藏文组合字符进行适当分解，得到一个音节序列，该音节序列中的每个音节都符合藏文音节通用结构；

4)排序元素串压缩，指对音节的排序元素串进行压缩。

7.根据权利要求6所述的特征是基于通用音节结构的藏文字符排序方法，其所述的藏文音节通用结构由基本辅音、前加辅音、上加辅音、第一下加辅音、第二下加辅音、第一元音、第二元音/第一后加辅音和第二后加辅音组成。

8.根据权利要求6所述的特征是基于通用音节结构的藏文字符排序方法，其特征是所述的预处理对以

和为后缀的本地藏文音节的预处理方法是：将

或者

看作独立的音节，而将剩余字母的组合看作一个音节；

所述的预处理对不符合藏文音节通用结构的梵音藏文组合字符的预处理方法是：将最上层的辅音看成独立的音节，考察剩余的字母是否符合通用音节结构，如果不是则重复此过程，直到剩余字母的组合符合通用音节结构为止。

9.根据权利要求6所述的特征是基于通用音节结构的藏文字符排序方法，其特征是将符合通用结构的音节展成一维字母串的特定顺序是，按照优先级依次是，基本辅音、前加辅音、上加辅音、第一下加辅音、第二下加辅音、第一元音、第二元音/第一后加辅音和第二后加辅音。

10.根据权利要求6所述的特征是基于通用音节结构的藏文字符排序方法，其特征是将符合通用音节结构的音节按照特定的顺序展成字一维母串时，如果音节在某个位置上的字母空缺，则展开式的相应位置用排序元素为[.2020.0020.0002]的特殊字符填补。