CN101937459A - 基于通用音节结构的藏文字符排序装置和方法 - Google Patents

基于通用音节结构的藏文字符排序装置和方法 Download PDF

Info

Publication number
CN101937459A
CN101937459A CN201010269086XA CN201010269086A CN101937459A CN 101937459 A CN101937459 A CN 101937459A CN 201010269086X A CN201010269086X A CN 201010269086XA CN 201010269086 A CN201010269086 A CN 201010269086A CN 101937459 A CN101937459 A CN 101937459A
Authority
CN
China
Prior art keywords
syllable
consonant
tibetan language
add
tibetan
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201010269086XA
Other languages
English (en)
Inventor
黄鹤鸣
达飞鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201010269086XA priority Critical patent/CN101937459A/zh
Publication of CN101937459A publication Critical patent/CN101937459A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

一种藏文字符排序的装置和方法,该装置由预处理子装置、音节展开子装置、排序元素调用子装置和排序元素串压缩子装置组成。其中,预处理子装置对不符合通用音节结构的藏文音节和梵音藏文组合字符进行适当分解,得到一个音节序列,使得序列中的每个音节都符合通用结构;音节展开子装置对符合通用音节结构的音节按照特定顺序展开,得到与原音节序性等价的字母串;排序元素调用子装置调用展开式中每个字母的排序元素,得到排序元素串;排序元素串压缩子装置对排序元素串进行合理压缩。本发明对全部藏文音节和梵音藏文组合字符的排序结果符合传统藏文字典的排序规律。

Description

基于通用音节结构的藏文字符排序装置和方法
技术领域
本发明涉及语言文字信息处理技术,特别涉及藏语言文字信息处理技术,具体是一种基于通用音节结构的藏文字符排序装置和方法。虽然,本发明使用于广泛的应用范围,它尤其使用于信息处理装置对基于藏文字符集国际标准的藏文音节和梵音藏文组合字符的排序。
背景技术
排序是计算机系统的一个重要函数。一组字符串呈现给用户时,用户希望这组字符串是按照一定规律排序的,从而能很容易且很可靠地找到其中的某个特定字符串。排序对数据库来说也是至关重要的,不仅是为了记录的排序更是为了在给定域范围时能够选择符合条件的记录。藏文字符的计算机排序也是藏文分词、语料库建设、拼写检查、文本检索以及操作系统藏化等问题的基础,可以说,藏文字符的计算机排序是藏文信息处理的基础。
藏文字符的计算机排序要符合以下几方面的要求:
①藏文字符的计算机排序结果要符合传统字典中音节的排序规律。经过1300多年的发展,藏文传统字典中音节的排序规律已被广大藏文使用者完全接受和遵循。因此,传统藏文字典中音节的排序规律是检验藏文字符计算机排序结果是否准确的主要标准。
②藏文字符的编码要符合字符集国际标准。1997年,193个基本藏文字符被收录到ISO的基本多文种平面(Basic Multilingual Plane,简写为BMP)的0F行,从而使藏文成为我国第一个拥有国际标准的少数民族文字。2004年后,MS Windows、Linux等主流操作系统开始全面支持藏文字符集的国际标准。从此以后,包括字符排序在内的所有藏文信息处理都应完全基于字符集国际标准,否则,无法得到主流操作系统的支持。
③藏文字符的排序技术要符合相关国际标准。Unicode和ISO在充分研究古今中外各种文字排序特点的基础上,发布了ISO/IEC 14651、ISO/IEC 14652以及Unicode Technical Standard #10等技术标准,这些标准给出了编码字符计算机排序的通用规则,并给出了所有编码字符的排序元素(Collation elements)。只有完全符合这些标准的藏文字符排序技术才符合标准化要求,才能得到操作系统、应用软件的全面支持。
④要研究全部藏文的合理排序。从排序的角度出发,藏文字符串可以分为八种类型:本地藏文音节(例如:
Figure BSA00000252016800011
)、梵音藏文组合字符(例如:)、非音节藏文字母串(特指不构成本地藏文音节和梵音藏文组合字符的字母串,例如:
Figure BSA00000252016800013
)、藏文数字串(例如:)、藏文标点符号串(例如:
Figure BSA00000252016800021
)、其它文字字符串(例如:aBc)、藏文图形符号串以及混合字符串。藏文字符计算机排序的重点是本地藏文音节和梵音藏文组合字符的正确排序,但也要兼顾其余六类字符串的合理排序。
总之,藏文字符的计算机排序要从字符集的国际标准出发,排序技术要符合ISO以及Unicode的相关标准,重点解决本地藏文音节和梵音藏文组合字符的排序问题,排序结果要符合传统藏文字典的排序规律。
发明内容
为了解决现有技术中存在的上述问题,本发明提出一种基于通用音节结构的藏文字符排序装置和方法,具体技术方案如下:
一种用于对本地藏文音节和梵音藏文组合字符排序的基于通用音节结构的藏文字符排序装置装置,包括:
预处理子装置,对以
Figure BSA00000252016800022
Figure BSA00000252016800023
为后缀的藏文音节和不符合藏文音节通用结构的梵音藏文组合字符进行适当分解,得到一个音节序列,使得序列中的每个音节都符合藏文音节通用结构;
音节展开子装置,将符合藏文音节通用结构的音节按照特定顺序展成一维字母串;
排序元素调用子装置,调用一维字母串中每个字母的排序元素,然后,按照一维字母串中所有字母的第一级权重、第二级权重、第三级权重的顺序排列,得到原音节的排序元素串;
排序元素串压缩子装置,对音节的排序元素串利用游程长度等方法压缩;
所述的藏文音节通用结构由基本辅音、前加辅音、上加辅音、第一下加辅音、第二下加辅音、第一元音、第二元音/第一后加辅音和第二后加辅音组成;
所述预处理子装置对以
Figure BSA00000252016800024
Figure BSA00000252016800025
为后缀的藏文音节的预处理方法是:将
Figure BSA00000252016800026
或者
Figure BSA00000252016800027
看作独立的音节,而将剩余字母的组合看作一个音节;
所述预处理子装置对不符合藏文音节通用结构的梵音藏文组合字符的预处理方法是:将最上层的辅音看成独立的音节,考察剩余字母的组合是否符合通用音节结构,如果不符合则重复此过程,直到剩余字母的组合符合通用音节结构为止;
将符合通用结构的音节展成一维字母串的特定顺序是,按照优先级依次是,基本辅音、前加辅音、上加辅音、第一下加辅音、第二下加辅音、第一元音、第二元音/第一后加辅音和第二后加辅音;
所述的音节展开子装置把符合通用音节结构的音节按照所述的特定顺序展成一维字母串时,如果音节在某个位置上的字母空缺,则展开式的相应位置用排序元素为[.2020.0020.0002]的特殊字符填补。
一种利用上述装置对本地藏文音节和梵音藏文组合字符排序的基于通用音节结构的藏文字符排序方法,包括步骤:
1)预处理,指对以
Figure BSA00000252016800031
Figure BSA00000252016800032
为后缀的藏文音节和不符合藏文音节通用结构的梵音藏文组合字符进行适当分解,得到一个音节序列,使得序列中的每个音节都符合藏文音节通用结构;
2)音节展开,指将符合通用音节结构的音节按照特定的顺序展成一维字母串;
3)排序元素调用,指依次调用一维字母串中每个字母的排序元素,然后,按照所有字母的第一级权重、第二级权重、第三级权重的形式排列,得到原音节的排序元素串;
4)排序元素串压缩,指对音节的排序元素串利用游程长度方式压缩;
所述的藏文音节通用结构由基本辅音、前加辅音、上加辅音、第一下加辅音、第二下加辅音、第一元音、第二元音/第一后加辅音和第二后加辅音组成;
所述的预处理对以为后缀的本地藏文音节的预处理方法是:将或者
Figure BSA00000252016800036
看作独立的音节,而将剩余字母的组合看作一个音节;
所述的预处理对不符合藏文音节通用结构的梵音藏文组合字符的预处理方法是:将最上层的辅音看成独立的音节,考察剩余的字母是否符合通用音节结构,如果不是则重复此过程,直到剩余字母的组合符合通用音节结构为止;
将符合通用结构的音节展成一维字母串的特定顺序是,按照优先级依次是,基本辅音、前加辅音、上加辅音、第一下加辅音、第二下加辅音、第一元音、第二元音/第一后加辅音和第二后加辅音;
符合通用音节结构的音节按照特定的顺序展成字一维母串时,如果音节在某个位置上的字母空缺,则展开式的相应位置用排序元素为[.2020.0020.0002]的特殊字符填补。
发明的优点和积极效果
1.本发明实现了全部藏文音节和梵音藏文组合字符的计算机排序,排序结果符合传统藏文字典的排序规律;提高了排序质量和效率,是计算机对藏文文字进行高效处理的基础。
2.本发明统一用图1所示的通用结构直接或者间接表示所有藏文音节和梵音藏文组合字符,克服了藏文音节和梵音藏文组合字符无统一结构的弊端。
3.本发明统一了所有藏文音节和组合字符的展开顺序,简化了藏文字符的排序算法。
4.本发明引入排序元素为[.2020.0020.0002]的特殊字符用以填补音节展开时的空缺位置,提高了排序元素串的压缩比率。
附图说明
附图被包括而且作为本申请的一部分揭示了本发明的实例,并结合描述来解释本发明的原理。在附图中:
图1是本发明的藏文音节通用结构示意图;
图2是本发明的藏文字符排序装置示意图;
图3是本发明的通用藏文音节结构中字母的展开顺序示意图;
图4是本发明所依托的计算机系统硬件环境示意图;
图5是本发明所依托的计算机系统软件环境示意图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步说明:
图1是本发明的藏文音节通用结构。藏文是一种音节文字,有30个辅音和5个元音。30个辅音为:5个元音为:
Figure BSA00000252016800042
这些字母按照正字规律相互组合而形成藏文音节,例如:
Figure BSA00000252016800043
这样形成的音节称为本地藏文音节。本地藏文音节中,有一个是基本辅音,其他辅音根据它们相对于基本辅音的位置而分别称为前加辅音、上加辅音、下加辅音、后加辅音以及又后加辅音。例如:音节
Figure BSA00000252016800044
中,
Figure BSA00000252016800045
是基本辅音、
Figure BSA00000252016800046
是前加辅音、
Figure BSA00000252016800047
是上加辅音、
Figure BSA00000252016800048
是下加辅音、字母
Figure BSA00000252016800049
Figure BSA000002520168000410
分别是后加辅音和又后加辅音。此处,一个藏文音节中基本辅音的确定对本领域的专业人员而言是显然的。为了书写美观,上加辅音和下加辅音可能会变形,例如:字母为上加辅音时变形为
Figure BSA000002520168000412
而字母
Figure BSA000002520168000414
作下加辅音时分别变形为
Figure BSA000002520168000415
Figure BSA000002520168000416
每个本地藏文音节都有元音,如果元音是
Figure BSA000002520168000418
则分别写元音符号
Figure BSA000002520168000419
Figure BSA000002520168000420
如果元音是
Figure BSA000002520168000421
则元音符号省略。
藏民族全民信教,在佛教经典的翻译过程中借用了大量的梵文词。为了准确音译这些梵文词,创造了与本地藏文在字母系统、拼写规则等方面差异较大的梵音藏文。梵音藏文有34个辅音和16个元音,34个辅音为:16个元音为:梵音藏文对垂直方向上叠加的辅音个数没有严格的限制,但仍以音节为单位进行排序。梵音藏文音节没有前加辅音、后加辅音和又后加辅音,因此,一个梵音藏文音节最多是基本辅音、下加辅音以及元音的垂直组合,称为梵音藏文组合字符。但梵音藏文组合字符可能有两个下加辅音,例如:组合字符
Figure BSA000002520168000424
有两个下加辅音为
Figure BSA000002520168000425
也可能有两个元音,例如:组合字符有两个元音
Figure BSA00000252016800052
本地藏文音节有基本辅音、前加辅音、上加辅音、下加辅音、元音、后加辅音以及又后加辅音,而梵音藏文组合字符可能有两个元音(依次称为第一元音和第二元音),还可能有两个下加辅音(依次称为第一下加辅音和第二下加辅音)。因此,藏文音节的通用结构应该能够表示基本辅音、前加辅音、上加辅音、第一下加辅音、第二下加辅音、第一元音、第二元音、后加辅音和又后加辅音等九个字母。由于第二元音
Figure BSA00000252016800054
出现在后加辅音的位置,可以一般地让第二元音和后加辅音共用一个位置。因此,藏文音节的通用结构共有八个元素:基本辅音、前加辅音、上加辅音、第一下加辅音、第二下加辅音、第一元音、第一后加辅音/第二元音和第二后加辅音(见图1)。
图2是本发明的藏文字符排序装置图。这个排序装置由预处理子装置200、音节展开子装置202、排序元素调用子装置204以及排序元素串压缩子装置206构成。
本发明的第一个子装置是预处理子装置200,子装置200对以
Figure BSA00000252016800056
为后缀的本地藏文音节和不符合通用结构的梵音藏文组合字符进行适当分解,得到一个音节序列,使得序列中的每个音节都符合通用结构。
由于受语法影响而以
Figure BSA00000252016800057
Figure BSA00000252016800058
为后缀的本地藏文音节不符合藏文音节通用结构,这类音节有:①受属格助词
Figure BSA00000252016800059
影响的音节,例如:
Figure BSA000002520168000510
等;②受终结词
Figure BSA000002520168000511
影响的音节,例如:
Figure BSA000002520168000512
等;③受构形词缀
Figure BSA000002520168000513
影响的音节,例如:
Figure BSA000002520168000514
等;④同时受构形词缀
Figure BSA000002520168000515
和属格助词影响的音节,例如:
Figure BSA000002520168000517
对以
Figure BSA000002520168000518
Figure BSA000002520168000519
为后缀的本地藏文音节的预处理方式是:将
Figure BSA000002520168000520
Figure BSA000002520168000521
看作独立的音节,而将剩余字母的组合看作一个音节,从而得到一个每个音节都符合通用音节结构的音节序列。例如:音节中的后缀看作独立的音节后,得到音节序列
Figure BSA000002520168000525
其中的每个音节即
Figure BSA000002520168000526
Figure BSA000002520168000527
都符合通用结构。
有些梵音藏文组合字符(例如:
Figure BSA000002520168000528
)不符合藏文音节通用结构,对这类组合字符的预处理方法是:将最上层的辅音看成一个独立音节,考察剩余字母的组合是否符合藏文音节通用结构,如果不符合则重复此过程,直到剩余字母的组合符合藏文音节通用结构为止。例如:将组合字符
Figure BSA000002520168000529
的第一层辅音
Figure BSA000002520168000530
看作独立的音节后,剩余字母的组合符合通用结构,从而把组合字符
Figure BSA000002520168000532
分解成了音节序列
Figure BSA000002520168000533
这个序列中的每个音节即
Figure BSA000002520168000534
Figure BSA000002520168000535
都符合通用结构。
本发明的第二个子装置是音节展开子装置202,子装置202的功能是将符合通用结构的音节按照图3所示的顺序即按照基本辅音、前加辅音、上加辅音、第一下加辅音、第二下加辅音、第一元音、第二元音/后加辅音和又后加辅音的顺序展开;如果音节中某个位置上的字母空缺,则展开式的相应位置要用一个特殊字符(此处暂时用符号“□”表示)来替补,但要求这个特殊字符的排序元素要小于任何一个藏文字母的排序元素,从而得到一个和原音节序性等价的藏文字母串。由表1可以看出,藏文音节和它的一维展开式的序性是等价的。
               表1 二维音节的一维展开式
Figure BSA00000252016800061
本发明的第三个装置是排序元素调用子装置204。Unicode的DUCET(Default Unicode Collation Element Table,Unicode缺省排序元素表)为每个具有Unicode编码的字符规定了排序元素,例如,字母
Figure BSA00000252016800062
的排序元素为[.1C22.0020.0002.0F40]。每个排序元素由四级权重构成,每级权重是一个双字节的16进制数。其中,第一级权重用来区分不同的基本字母;第二级权重用来区分是否含有语音符号;第三级权重用来区分同一字母的不同形式,例如:同一个字母的大小写等;如果仅用前三级权重仍无法区分两个待比较字符的前后时,则可用第四级权重即字符的Unicode编码。对藏文而言,用前三级权重就可以进行合理排序。
DUCET中藏文字符的排序元素有较强的规律:①第一级权重从2021开始逐步递增到207B;②第二级权重一般为0020;③第三级权重一般为0002。本地藏文音节和梵音藏文组合字符在展成字母串时,空缺的位置要用一个特殊字符替补,但和通用音节结构相比,绝大多数本地藏文音节和梵音藏文组合字符都会有空缺位置,也就是说展开式中这个特殊字符的出现频率很高,因此,特殊字符排序元素的取值会对排序元素串的压缩效果产生很大影响。另外,这个特殊字符的排序元素要小于任何藏文字母的排序元素。因此,本发明规定这个特殊字符的排序元素为:[.0020.0020.0002]。
利用子装置204调用展开式中每个字母包括特殊字符的排序元素,便可得到音节的排序元素串。方法是:首先,依次列出展开式中所有字母包括特殊字符的第一级权重;其次,依次列出展开式中所有字母包括特殊字符的第二级权重;最后,依次列出展开式中所有字母包括特殊字符的第三级权重。例如:音节
Figure BSA00000252016800063
的展开式为
Figure BSA00000252016800064
经过子装置204后得到音节
Figure BSA00000252016800065
的排序元素串:2027 2046 2063 205B 2020 206E 2026 2063 0020 0020 0020 0020 0020 0020 0020 0020 0002 0002 0002 0002 0002 0002 0002 0002。
本发明的第四个子装置是排序元素串压缩子装置206。从音节的排序元素串可以看出,存储一个音节的排序元素串需要48字节,因此,有必要对排序元素串进行大幅度压缩。排序元素串压缩子装置206根据藏文字符排序元素的取值特点,对排序元素串采用了游程长度等方式进行压缩,取得了较好的效果。例如:音节
Figure BSA00000252016800067
的排序元素串被压缩为:62 69 88 A5 9D B0 68 A5 00 0A 00 09。
图4是本发明装置所依托的硬件环境。对于专业技术人员而言,计算机硬件系统的结构和各个组成部分的功能是显然的,但为了本技术方案的完备性,仍在此处做个简要介绍。
计算机硬件是计算机系统中各种设备的总称。计算机硬件包括中央处理器400、存储器406、输入设备402、输出设备404以及通信接口408等部件。中央处理器400是计算机系统的核心,它完成算术运算、逻辑运算等运算功能,并对指令进行分析,根据指令的要求,有目的地向各个部件发出有序控制信号,使计算机的各部件协调一致地工作。
存储器406是计算机系统的记忆装置。存储器分为主存储器和辅存储器。主存储器是存取速度快而容量小的一类存储器,辅存储器则是存取速度慢但容量很大的一类存储器。主存储器直接与CPU相连接,当前运行的程序与数据都存放在主存储器中。计算机系统执行程序和处理数据时,辅存储器中的信息只有先送入主存储器才能使用。因此,计算机系统运行时主辅存储器间始终进行着数据交换。
输入设备402用于数据输入。现代计算机系统能够接收各种各样的数据,这些数据通过不同类型的输入设备输入到计算机中。常用的输入设备有键盘(包括软键盘)、鼠标、轨迹球、光笔、光学字符阅读机、扫描仪、触摸屏等。
输出设备404用于数据输出,它把各种计算结果以数字、字符、图像、声音等形式表示出来。常见的输出设备有显示器、打印机、语音输出系统、磁记录设备等。
从数据流动的角度来看,计算机网络410也可以看作一个输入/输出设备。计算机网络410利用电缆、电话线或无线通讯等通信线路通过通信接口408将不同地理位置的具有独立功能的计算机412连接起来,实现资源共享和信息传递。
图5是本发明所依托的软件环境。软件是计算机系统必不可少的组成部分,提供了用户与硬件之间的接口。软件总体分为操作系统500和应用软件502两大类。操作系统500控制其他程序运行,管理系统资源并为用户提供操作界面。操作系统500还身负诸如内存管理、系统资源分配、设备控制、文件系统管理等基本事务。主要的操作系统有Mac OS,Open VMS,GNU/Linux,AIX,Solaris,Windows CE,Windows XP,Windows Vista等。
ISO 10646收录了包括占位辅音字母、不占位辅音字母、元音符号、语音符号、藏文数字、标点符号、图形符号等在内195个藏文基本字符,这些字符位于基本多文种平面(Basic Multilingual Plane,简称BMP)的0F行即U+0F00-U+0FFF。藏文字符集国际标准的出发点是利用基本字符动态地组合出所有藏文组合字符,要使计算机实现藏文组合字符的表示、存储、显示以及传输等功能,不仅需要藏文OpenType字库还需要操作系统支持藏文字符的动态组合。目前,藏文Opentype字库主要有Ximalaya、TibetanZT等,对操作系统版本的要求也较高,例如:Windows操作系统要求Windows XP-SP2或者更高版本。
应用软件502的种类很多,如工具软件、游戏软件、管理软件等都属于应用软件类。输入法也属于应用软件。要进行藏文字符的计算机排序,一般需要藏文输入法。藏文输入法可分为两类:基于藏文字符集国际标准或者基于其他字符集标准的。本排序装置需要安装基于藏文字符集国际标准的输入法,例如:微软的Himalaya、玛钦藏文输入法等。
用户接口504是为方便用户使用计算机资源而开发的软件,分为命令接口、程序接口和图形接口。命令接口是操作系统500为方便用户直接或间接控制自己的作业而向用户提供的一组命令;程序接口是操作系统提供给编程人员的一组系统调用命令;图形用户接口则采用图形化的操作界面,将系统各项功能、各种应用程序和文件用非常容易识别的图标直观、逼真地表示出来。图形用户接口的基本元素包括窗口、图标、菜单和对话框。
排序元素表508中存放的是每个字符的排序元素,以便系统调用。
本发明所披露的装置是藏文字符排序装置510。如图2所示,藏文字符排序装置510由预处理子装置200、音节展开子装置202、排序元素调用子装置204和排序元素串压缩子装置206组成。排序元素调用子装置204需要从排序元素表508中调用字符的排序元素。
排序引擎506可以是操作系统500的一个部件也可以是应用软件502的一个部件,还可以是一个利用应用程序接口和操作系统500以及应用软件502相联系的独立模块。排序引擎506从应用程序接口接到对一定数量字符串排序的命令,如果待排序的字符串是藏文字符串,则被传送到藏文字符排序装置510中,每个字符串依次经过藏文字符排序装置510后,得到压缩的排序元素串,将压缩排序元素串传递给排序引擎506,排序引擎506完成大量字符串的快速排序,并将排序结果传送到用户界面或者存储起来。
下面以
Figure BSA00000252016800081
以及
Figure BSA00000252016800082
为例,结合附图详细阐释本发明的实施方式。
1.音节是规范的藏文音节,因此,直接进入音节展开子装置202而不必进入预处理子装置200,音节展开子装置202将音节
Figure BSA00000252016800084
按照图3的顺序展开,得到展开式:
Figure BSA00000252016800085
其次,进入排序元素调用子装置204,子装置204从排序元素表508中调用展开式
Figure BSA00000252016800086
中每个字符的排序元素,并按照所有字母的第一级权重、第二级权重、第三级权重的顺序排列,得到音节
Figure BSA00000252016800087
的排序元素串:2027 2046 2063 205B 2020 206E 2026 2063 0020 0020 0020 0020 0020 0020 0020 0020 0002 0002 0002 0002 0002 0002 0002 0002;再次,该排序元素串通过子装置206,排序元素串被压缩为:62 69 88 A5 9D B0 68 A5 00 0A 00 09,并将压缩后的排序元素串传递给排序引擎506,从而得到音节
Figure BSA00000252016800088
的排序结果。
2.音节
Figure BSA00000252016800089
因受语法影响而不符合通用结构,该音节通过预处理子装置200后,被分割成三个音节
Figure BSA00000252016800091
Figure BSA00000252016800092
这三个音节依次进入音节展开子装置202,每个音节按照图3的顺序展开,依次得到展开式
Figure BSA00000252016800093
Figure BSA00000252016800094
其次,这三个展开式依次进入排序元素调用子装置204,子装置204从排序元素表508中调用每个字母的排序元素,并按照所有字母的第一级权重、第二级权重、第三级权重的顺序排列,分别得到音节
Figure BSA00000252016800095
的排序元素串:2043 2020 2063 205B 2020 2078 2020 2020 0020 0020 0020 0020 0020 0020 0020 0020 0002 0002 0002 0002 0002 0002 0002 0002,音节
Figure BSA00000252016800096
的排序元素串:2056 2020 2020 2020 2020 2072 2020 2020 0020 0020 0020 0020 0020 0020 0020 0020 0002 0002 0002 0002 0002 0002 0002,以及音节
Figure BSA00000252016800097
的排序元素串:2056 2020 2020 2020 2020 206E 2020 2020 0020 0020 0020 0020 0020 0020 0020 0020 0002 0002 0002 0002 0002 0002 0002;再次,这三个排序元素串依次通过子装置206,依次得到音节
Figure BSA00000252016800098
压缩后的排序元素串:62 85 62 A5 9D 62 BA 05 00 0A 00 09,音节
Figure BSA00000252016800099
压缩后的排序元素串:62 98 B9 B4 BB 00 0A 00 09,和音节
Figure BSA000002520168000910
压缩后的排序元素串:62 98 B9 B0 BB 00 0A 00 09;最后,这三个压缩后的排序元素串依次传递给排序引擎506,从而得到音节
Figure BSA000002520168000911
的排序结果。
3.梵音藏文组合字符
Figure BSA000002520168000912
不符合通用结构,通过预处理子装置200后,被分解成音节序列
Figure BSA000002520168000913
这两个音节依次进入音节展开子装置202,每个音节按照图3的顺序展开,得到音节
Figure BSA000002520168000914
的展开式:
Figure BSA000002520168000915
和音节
Figure BSA000002520168000916
的展开式:其次,这两个展开式依次进入子装置204,子装置204从排序元素表508中调用每个字母的排序元素,并按照所有字母的第一级权重、第二级权重、第三级权重的顺序排列,得到音节
Figure BSA000002520168000918
的排序元素串:203E 2020 2020 2020 2020 2020 2020 2020 0020 0020 0020 0020 0020 0020 0020 0002 0002 0002 0002 0002 0002 0002 0002 0002 和音节的排序元素串:2026 2020 2020 205B 2020 207A 2020 2020 0020 0020 0020 0020 0020 0020 0020 0020 0002 0002 0002 0002 0002 0002 0002 0002;再次,这两个排序元素串依次通过排序元素串压缩子装置206,依次得到音节
Figure BSA000002520168000920
压缩后的排序元素串:62 80 0A 00 0A 00 09和音节
Figure BSA000002520168000921
压缩后的排序元素串:62 68 BB 9D 62 BC 05 00 0A 00 09;最后,将这两个压缩后的排序元素串依次传递给排序引擎506,从而得到梵音藏文组合字符
Figure BSA000002520168000922
的排序结果。

Claims (10)

1.一种基于通用音节结构的藏文字符排序装置,其特征是包括:
预处理子装置,对以
Figure FSA00000252016700011
Figure FSA00000252016700012
为后缀的藏文音节和不符合藏文音节通用结构的梵音藏文组合字符进行分解,得到一个音节序列,该音节序列中的每个音节都符合藏文音节通用结构;
音节展开子装置,将符合藏文音节通用结构的音节按照特定顺序展成一维字母串;
排序元素调用子装置,调用一维字母串中每个字母包括特殊字符的排序元素,然后,按照一维字母串中所有字母包括特殊字符的第一级权重、第二级权重、第三级权重的顺序排列,得到原音节的排序元素串;
排序元素串压缩子装置,对音节的排序元素串进行压缩。
2.根据权利要求1所述的基于通用音节结构的藏文字符排序装置,其特征是所述预处理子装置所述的藏文音节通用结构由基本辅音、前加辅音、上加辅音、第一下加辅音、第二下加辅音、第一元音、第二元音/第一后加辅音和第二后加辅音组成。
3.根据权利要求1所述的基于通用音节结构的藏文字符排序装置,其特征是所述预处理子装置对以
Figure FSA00000252016700013
为后缀的藏文音节的预处理方法是:将
Figure FSA00000252016700015
或者看作独立的音节,而将剩余字母的组合看作一个音节;
所述的预处理子装置对不符合藏文音节通用结构的梵音藏文组合字符的预处理方法是:将最上层的辅音看成独立的音节,考察剩余字母的组合是否符合通用音节结构,如果不符合则重复此过程,直到剩余字母的组合符合通用音节结构为止。
4.根据权利要求2所述的基于通用音节结构的藏文字符排序装置,其特征是所述音节展开子装置将符合通用结构的音节展成一维字母串的特定顺序是,按照优先级依次是,基本辅音、前加辅音、上加辅音、第一下加辅音、第二下加辅音、第一元音、第二元音/第一后加辅音和第二后加辅音。
5.根据权利要求1所述的基于通用音节结构的藏文字符排序装置,其特征是所述的音节展开子装置把符合通用音节结构的音节按照所述的特定顺序展成一维字母串时,如果音节在某个位置上的字母空缺,则展开式的相应位置用排序元素为[.2020.0020.0002]的特殊字符填补。
6.一种利用权利要求1所述装置的基于通用音节结构的藏文字符排序方法,其特征是包括步骤:
1)预处理,指对以为后缀的藏文音节和不符合藏文音节通用结构的梵音藏文组合字符进行适当分解,得到一个音节序列,该音节序列中的每个音节都符合藏文音节通用结构;
2)音节展开,指将符合通用音节结构的音节按照特定的顺序展成一维字母串;
3)排序元素调用,指依次调用一维字母串中每个字母的排序元素,然后,按照所有字母的第一级权重、第二级权重、第三级权重的形式排列,得到原音节的排序元素串;
4)排序元素串压缩,指对音节的排序元素串进行压缩。
7.根据权利要求6所述的特征是基于通用音节结构的藏文字符排序方法,其所述的藏文音节通用结构由基本辅音、前加辅音、上加辅音、第一下加辅音、第二下加辅音、第一元音、第二元音/第一后加辅音和第二后加辅音组成。
8.根据权利要求6所述的特征是基于通用音节结构的藏文字符排序方法,其特征是所述的预处理对以
Figure FSA00000252016700023
为后缀的本地藏文音节的预处理方法是:将
Figure FSA00000252016700025
或者
Figure FSA00000252016700026
看作独立的音节,而将剩余字母的组合看作一个音节;
所述的预处理对不符合藏文音节通用结构的梵音藏文组合字符的预处理方法是:将最上层的辅音看成独立的音节,考察剩余的字母是否符合通用音节结构,如果不是则重复此过程,直到剩余字母的组合符合通用音节结构为止。
9.根据权利要求6所述的特征是基于通用音节结构的藏文字符排序方法,其特征是将符合通用结构的音节展成一维字母串的特定顺序是,按照优先级依次是,基本辅音、前加辅音、上加辅音、第一下加辅音、第二下加辅音、第一元音、第二元音/第一后加辅音和第二后加辅音。
10.根据权利要求6所述的特征是基于通用音节结构的藏文字符排序方法,其特征是将符合通用音节结构的音节按照特定的顺序展成字一维母串时,如果音节在某个位置上的字母空缺,则展开式的相应位置用排序元素为[.2020.0020.0002]的特殊字符填补。
CN201010269086XA 2010-08-31 2010-08-31 基于通用音节结构的藏文字符排序装置和方法 Pending CN101937459A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010269086XA CN101937459A (zh) 2010-08-31 2010-08-31 基于通用音节结构的藏文字符排序装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010269086XA CN101937459A (zh) 2010-08-31 2010-08-31 基于通用音节结构的藏文字符排序装置和方法

Publications (1)

Publication Number Publication Date
CN101937459A true CN101937459A (zh) 2011-01-05

Family

ID=43390788

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010269086XA Pending CN101937459A (zh) 2010-08-31 2010-08-31 基于通用音节结构的藏文字符排序装置和方法

Country Status (1)

Country Link
CN (1) CN101937459A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102135956A (zh) * 2011-05-06 2011-07-27 中国科学院软件研究所 一种基于词位标注的藏文分词方法
CN104408037A (zh) * 2014-12-05 2015-03-11 才智杰 藏文文本的向量模型表示方法
CN104503599A (zh) * 2015-01-13 2015-04-08 青海师范大学 一种基于36键位的藏文键盘布局和输入系统
CN107852174A (zh) * 2015-07-03 2018-03-27 基麦提松科技公司 固定长度数据的压缩方法
CN112818640A (zh) * 2021-01-28 2021-05-18 青海民族大学 一种基于哈希函数的藏文排序方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102135956A (zh) * 2011-05-06 2011-07-27 中国科学院软件研究所 一种基于词位标注的藏文分词方法
CN102135956B (zh) * 2011-05-06 2015-09-30 中国科学院软件研究所 一种基于词位标注的藏文分词方法
CN104408037A (zh) * 2014-12-05 2015-03-11 才智杰 藏文文本的向量模型表示方法
CN104503599A (zh) * 2015-01-13 2015-04-08 青海师范大学 一种基于36键位的藏文键盘布局和输入系统
CN104503599B (zh) * 2015-01-13 2017-12-26 青海师范大学 一种基于36键位的藏文输入系统
CN107852174A (zh) * 2015-07-03 2018-03-27 基麦提松科技公司 固定长度数据的压缩方法
CN112818640A (zh) * 2021-01-28 2021-05-18 青海民族大学 一种基于哈希函数的藏文排序方法

Similar Documents

Publication Publication Date Title
CN102982021B (zh) 用于消除语言转换中的多个读法的歧义的方法
JP3272288B2 (ja) 機械翻訳装置および機械翻訳方法
CN103970798B (zh) 数据的搜索和匹配
CN102439540A (zh) 输入法编辑器
CN103314369B (zh) 机器翻译装置和方法
CN101937459A (zh) 基于通用音节结构的藏文字符排序装置和方法
CN110532567A (zh) 短语的提取方法、装置、电子设备及存储介质
US20220027766A1 (en) Method for industry text increment and electronic device
CN101470701A (zh) 支持基于有限状态机的语义规则的文本分析器及其方法
CN112965909B (zh) 测试数据、测试用例生成方法及系统、存储介质
US20210312308A1 (en) Method for determining answer of question, computing device and storage medium
CN112597748A (zh) 语料生成方法、装置、设备及计算机可读存储介质
Sunitha et al. A phoneme based model for english to malayalam transliteration
JPH05266069A (ja) 中国語と日本語との間の双方向機械翻訳方式
CN112270197A (zh) 一种基于文字段落的动画草稿生成方法与装置
KR20010016679A (ko) 외국어로 표기된 한글을 한글표기로 변환하여 검색하는 시스템및 그 방법
CN101499056A (zh) 倒排参考句型语言分析方法
JP5722375B2 (ja) 文末表現変換装置、方法、及びプログラム
Rehman et al. ASCII based GUI system for arabic scripted languages: a case of urdu.
EP3255558A1 (en) Syntax analyzing device, learning device, machine translation device and recording medium
CN109727591B (zh) 一种语音搜索的方法及装置
CN110347813B (zh) 一种语料处理方法、装置、存储介质及电子设备
CN112966510A (zh) 一种基于albert的武器装备实体抽取方法、系统及存储介质
CN101414293B (zh) 可减少运算量的cyk算法进行语法分析的方法及其装置
Swaroop et al. Parts of speech tagging for Kannada

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20110105