CN101937459A - 基于通用音节结构的藏文字符排序装置和方法 - Google Patents
基于通用音节结构的藏文字符排序装置和方法 Download PDFInfo
- Publication number
- CN101937459A CN101937459A CN201010269086XA CN201010269086A CN101937459A CN 101937459 A CN101937459 A CN 101937459A CN 201010269086X A CN201010269086X A CN 201010269086XA CN 201010269086 A CN201010269086 A CN 201010269086A CN 101937459 A CN101937459 A CN 101937459A
- Authority
- CN
- China
- Prior art keywords
- syllable
- consonant
- tibetan language
- add
- tibetan
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
一种藏文字符排序的装置和方法,该装置由预处理子装置、音节展开子装置、排序元素调用子装置和排序元素串压缩子装置组成。其中,预处理子装置对不符合通用音节结构的藏文音节和梵音藏文组合字符进行适当分解,得到一个音节序列,使得序列中的每个音节都符合通用结构;音节展开子装置对符合通用音节结构的音节按照特定顺序展开,得到与原音节序性等价的字母串;排序元素调用子装置调用展开式中每个字母的排序元素,得到排序元素串;排序元素串压缩子装置对排序元素串进行合理压缩。本发明对全部藏文音节和梵音藏文组合字符的排序结果符合传统藏文字典的排序规律。
Description
技术领域
本发明涉及语言文字信息处理技术,特别涉及藏语言文字信息处理技术,具体是一种基于通用音节结构的藏文字符排序装置和方法。虽然,本发明使用于广泛的应用范围,它尤其使用于信息处理装置对基于藏文字符集国际标准的藏文音节和梵音藏文组合字符的排序。
背景技术
排序是计算机系统的一个重要函数。一组字符串呈现给用户时,用户希望这组字符串是按照一定规律排序的,从而能很容易且很可靠地找到其中的某个特定字符串。排序对数据库来说也是至关重要的,不仅是为了记录的排序更是为了在给定域范围时能够选择符合条件的记录。藏文字符的计算机排序也是藏文分词、语料库建设、拼写检查、文本检索以及操作系统藏化等问题的基础,可以说,藏文字符的计算机排序是藏文信息处理的基础。
藏文字符的计算机排序要符合以下几方面的要求:
①藏文字符的计算机排序结果要符合传统字典中音节的排序规律。经过1300多年的发展,藏文传统字典中音节的排序规律已被广大藏文使用者完全接受和遵循。因此,传统藏文字典中音节的排序规律是检验藏文字符计算机排序结果是否准确的主要标准。
②藏文字符的编码要符合字符集国际标准。1997年,193个基本藏文字符被收录到ISO的基本多文种平面(Basic Multilingual Plane,简写为BMP)的0F行,从而使藏文成为我国第一个拥有国际标准的少数民族文字。2004年后,MS Windows、Linux等主流操作系统开始全面支持藏文字符集的国际标准。从此以后,包括字符排序在内的所有藏文信息处理都应完全基于字符集国际标准,否则,无法得到主流操作系统的支持。
③藏文字符的排序技术要符合相关国际标准。Unicode和ISO在充分研究古今中外各种文字排序特点的基础上,发布了ISO/IEC 14651、ISO/IEC 14652以及Unicode Technical Standard #10等技术标准,这些标准给出了编码字符计算机排序的通用规则,并给出了所有编码字符的排序元素(Collation elements)。只有完全符合这些标准的藏文字符排序技术才符合标准化要求,才能得到操作系统、应用软件的全面支持。
④要研究全部藏文的合理排序。从排序的角度出发,藏文字符串可以分为八种类型:本地藏文音节(例如:)、梵音藏文组合字符(例如:)、非音节藏文字母串(特指不构成本地藏文音节和梵音藏文组合字符的字母串,例如:)、藏文数字串(例如:)、藏文标点符号串(例如:)、其它文字字符串(例如:aBc)、藏文图形符号串以及混合字符串。藏文字符计算机排序的重点是本地藏文音节和梵音藏文组合字符的正确排序,但也要兼顾其余六类字符串的合理排序。
总之,藏文字符的计算机排序要从字符集的国际标准出发,排序技术要符合ISO以及Unicode的相关标准,重点解决本地藏文音节和梵音藏文组合字符的排序问题,排序结果要符合传统藏文字典的排序规律。
发明内容
为了解决现有技术中存在的上述问题,本发明提出一种基于通用音节结构的藏文字符排序装置和方法,具体技术方案如下:
一种用于对本地藏文音节和梵音藏文组合字符排序的基于通用音节结构的藏文字符排序装置装置,包括:
音节展开子装置,将符合藏文音节通用结构的音节按照特定顺序展成一维字母串;
排序元素调用子装置,调用一维字母串中每个字母的排序元素,然后,按照一维字母串中所有字母的第一级权重、第二级权重、第三级权重的顺序排列,得到原音节的排序元素串;
排序元素串压缩子装置,对音节的排序元素串利用游程长度等方法压缩;
所述的藏文音节通用结构由基本辅音、前加辅音、上加辅音、第一下加辅音、第二下加辅音、第一元音、第二元音/第一后加辅音和第二后加辅音组成;
所述预处理子装置对不符合藏文音节通用结构的梵音藏文组合字符的预处理方法是:将最上层的辅音看成独立的音节,考察剩余字母的组合是否符合通用音节结构,如果不符合则重复此过程,直到剩余字母的组合符合通用音节结构为止;
将符合通用结构的音节展成一维字母串的特定顺序是,按照优先级依次是,基本辅音、前加辅音、上加辅音、第一下加辅音、第二下加辅音、第一元音、第二元音/第一后加辅音和第二后加辅音;
所述的音节展开子装置把符合通用音节结构的音节按照所述的特定顺序展成一维字母串时,如果音节在某个位置上的字母空缺,则展开式的相应位置用排序元素为[.2020.0020.0002]的特殊字符填补。
一种利用上述装置对本地藏文音节和梵音藏文组合字符排序的基于通用音节结构的藏文字符排序方法,包括步骤:
2)音节展开,指将符合通用音节结构的音节按照特定的顺序展成一维字母串;
3)排序元素调用,指依次调用一维字母串中每个字母的排序元素,然后,按照所有字母的第一级权重、第二级权重、第三级权重的形式排列,得到原音节的排序元素串;
4)排序元素串压缩,指对音节的排序元素串利用游程长度方式压缩;
所述的藏文音节通用结构由基本辅音、前加辅音、上加辅音、第一下加辅音、第二下加辅音、第一元音、第二元音/第一后加辅音和第二后加辅音组成;
所述的预处理对不符合藏文音节通用结构的梵音藏文组合字符的预处理方法是:将最上层的辅音看成独立的音节,考察剩余的字母是否符合通用音节结构,如果不是则重复此过程,直到剩余字母的组合符合通用音节结构为止;
将符合通用结构的音节展成一维字母串的特定顺序是,按照优先级依次是,基本辅音、前加辅音、上加辅音、第一下加辅音、第二下加辅音、第一元音、第二元音/第一后加辅音和第二后加辅音;
符合通用音节结构的音节按照特定的顺序展成字一维母串时,如果音节在某个位置上的字母空缺,则展开式的相应位置用排序元素为[.2020.0020.0002]的特殊字符填补。
发明的优点和积极效果
1.本发明实现了全部藏文音节和梵音藏文组合字符的计算机排序,排序结果符合传统藏文字典的排序规律;提高了排序质量和效率,是计算机对藏文文字进行高效处理的基础。
2.本发明统一用图1所示的通用结构直接或者间接表示所有藏文音节和梵音藏文组合字符,克服了藏文音节和梵音藏文组合字符无统一结构的弊端。
3.本发明统一了所有藏文音节和组合字符的展开顺序,简化了藏文字符的排序算法。
4.本发明引入排序元素为[.2020.0020.0002]的特殊字符用以填补音节展开时的空缺位置,提高了排序元素串的压缩比率。
附图说明
附图被包括而且作为本申请的一部分揭示了本发明的实例,并结合描述来解释本发明的原理。在附图中:
图1是本发明的藏文音节通用结构示意图;
图2是本发明的藏文字符排序装置示意图;
图3是本发明的通用藏文音节结构中字母的展开顺序示意图;
图4是本发明所依托的计算机系统硬件环境示意图;
图5是本发明所依托的计算机系统软件环境示意图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步说明:
图1是本发明的藏文音节通用结构。藏文是一种音节文字,有30个辅音和5个元音。30个辅音为:5个元音为:这些字母按照正字规律相互组合而形成藏文音节,例如:这样形成的音节称为本地藏文音节。本地藏文音节中,有一个是基本辅音,其他辅音根据它们相对于基本辅音的位置而分别称为前加辅音、上加辅音、下加辅音、后加辅音以及又后加辅音。例如:音节中,是基本辅音、是前加辅音、是上加辅音、是下加辅音、字母和分别是后加辅音和又后加辅音。此处,一个藏文音节中基本辅音的确定对本领域的专业人员而言是显然的。为了书写美观,上加辅音和下加辅音可能会变形,例如:字母为上加辅音时变形为而字母和作下加辅音时分别变形为和每个本地藏文音节都有元音,如果元音是或则分别写元音符号或如果元音是则元音符号省略。
藏民族全民信教,在佛教经典的翻译过程中借用了大量的梵文词。为了准确音译这些梵文词,创造了与本地藏文在字母系统、拼写规则等方面差异较大的梵音藏文。梵音藏文有34个辅音和16个元音,34个辅音为:16个元音为:梵音藏文对垂直方向上叠加的辅音个数没有严格的限制,但仍以音节为单位进行排序。梵音藏文音节没有前加辅音、后加辅音和又后加辅音,因此,一个梵音藏文音节最多是基本辅音、下加辅音以及元音的垂直组合,称为梵音藏文组合字符。但梵音藏文组合字符可能有两个下加辅音,例如:组合字符有两个下加辅音为和也可能有两个元音,例如:组合字符有两个元音和
本地藏文音节有基本辅音、前加辅音、上加辅音、下加辅音、元音、后加辅音以及又后加辅音,而梵音藏文组合字符可能有两个元音(依次称为第一元音和第二元音),还可能有两个下加辅音(依次称为第一下加辅音和第二下加辅音)。因此,藏文音节的通用结构应该能够表示基本辅音、前加辅音、上加辅音、第一下加辅音、第二下加辅音、第一元音、第二元音、后加辅音和又后加辅音等九个字母。由于第二元音出现在后加辅音的位置,可以一般地让第二元音和后加辅音共用一个位置。因此,藏文音节的通用结构共有八个元素:基本辅音、前加辅音、上加辅音、第一下加辅音、第二下加辅音、第一元音、第一后加辅音/第二元音和第二后加辅音(见图1)。
图2是本发明的藏文字符排序装置图。这个排序装置由预处理子装置200、音节展开子装置202、排序元素调用子装置204以及排序元素串压缩子装置206构成。
由于受语法影响而以或为后缀的本地藏文音节不符合藏文音节通用结构,这类音节有:①受属格助词影响的音节,例如:等;②受终结词影响的音节,例如:等;③受构形词缀影响的音节,例如:等;④同时受构形词缀和属格助词影响的音节,例如:对以或为后缀的本地藏文音节的预处理方式是:将和看作独立的音节,而将剩余字母的组合看作一个音节,从而得到一个每个音节都符合通用音节结构的音节序列。例如:音节中的后缀和看作独立的音节后,得到音节序列其中的每个音节即和都符合通用结构。
有些梵音藏文组合字符(例如:)不符合藏文音节通用结构,对这类组合字符的预处理方法是:将最上层的辅音看成一个独立音节,考察剩余字母的组合是否符合藏文音节通用结构,如果不符合则重复此过程,直到剩余字母的组合符合藏文音节通用结构为止。例如:将组合字符的第一层辅音看作独立的音节后,剩余字母的组合符合通用结构,从而把组合字符分解成了音节序列这个序列中的每个音节即和都符合通用结构。
本发明的第二个子装置是音节展开子装置202,子装置202的功能是将符合通用结构的音节按照图3所示的顺序即按照基本辅音、前加辅音、上加辅音、第一下加辅音、第二下加辅音、第一元音、第二元音/后加辅音和又后加辅音的顺序展开;如果音节中某个位置上的字母空缺,则展开式的相应位置要用一个特殊字符(此处暂时用符号“□”表示)来替补,但要求这个特殊字符的排序元素要小于任何一个藏文字母的排序元素,从而得到一个和原音节序性等价的藏文字母串。由表1可以看出,藏文音节和它的一维展开式的序性是等价的。
表1 二维音节的一维展开式
本发明的第三个装置是排序元素调用子装置204。Unicode的DUCET(Default Unicode Collation Element Table,Unicode缺省排序元素表)为每个具有Unicode编码的字符规定了排序元素,例如,字母的排序元素为[.1C22.0020.0002.0F40]。每个排序元素由四级权重构成,每级权重是一个双字节的16进制数。其中,第一级权重用来区分不同的基本字母;第二级权重用来区分是否含有语音符号;第三级权重用来区分同一字母的不同形式,例如:同一个字母的大小写等;如果仅用前三级权重仍无法区分两个待比较字符的前后时,则可用第四级权重即字符的Unicode编码。对藏文而言,用前三级权重就可以进行合理排序。
DUCET中藏文字符的排序元素有较强的规律:①第一级权重从2021开始逐步递增到207B;②第二级权重一般为0020;③第三级权重一般为0002。本地藏文音节和梵音藏文组合字符在展成字母串时,空缺的位置要用一个特殊字符替补,但和通用音节结构相比,绝大多数本地藏文音节和梵音藏文组合字符都会有空缺位置,也就是说展开式中这个特殊字符的出现频率很高,因此,特殊字符排序元素的取值会对排序元素串的压缩效果产生很大影响。另外,这个特殊字符的排序元素要小于任何藏文字母的排序元素。因此,本发明规定这个特殊字符的排序元素为:[.0020.0020.0002]。
利用子装置204调用展开式中每个字母包括特殊字符的排序元素,便可得到音节的排序元素串。方法是:首先,依次列出展开式中所有字母包括特殊字符的第一级权重;其次,依次列出展开式中所有字母包括特殊字符的第二级权重;最后,依次列出展开式中所有字母包括特殊字符的第三级权重。例如:音节的展开式为经过子装置204后得到音节的排序元素串:2027 2046 2063 205B 2020 206E 2026 2063 0020 0020 0020 0020 0020 0020 0020 0020 0002 0002 0002 0002 0002 0002 0002 0002。
本发明的第四个子装置是排序元素串压缩子装置206。从音节的排序元素串可以看出,存储一个音节的排序元素串需要48字节,因此,有必要对排序元素串进行大幅度压缩。排序元素串压缩子装置206根据藏文字符排序元素的取值特点,对排序元素串采用了游程长度等方式进行压缩,取得了较好的效果。例如:音节的排序元素串被压缩为:62 69 88 A5 9D B0 68 A5 00 0A 00 09。
图4是本发明装置所依托的硬件环境。对于专业技术人员而言,计算机硬件系统的结构和各个组成部分的功能是显然的,但为了本技术方案的完备性,仍在此处做个简要介绍。
计算机硬件是计算机系统中各种设备的总称。计算机硬件包括中央处理器400、存储器406、输入设备402、输出设备404以及通信接口408等部件。中央处理器400是计算机系统的核心,它完成算术运算、逻辑运算等运算功能,并对指令进行分析,根据指令的要求,有目的地向各个部件发出有序控制信号,使计算机的各部件协调一致地工作。
存储器406是计算机系统的记忆装置。存储器分为主存储器和辅存储器。主存储器是存取速度快而容量小的一类存储器,辅存储器则是存取速度慢但容量很大的一类存储器。主存储器直接与CPU相连接,当前运行的程序与数据都存放在主存储器中。计算机系统执行程序和处理数据时,辅存储器中的信息只有先送入主存储器才能使用。因此,计算机系统运行时主辅存储器间始终进行着数据交换。
输入设备402用于数据输入。现代计算机系统能够接收各种各样的数据,这些数据通过不同类型的输入设备输入到计算机中。常用的输入设备有键盘(包括软键盘)、鼠标、轨迹球、光笔、光学字符阅读机、扫描仪、触摸屏等。
输出设备404用于数据输出,它把各种计算结果以数字、字符、图像、声音等形式表示出来。常见的输出设备有显示器、打印机、语音输出系统、磁记录设备等。
从数据流动的角度来看,计算机网络410也可以看作一个输入/输出设备。计算机网络410利用电缆、电话线或无线通讯等通信线路通过通信接口408将不同地理位置的具有独立功能的计算机412连接起来,实现资源共享和信息传递。
图5是本发明所依托的软件环境。软件是计算机系统必不可少的组成部分,提供了用户与硬件之间的接口。软件总体分为操作系统500和应用软件502两大类。操作系统500控制其他程序运行,管理系统资源并为用户提供操作界面。操作系统500还身负诸如内存管理、系统资源分配、设备控制、文件系统管理等基本事务。主要的操作系统有Mac OS,Open VMS,GNU/Linux,AIX,Solaris,Windows CE,Windows XP,Windows Vista等。
ISO 10646收录了包括占位辅音字母、不占位辅音字母、元音符号、语音符号、藏文数字、标点符号、图形符号等在内195个藏文基本字符,这些字符位于基本多文种平面(Basic Multilingual Plane,简称BMP)的0F行即U+0F00-U+0FFF。藏文字符集国际标准的出发点是利用基本字符动态地组合出所有藏文组合字符,要使计算机实现藏文组合字符的表示、存储、显示以及传输等功能,不仅需要藏文OpenType字库还需要操作系统支持藏文字符的动态组合。目前,藏文Opentype字库主要有Ximalaya、TibetanZT等,对操作系统版本的要求也较高,例如:Windows操作系统要求Windows XP-SP2或者更高版本。
应用软件502的种类很多,如工具软件、游戏软件、管理软件等都属于应用软件类。输入法也属于应用软件。要进行藏文字符的计算机排序,一般需要藏文输入法。藏文输入法可分为两类:基于藏文字符集国际标准或者基于其他字符集标准的。本排序装置需要安装基于藏文字符集国际标准的输入法,例如:微软的Himalaya、玛钦藏文输入法等。
用户接口504是为方便用户使用计算机资源而开发的软件,分为命令接口、程序接口和图形接口。命令接口是操作系统500为方便用户直接或间接控制自己的作业而向用户提供的一组命令;程序接口是操作系统提供给编程人员的一组系统调用命令;图形用户接口则采用图形化的操作界面,将系统各项功能、各种应用程序和文件用非常容易识别的图标直观、逼真地表示出来。图形用户接口的基本元素包括窗口、图标、菜单和对话框。
排序元素表508中存放的是每个字符的排序元素,以便系统调用。
本发明所披露的装置是藏文字符排序装置510。如图2所示,藏文字符排序装置510由预处理子装置200、音节展开子装置202、排序元素调用子装置204和排序元素串压缩子装置206组成。排序元素调用子装置204需要从排序元素表508中调用字符的排序元素。
排序引擎506可以是操作系统500的一个部件也可以是应用软件502的一个部件,还可以是一个利用应用程序接口和操作系统500以及应用软件502相联系的独立模块。排序引擎506从应用程序接口接到对一定数量字符串排序的命令,如果待排序的字符串是藏文字符串,则被传送到藏文字符排序装置510中,每个字符串依次经过藏文字符排序装置510后,得到压缩的排序元素串,将压缩排序元素串传递给排序引擎506,排序引擎506完成大量字符串的快速排序,并将排序结果传送到用户界面或者存储起来。
1.音节是规范的藏文音节,因此,直接进入音节展开子装置202而不必进入预处理子装置200,音节展开子装置202将音节按照图3的顺序展开,得到展开式:其次,进入排序元素调用子装置204,子装置204从排序元素表508中调用展开式中每个字符的排序元素,并按照所有字母的第一级权重、第二级权重、第三级权重的顺序排列,得到音节的排序元素串:2027 2046 2063 205B 2020 206E 2026 2063 0020 0020 0020 0020 0020 0020 0020 0020 0002 0002 0002 0002 0002 0002 0002 0002;再次,该排序元素串通过子装置206,排序元素串被压缩为:62 69 88 A5 9D B0 68 A5 00 0A 00 09,并将压缩后的排序元素串传递给排序引擎506,从而得到音节的排序结果。
2.音节因受语法影响而不符合通用结构,该音节通过预处理子装置200后,被分割成三个音节和这三个音节依次进入音节展开子装置202,每个音节按照图3的顺序展开,依次得到展开式和其次,这三个展开式依次进入排序元素调用子装置204,子装置204从排序元素表508中调用每个字母的排序元素,并按照所有字母的第一级权重、第二级权重、第三级权重的顺序排列,分别得到音节的排序元素串:2043 2020 2063 205B 2020 2078 2020 2020 0020 0020 0020 0020 0020 0020 0020 0020 0002 0002 0002 0002 0002 0002 0002 0002,音节的排序元素串:2056 2020 2020 2020 2020 2072 2020 2020 0020 0020 0020 0020 0020 0020 0020 0020 0002 0002 0002 0002 0002 0002 0002,以及音节的排序元素串:2056 2020 2020 2020 2020 206E 2020 2020 0020 0020 0020 0020 0020 0020 0020 0020 0002 0002 0002 0002 0002 0002 0002;再次,这三个排序元素串依次通过子装置206,依次得到音节压缩后的排序元素串:62 85 62 A5 9D 62 BA 05 00 0A 00 09,音节压缩后的排序元素串:62 98 B9 B4 BB 00 0A 00 09,和音节压缩后的排序元素串:62 98 B9 B0 BB 00 0A 00 09;最后,这三个压缩后的排序元素串依次传递给排序引擎506,从而得到音节的排序结果。
3.梵音藏文组合字符不符合通用结构,通过预处理子装置200后,被分解成音节序列这两个音节依次进入音节展开子装置202,每个音节按照图3的顺序展开,得到音节的展开式:和音节的展开式:其次,这两个展开式依次进入子装置204,子装置204从排序元素表508中调用每个字母的排序元素,并按照所有字母的第一级权重、第二级权重、第三级权重的顺序排列,得到音节的排序元素串:203E 2020 2020 2020 2020 2020 2020 2020 0020 0020 0020 0020 0020 0020 0020 0002 0002 0002 0002 0002 0002 0002 0002 0002 和音节的排序元素串:2026 2020 2020 205B 2020 207A 2020 2020 0020 0020 0020 0020 0020 0020 0020 0020 0002 0002 0002 0002 0002 0002 0002 0002;再次,这两个排序元素串依次通过排序元素串压缩子装置206,依次得到音节压缩后的排序元素串:62 80 0A 00 0A 00 09和音节压缩后的排序元素串:62 68 BB 9D 62 BC 05 00 0A 00 09;最后,将这两个压缩后的排序元素串依次传递给排序引擎506,从而得到梵音藏文组合字符的排序结果。
Claims (10)
2.根据权利要求1所述的基于通用音节结构的藏文字符排序装置,其特征是所述预处理子装置所述的藏文音节通用结构由基本辅音、前加辅音、上加辅音、第一下加辅音、第二下加辅音、第一元音、第二元音/第一后加辅音和第二后加辅音组成。
4.根据权利要求2所述的基于通用音节结构的藏文字符排序装置,其特征是所述音节展开子装置将符合通用结构的音节展成一维字母串的特定顺序是,按照优先级依次是,基本辅音、前加辅音、上加辅音、第一下加辅音、第二下加辅音、第一元音、第二元音/第一后加辅音和第二后加辅音。
5.根据权利要求1所述的基于通用音节结构的藏文字符排序装置,其特征是所述的音节展开子装置把符合通用音节结构的音节按照所述的特定顺序展成一维字母串时,如果音节在某个位置上的字母空缺,则展开式的相应位置用排序元素为[.2020.0020.0002]的特殊字符填补。
6.一种利用权利要求1所述装置的基于通用音节结构的藏文字符排序方法,其特征是包括步骤:
1)预处理,指对以或为后缀的藏文音节和不符合藏文音节通用结构的梵音藏文组合字符进行适当分解,得到一个音节序列,该音节序列中的每个音节都符合藏文音节通用结构;
2)音节展开,指将符合通用音节结构的音节按照特定的顺序展成一维字母串;
3)排序元素调用,指依次调用一维字母串中每个字母的排序元素,然后,按照所有字母的第一级权重、第二级权重、第三级权重的形式排列,得到原音节的排序元素串;
4)排序元素串压缩,指对音节的排序元素串进行压缩。
7.根据权利要求6所述的特征是基于通用音节结构的藏文字符排序方法,其所述的藏文音节通用结构由基本辅音、前加辅音、上加辅音、第一下加辅音、第二下加辅音、第一元音、第二元音/第一后加辅音和第二后加辅音组成。
9.根据权利要求6所述的特征是基于通用音节结构的藏文字符排序方法,其特征是将符合通用结构的音节展成一维字母串的特定顺序是,按照优先级依次是,基本辅音、前加辅音、上加辅音、第一下加辅音、第二下加辅音、第一元音、第二元音/第一后加辅音和第二后加辅音。
10.根据权利要求6所述的特征是基于通用音节结构的藏文字符排序方法,其特征是将符合通用音节结构的音节按照特定的顺序展成字一维母串时,如果音节在某个位置上的字母空缺,则展开式的相应位置用排序元素为[.2020.0020.0002]的特殊字符填补。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010269086XA CN101937459A (zh) | 2010-08-31 | 2010-08-31 | 基于通用音节结构的藏文字符排序装置和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010269086XA CN101937459A (zh) | 2010-08-31 | 2010-08-31 | 基于通用音节结构的藏文字符排序装置和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101937459A true CN101937459A (zh) | 2011-01-05 |
Family
ID=43390788
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010269086XA Pending CN101937459A (zh) | 2010-08-31 | 2010-08-31 | 基于通用音节结构的藏文字符排序装置和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101937459A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102135956A (zh) * | 2011-05-06 | 2011-07-27 | 中国科学院软件研究所 | 一种基于词位标注的藏文分词方法 |
CN104408037A (zh) * | 2014-12-05 | 2015-03-11 | 才智杰 | 藏文文本的向量模型表示方法 |
CN104503599A (zh) * | 2015-01-13 | 2015-04-08 | 青海师范大学 | 一种基于36键位的藏文键盘布局和输入系统 |
CN107852174A (zh) * | 2015-07-03 | 2018-03-27 | 基麦提松科技公司 | 固定长度数据的压缩方法 |
CN112818640A (zh) * | 2021-01-28 | 2021-05-18 | 青海民族大学 | 一种基于哈希函数的藏文排序方法 |
-
2010
- 2010-08-31 CN CN201010269086XA patent/CN101937459A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102135956A (zh) * | 2011-05-06 | 2011-07-27 | 中国科学院软件研究所 | 一种基于词位标注的藏文分词方法 |
CN102135956B (zh) * | 2011-05-06 | 2015-09-30 | 中国科学院软件研究所 | 一种基于词位标注的藏文分词方法 |
CN104408037A (zh) * | 2014-12-05 | 2015-03-11 | 才智杰 | 藏文文本的向量模型表示方法 |
CN104503599A (zh) * | 2015-01-13 | 2015-04-08 | 青海师范大学 | 一种基于36键位的藏文键盘布局和输入系统 |
CN104503599B (zh) * | 2015-01-13 | 2017-12-26 | 青海师范大学 | 一种基于36键位的藏文输入系统 |
CN107852174A (zh) * | 2015-07-03 | 2018-03-27 | 基麦提松科技公司 | 固定长度数据的压缩方法 |
CN112818640A (zh) * | 2021-01-28 | 2021-05-18 | 青海民族大学 | 一种基于哈希函数的藏文排序方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102982021B (zh) | 用于消除语言转换中的多个读法的歧义的方法 | |
JP3272288B2 (ja) | 機械翻訳装置および機械翻訳方法 | |
CN103970798B (zh) | 数据的搜索和匹配 | |
CN102439540A (zh) | 输入法编辑器 | |
CN103314369B (zh) | 机器翻译装置和方法 | |
CN101937459A (zh) | 基于通用音节结构的藏文字符排序装置和方法 | |
CN110532567A (zh) | 短语的提取方法、装置、电子设备及存储介质 | |
US20220027766A1 (en) | Method for industry text increment and electronic device | |
CN101470701A (zh) | 支持基于有限状态机的语义规则的文本分析器及其方法 | |
CN112965909B (zh) | 测试数据、测试用例生成方法及系统、存储介质 | |
US20210312308A1 (en) | Method for determining answer of question, computing device and storage medium | |
CN112597748A (zh) | 语料生成方法、装置、设备及计算机可读存储介质 | |
Sunitha et al. | A phoneme based model for english to malayalam transliteration | |
JPH05266069A (ja) | 中国語と日本語との間の双方向機械翻訳方式 | |
CN112270197A (zh) | 一种基于文字段落的动画草稿生成方法与装置 | |
KR20010016679A (ko) | 외국어로 표기된 한글을 한글표기로 변환하여 검색하는 시스템및 그 방법 | |
CN101499056A (zh) | 倒排参考句型语言分析方法 | |
JP5722375B2 (ja) | 文末表現変換装置、方法、及びプログラム | |
Rehman et al. | ASCII based GUI system for arabic scripted languages: a case of urdu. | |
EP3255558A1 (en) | Syntax analyzing device, learning device, machine translation device and recording medium | |
CN109727591B (zh) | 一种语音搜索的方法及装置 | |
CN110347813B (zh) | 一种语料处理方法、装置、存储介质及电子设备 | |
CN112966510A (zh) | 一种基于albert的武器装备实体抽取方法、系统及存储介质 | |
CN101414293B (zh) | 可减少运算量的cyk算法进行语法分析的方法及其装置 | |
Swaroop et al. | Parts of speech tagging for Kannada |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Open date: 20110105 |