CN102135956B - 一种基于词位标注的藏文分词方法 - Google Patents

一种基于词位标注的藏文分词方法 Download PDF

Info

Publication number
CN102135956B
CN102135956B CN201110116500.8A CN201110116500A CN102135956B CN 102135956 B CN102135956 B CN 102135956B CN 201110116500 A CN201110116500 A CN 201110116500A CN 102135956 B CN102135956 B CN 102135956B
Authority
CN
China
Prior art keywords
syllable
marked
tibetan language
lexeme
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110116500.8A
Other languages
English (en)
Other versions
CN102135956A (zh
Inventor
刘汇丹
吴健
诺明花
马龙龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Original Assignee
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Software of CAS filed Critical Institute of Software of CAS
Priority to CN201110116500.8A priority Critical patent/CN102135956B/zh
Publication of CN102135956A publication Critical patent/CN102135956A/zh
Application granted granted Critical
Publication of CN102135956B publication Critical patent/CN102135956B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于词位标注的藏文分词方法,属于藏文信息处理领域。本方法为:1)对输入的藏文文本,以标点符号为标志切分为一系列藏文句子;2)对每个藏文句子,以藏文音节点为标志切分为一系列藏文音节;3)对每个藏文音节,根据其所处上下文环境从知识库中查找并选择一个词位标签赋予该音节;4)将所有被标记为紧缩的音节还原为两个音节,并依前后顺序分别标记为词尾和独立;5)将被标记为词首的音节至其后面第一个被标记为词尾的音节合并为一个词;6)将所有被标记为独立的音节以及所有未被合并的音节作为单音节词。本发明没有显式地区分词表词和未登录词,所有的处理都是在音节一级的单元上完成,使得分词称为音节重组的简单过程。

Description

一种基于词位标注的藏文分词方法
技术领域
本发明涉及计算机及藏文信息处理领域,更具体地说,涉及藏文分词领域,提供了一种基于词位标注的藏文分词方法。
背景技术
随着计算机对藏文支持能力的增强,以及我国少数民族地区信息化进程的逐步推进,越来越多的藏文信息开始通过计算机进行存储和传播,藏文信息处理的研究也从操作系统支持、排版印刷、输入法和字库等基础的文字层面逐步转向文字识别、文语转换、文本校正、信息检索、机器翻译等文本层面。然而,藏文是一种拼音文字,其各音节之间由音节点分隔,但是词与词之间却没有分隔标记,同汉语类似,分词是藏文信息处理的基础。藏文音节(藏字)的结构如图1所示,藏文句子由多个藏文音节构成,如图2所示。
经过多年的发展,研究人员已经提出了多种藏文分词方法,包括基于字符串匹配的方法、基于格助词和接续特征的方法。
基于字符串匹配的分词方法又称为机械分词方法。这种方法依照特定的策略将待分析的文字序列与词典中的词条进行匹配,若在词典中找到某个词,则匹配成功(识别出一个词)。按照扫描方向的不同,字符串匹配方法可以分为正向匹配和逆向匹配,也可以同时从两个方向进行切分,发现切分歧义,并进行切分歧义消解。
基于格助词和接续特征的方法充分利用藏文的语言特性进行分词。利用字切分特征和字性库先‘认字’,利用标点符号和关联词将藏文的段落分成句子,在单个句子中利用格助词将句子‘分块’,再用词典进行块内分词。该方法的技术特点是,综合运用藏文字、词、句等各类形态特征,在藏文格助词、接续特征、字性知识库以及词典的支持下,采用逐级定位的确定性算法实现藏文的自动分词。
现有的藏文分词方法虽然在小规模实验中取得了较好的效果,但由于藏文语言文字的特点,存在将两个藏字紧缩为一个藏字等等同汉语不同的情况,在方法实现中需要考虑很多细节问题;同时,上述方法在切分的各个阶段,包括断句、分块、块内分词等都存在切分歧义的情况,导致切分精度不高;另外,上述方法都依赖于藏文词典,对新词术语、命名实体等未登录词的处理效果不尽如人意。
发明内容
针对现有藏文分词方法中对切分歧义及未登录词等两个重要问题处理效果较差的问题,本发明的目的在于提供一种藏文分词的方法,以期在整体上取得更好的分词结果。
所述方法包括以下步骤:
A.对输入的藏文文本,以标点符号为标志切分为一系列藏文句子;
B.对每个藏文句子,以藏文音节点为标志切分为一系列藏文音节;
C.对每个藏文音节,根据其所处上下文环境采用优选方法从知识库中查找并选择一个词位标签赋予该音节,词位标签为如下五种之一:词首,词中,词尾,独立,紧缩;
D.将所有被标记为“紧缩”的音节还原为两个音节,并依前后顺序分别标记为“词尾”和“独立”;
E.将被标记为词首的音节至其后面第一个被标记为词尾的音节合并为一个词;如果被标记为词首的音节与其后面第一个被标记为词尾的音节之间有一个或者多个被标记为词中的音节,则将被标记为词首的音节与其后面第一个被标记为词尾的音节以及二者之间一个或者多个被标记为词中的音节合并为一个词;
F.将所有被标记为“独立”的音节以及所有未被合并的音节作为单音节词;
G.将经过以上处理的藏文词序列作为分词结果输出。
所述标点符号包括:藏文单垂符、双垂符、四垂符、句间空格等。
所述上下文环境包括:该音节之前的一个或者多个音节,该音节之后的一个或者多个音节。
所述词位标签共五种:词首、词中、词尾、独立、紧缩。各词位标签的具体含义为:在由多个音节构成的藏文词中,第一个音节为“词首”,最后一个音节为“词尾”,它们之间的所有音节都为“词中”;若一个词由单个音节构成,则此音节将被标记为“独立”;藏文中存在部分音节是由两个音节按照语法规则合并形成的紧缩音节,此时该音节将被标记为“紧缩”。
所述知识库包含了所有的藏文音节在不同的上下文环境中被标记为五种词位标签之一的概率值,该概率值通过预先对语料进行统计获得。语料由一批藏文文本组成,每个藏文文本包含若干藏文句子,每个藏文句子包含若干藏文音节,每个音节对应一个词位标签。在语料中,每个音节的词位标签由人工标注而成。对语料的统计,首先计算一个音节在一个上下文环境中被标记为五种词位标签之一的次数,并计算该音节与该上下文环境在语料中同现的总次数,前者除以后者即为该音节在该上下文环境中被标记为该词位标签的概率值。
所述优选方法是指当前音节在当前上下文环境中有多个词位标签可选时,根据预先统计的概率值,取概率值最大的词位标签作为当前音节的词位标签。
所述紧缩音节是指,藏文中部分词如属格助词作格助词位格助词饰集词离合词终结词等,可以省略音节点直接黏附于其前面的音节后,与其前面的音节一起合并形成一个新的音节,这个新的音节即被称为紧缩音节。
与现有技术相比,本发明的积极效果为:
本发明能够平衡地看待词表词和未登录词的识别问题。将藏文文本中所有的词都采用统一的音节标注过程来实现。在构建所需的知识库时,既不必专门强调词表词信息,也不用专门设计特定的未登录词识别模块,又避免了采用藏文格助词和接续特征所引起的各种歧义,使得系统的设计大大简化。在音节标注过程中,所有的音节根据预定义的特征进行词位特征的学习,获得一个知识库,然后在待切分的藏文文本上,根据音节所处的上下文环境,得到一个词位的分类结果。最后根据词位标签的定义,获得最终的分词结果。整个过程中,没有显式地区分词表词和未登录词,所有的处理都是在音节一级的单元上完成,使得分词称为音节重组的简单过程。知识库的构建过程中考虑了音节所处的上下文环境,实质上体现了相邻音节之间的结合紧密程度。
附图说明
图1是一个典型的藏文音节的结构图;藏文的音节可以有一个或多个基本字符组成,最多可以有七个;这七个基本字符里有一个基字和一个元音符号,其它的字符分别加在基字的上、下、前、后、再后。在一个音节里面,除了基字之外,其它部分都可能不出现。最简单的藏文音节只包含一个基字,而不包含其他组成部分;
图2是一个典型的藏文句子的结构图;藏文句子中以音节点分隔相邻音节,句子以空格或者藏文的单垂符、双垂符、四垂符等结束;
图3是本发明方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图3所示,本发明所述的分词方法300的具体流程是:对于输入的藏文文本302,步骤304根据标点符号和空格将藏文文本切分为一系列的藏文句子;对于切分出来的每个藏文句子,步骤306以藏文音节点为标志将句子切分为一系列藏文音节;对每个音节,步骤308从知识库310中查找当前音节在当前的上下文中可能的词位标签及相应的概率值,若标签不唯一,则选择概率值最大的词位标签作为当前音节的标签;步骤312将被标记为“紧缩”标签的藏文音节拆分成两个音节并分别标记为“词尾”和“独立”;步骤314将所有被标记为“词首”的音节与其后面第一个被标记为“词尾”的音节以及二者之间一个或者多个被标记为“词中”的音节合并为一个词;步骤316将所有被标记为“独立”的音节以及所有未被合并的音节作为单音节词;步骤318将经过以上处理的藏文词序列作为分词结果输出。
在具体的实施过程中,将五种词位标签分别以一个大写英文字母表示:B表示词首,M表示词中,E表示词尾,S表示独立,J表示紧缩。单音节词对应的词位标签序列是S,双音节词对应的词位标签序列是BE;三音节词对应的词位标签序列是BME;四音节词对应的词位标签序列是BMME;五音节词对应的此为标签序列是BMMME;由更多音节构成的词,其对应的词位标签序列可以类推,首标签为B,尾标签为E,中间是多个M标签。
下面结合附图和具体实施例来对本发明提供的技术方案进行详细描述。
实施例一:一个典型的藏文句子的分词过程
对于输入的藏文文本302:
步骤304根据藏文的单垂符将其切分为一个藏文句子;
步骤306将藏文句子切分成一系列藏文音节(这里以斜线隔开),切分之后的结果为:
步骤308对每个音节贴词位标签,这里将词位标签放在斜线后面表示,贴标签之后的结果为:
步骤312将标记为J的音节拆分并还原为两个音节,处理之后的结果为(以下划线标出该步骤所影响的部分,下同):
步骤314将所有被标记为B的音节与其后面被标记为E的音节合并为一个词,处理之后的结果为:
步骤316将所有被标记为S的音节以及所有未被合并的音节作为单音节词,处理之后的结果为:
步骤318将以上结果作为最终分词结果输出。
实施例二:另一个典型的藏文句子的分词过程
对于输入的藏文文本302:
步骤304根据藏文的单垂符将其切分为一个藏文句子;
步骤306将藏文句子切分成一系列藏文音节(这里以斜线隔开),切分之后的结果为:
步骤308对每个音节贴词位标签,这里将词位标签放在斜线后面表示,贴标签之后的结果为:
步骤312将标记为J的音节拆分并还原为两个音节,处理之后的结果为:
步骤314将所有被标记为B的音节与其后面被标记为E的音节以及二者之间一个或者多个被标记为M的音节合并为一个词,处理之后的结果为:
步骤316将所有被标记为S的音节以及所有未被合并的音节作为单音节词,处理之后的结果为:
步骤318将以上结果作为最终分词结果输出。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于词位标注的藏文分词方法,其步骤为:
1)以标点符号为标志,将输入的藏文文本切分为一系列藏文句子;
2)对每个藏文句子,以藏文音节点为标志,将其切分为一系列藏文音节;
3)对每个藏文音节,根据藏文音节所处上下文环境从知识库中查找并选择一个词位标签赋予该音节,如果该音节在当前上下文环境中有多个词位标签可选,则取概率值最大的词位标签作为该音节的词位标签;所述词位标签包括:词首、词中、词尾、独立、紧缩;所述知识库包含藏文音节在不同的上下文环境中被标记为五种所述词位标签之一的概率值;所述知识库的建立方法为:
a)选取一批藏文文本,作为训练语料;
b)对训练语料中的每个音节进行词位标签标注;
c)对对标注的训练语料进行统计,首先计算一个音节在某一上下文环境中被标记为五种所述词位标签之一的次数n,并计算该音节与该上下文环境在训练语料中同现的总次数N,然后利用n除以N得到该音节在该上下文环境中被标记为所标注词位标签的概率值;
4)将所有被标记为紧缩的音节还原为两个音节,并依前后顺序分别标记为词尾和独立;
5)将被标记为词首的音节至其后面第一个被标记为词尾的音节合并为一个词;
6)将所有被标记为独立的音节以及所有未被合并的音节作为单音节词。
2.如权利要求1所述的方法,其特征在于所述上下文环境包括:当前音节之前的一个或者多个音节,当前音节之后的一个或者多个音节。
3.如权利要求1所述的方法,其特征在于所述标点符号包括:藏文单垂符、双垂符、四垂符、句间空格。
4.如权利要求1所述的方法,其特征在于将所有被标记为紧缩的音节还原为两个音节,依前后顺序,将所还原后的两音节中前面音节标记为词尾,将后面音节标记为独立。
5.如权利要求1所述的方法,其特征在于如果被标记为词首的音节与其后面第一个被标记为词尾的音节之间有一个或者多个被标记为词中的音节,则将被标记为词首的音节与其后面第一个被标记为词尾的音节以及二者之间一个或者多个被标记为词中的音节合并为一个词。
CN201110116500.8A 2011-05-06 2011-05-06 一种基于词位标注的藏文分词方法 Expired - Fee Related CN102135956B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110116500.8A CN102135956B (zh) 2011-05-06 2011-05-06 一种基于词位标注的藏文分词方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110116500.8A CN102135956B (zh) 2011-05-06 2011-05-06 一种基于词位标注的藏文分词方法

Publications (2)

Publication Number Publication Date
CN102135956A CN102135956A (zh) 2011-07-27
CN102135956B true CN102135956B (zh) 2015-09-30

Family

ID=44295744

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110116500.8A Expired - Fee Related CN102135956B (zh) 2011-05-06 2011-05-06 一种基于词位标注的藏文分词方法

Country Status (1)

Country Link
CN (1) CN102135956B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239294B (zh) * 2014-09-10 2017-06-06 华建宇通科技(北京)有限责任公司 藏汉翻译系统的多策略藏语长句切分方法
CN104573055B (zh) * 2015-01-21 2017-11-03 南京烽火星空通信发展有限公司 一种网络账号快速检索的分词方法
CN105023029B (zh) * 2015-06-29 2018-09-14 中国科学院软件研究所 一种联机手写藏文音节识别方法及装置
CN105512106B (zh) * 2015-12-09 2018-04-06 江苏科技大学 一种汉语离合词的自动识别方法
CN107315733A (zh) * 2016-11-24 2017-11-03 海南州云藏藏文信息技术有限公司 智能藏文词性自动标注系统
CN106598943A (zh) * 2016-11-24 2017-04-26 海南州云藏藏文信息技术有限公司 智能藏文自动分词系统
CN107330430B (zh) * 2017-06-27 2020-12-04 司马大大(北京)智能系统有限公司 藏文字符识别装置与方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101055593A (zh) * 2007-06-15 2007-10-17 中国科学院软件研究所 藏文网页及其编码的识别方法
CN101114282A (zh) * 2007-07-12 2008-01-30 华为技术有限公司 一种分词处理方法及设备
CN101937459A (zh) * 2010-08-31 2011-01-05 东南大学 基于通用音节结构的藏文字符排序装置和方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101055593A (zh) * 2007-06-15 2007-10-17 中国科学院软件研究所 藏文网页及其编码的识别方法
CN101114282A (zh) * 2007-07-12 2008-01-30 华为技术有限公司 一种分词处理方法及设备
CN101937459A (zh) * 2010-08-31 2011-01-05 东南大学 基于通用音节结构的藏文字符排序装置和方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
信息处理用藏文分词单位研究;关白;《中文信息学报》;20100531;第24卷(第3期);124-128 *
面向信息处理的藏文分词规范研究;扎西加等;《中文信息学报》;20090731;第23卷(第4期);113-117,123 *

Also Published As

Publication number Publication date
CN102135956A (zh) 2011-07-27

Similar Documents

Publication Publication Date Title
CN102135956B (zh) 一种基于词位标注的藏文分词方法
US8660834B2 (en) User input classification
Van de Kauter et al. LeTs Preprocess: The multilingual LT3 linguistic preprocessing toolkit
WO2008107305A2 (en) Search-based word segmentation method and device for language without word boundary tag
Chea et al. Khmer word segmentation using conditional random fields
CN106528536A (zh) 一种基于词典与文法分析的多语种分词方法
Kurohashi et al. Building a Japanese parsed corpus: While improving the parsing system
CN110119510B (zh) 一种基于传递依存关系和结构助词的关系抽取方法及装置
CN102023972A (zh) 基于结构化的翻译记忆的自动翻译系统及其自动翻译方法
Ekbal et al. Named entity recognition and transliteration in Bengali
Scholivet et al. Identification of ambiguous multiword expressions using sequence models and lexical resources
CN104331400B (zh) 一种蒙古文编码转换方法和装置
Nararatwong et al. Improving Thai word and sentence segmentation using linguistic knowledge
Thu et al. A large-scale study of statistical machine translation methods for khmer language
Chiu et al. Chinese spell checking based on noisy channel model
Kaji et al. Splitting noun compounds via monolingual and bilingual paraphrasing: A study on japanese katakana words
Wassie et al. A word sense disambiguation model for amharic words using semi-supervised learning paradigm
Shamsfard et al. STeP-1: standard text preparation for Persian language
CN103268314A (zh) 一种获取泰文断句规则的方法及装置
Tongtep et al. Multi-stage automatic NE and pos annotation using pattern-based and statistical-based techniques for thai corpus construction
CN106815187B (zh) 一种新术语识别方法
KR20140049148A (ko) 형태소 분할에 기반한 품사 태깅 방법 및 그 장치
Yang et al. Automatic error detection and correction of text: The state of the art
Yan et al. Augmented Transformers with Adaptive n-grams Embedding for Multilingual Scene Text Recognition
Mirzanezhad et al. Using morphological analyzer to statistical POS Tagging on Persian Text

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150930