CN103902525B

CN103902525B - 维吾尔语词性标注方法

Info

Publication number: CN103902525B
Application number: CN201210579945.4A
Authority: CN
Inventors: 尼加提·纳吉米; 买合木提·买买提; 帕肉克·司地克; 马斌
Original assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Xinjiang Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Xinjiang Electric Power Co Ltd
Priority date: 2012-12-28
Filing date: 2012-12-28
Publication date: 2016-09-21
Anticipated expiration: 2032-12-28
Also published as: CN103902525A

Abstract

本发明公开了维吾尔语词性标注方法，1.制订维吾尔语词性标注集及百万词次的维吾尔语语料库；2.在一级标注中选取基于条件随机场方法构建维吾尔语词性标注模型；3.构建正确标注规则库及无歧义词性标记词典和专有名词词典，构建基于规则和词典的一级词性标注纠正算法，进一步提高一级词性标注的准确率；4．提供基于词干提取的词性标注方法，进一步增加标注单词的覆盖率；5．提供二级词性标注统计模型，增加标注单词的覆盖率和成功率；6.在二级标注中通过无歧义词词典和专有名词词典标注，再经过词干提取标注及统计模型标注，准确率极高的实现二级词性标注。本发明较高效率地解决了维吾尔语的词性标注问题。

Description

维吾尔语词性标注方法

技术领域

本发明涉及语言信息处理技术，特别是维吾尔语词性标注方法。

背景技术

在国民经济和社会信息化的今天，每天都有海量信息在生成，存储和传播，人类面临了前所未有的信息膨胀，如何从海量信息中寻找自己所需的信息，又如何把千差万别的信息转换成自己所能理解的信息成为人们共同关注的问题，也是信息处理所需解决的问题。目前自然语言处理已经成为信息处理领域中的一个引人注目的研究热点。

新疆维吾尔自治区是多民族聚居的地区，在现有的2000多万人口中，少数民族人口有1300多万，占总人口的60％。目前，维吾尔文、哈萨克文、柯尔克孜文是和汉文同时使用的官方语言文字。在信息化社会的今天，全疆范围的政府机构、检察院、法院、基层乡镇政府、报社、出版社等日程工作中频繁使用地方民族语言的机构对维吾尔语的信息处理技术提出了很高的要求。少数民族语言的信息处理问题的解决是方便广大民族群众和提高政府部门工作效率的有力保障。因此维吾尔语的信息化处理也得到了广泛范围内的极大重视。

在自然语言处理中，词是能够独立活动的有意义的最小的语言成分，因此它是语言中表达内容的基本单位。词性标注(Part-of-Speech Tagging)的主要目的是给句中每一个词赋以正确的分类标记，它是词法分析的一个重要部分，词性标注的难点是正确判断兼类词的词类以及生词词类的判别。每一种语言都具有各自的词法体系。故词法分析是对某一种语言进行自然语言处理时不可或缺的基础环节，也是计算机理解语言的第一步。因此词法分析在机器翻译、信息检索、信息安全、语音识别与合成、文本校对等诸多领域的研究中具有重要的地位。维吾尔语词法分析技术同样是对维吾尔语进行深入研究和智能化处理不可或缺的核心技术，是维吾尔语与其它语言或机器会话必定要经过的重要环节。

维吾尔语是黏着语言，属于阿尔泰语系突厥语族，在国内属于同类语系的有哈萨克语、柯尔克孜语，在国外有土耳其语、乌兹别克语、土库曼语等。在这些语言当中，除了土耳其语在词法分析中展开一定的工作之外，其他语种的词法分析、分析技术仍处于初级阶段。维吾尔语词法分析技术的研究，将对这些国内外语言的研究具有很大的促进作用。词性标注作为词法分析的核心内容，更是研究工作的重中之重。

词性标注综述：国内外词性标注的研究方法主要有三种:基于规则的方法、基于转换错误驱动的方法、基于统计的方法。基于规则的词性标注方法是最早被提出的一种词性标注方法，其基本思想是：按兼类词搭配关系和上下文语境构建词类消歧规则。如美国布朗大学的Greence和Rubin 1971年开发的TAGGIT词类标注系统。国内刘开瑛按兼类词搭配关系构造了词类识别规则库，并结合词类同现概率实现了汉语词性标注系统。随着标注语料库规模的逐步增大，可利用资源越来越多，具备可以从已标注的文本中提取规则显得更为科学而实际。因此，学者们提出了基于机器学习的规则自动提取方法。EBrill(1995)提出了基于转换的学习器(TBL)和错误驱动的学习方法来进行词性标注处理。国内周明等人提出了相应的改进方法。另外，李晓黎等人尝试了利用数据采掘方法获取汉语词性标注规则的方法。随着自然语言处理研究的逐渐热门，受到国外研究的启发，国内学者们根据汉语词性标注任务的特点展开广泛而深入的研究。孙茂松等人对基于隐Markov模型的汉语词类白动标注进行实验。对基于统计的汉语词性标注方法进行了分析与改进。基于统计和规则的方法拥有各自的优势，周强提出了一种规则和统计方法相结合的词性标注算法。国内外大量学者对英语、汉语进行了大量深入而详细的研究，但针对维吾尔语的研究基本上处于空白。词性标注作为词法分析技术的重要组成部分，对维吾尔语的进一步信息化处理具有举足轻重的地位。词性标注系统性能的高低直接决定了维吾尔语句法分析乃至机器翻译、信息检索、信息安全、语音识别与合成、文本校对等研究的效率。

发明内容

本发明的目的在于提供一种维吾尔语词性标注方法，较高效率地解决了维吾尔语的词性标注问题，实现了维吾尔语自然语言处理时不可或缺的基础环节，为维吾尔语的词法分析研究打下了坚实的基础，是维吾尔语的机器翻译、信息检索、信息安全、语音识别与合成、文本校对等诸多领域的研究成为可能，同时对同属突厥语系的土耳其语、乌兹别克语等语言的研究具有很大的促进作用。

本发明的目的是这样实现的：一种维吾尔语词性标注方法，1.制订维吾尔语词性标注集及百万词次的维吾尔语语料库；2.在一级标注中选取基于条件随机场方法构建维吾尔语词性标注模型；3.构建正确标注规则库及无歧义词性标记词典和专有名词词典，构建基于规则和词典的一级词性标注纠正算法，进一步提高一级词性标注的准确率；4.提供基于词干提取的词性标注方法，进一步增加标注单词的覆盖率；5.提供二级词性标注统计模型，增加标注单词的覆盖率和成功率；6.在二级标注中通过无歧义词词典和专有名词词典标注，再经过词干提取标注及统计模型标注，准确率极高的实现二级词性标注。

本发明(混合策略的维吾尔语词性标注方法)指采用混合策略对维吾尔语句子中的每一个词赋以正确的分类标记。其特点是：使用了基于词典、基于规则、基于统计方法相结合的分两级进行词性标注，第一级选取了最适合于维吾尔语序列标注的条件随机场方法构建了维吾尔语词性标注的统计模型，提出了基于无歧义规则和词典的以及词性标记纠正方法，第二级提出了词典、规则、形态标志、最大熵模型等方法相结合的词性二级标注方法，此系统在实际应用中性能较好，达到了可用水平。

本发明涉及维吾尔语文本中的词性标注技术，属于自然语言处理中的词法分析领域；在目前市场上，这种采用混合策略，使用基于词典、基于规则、基于统计方法对维吾尔语文本进行较为准确的词性标注的系统，在国内尚属首例。

本发明的有益效果是：提取灵活，准确率高，较高效率地解决了维吾尔语的词性标注问题，实现了维吾尔语自然语言处理时不可或缺的基础环节，为维吾尔语的词法分析研究打下了坚实的基础，是维吾尔语的机器翻译、信息检索、信息安全、语音识别与合成、文本校对等诸多领域的研究成为可能，同时对同属突厥语系的土耳其语、乌兹别克语等语言的研究具有很大的促进作用。

附图说明

下面将结合附图对本发明作进一步说明。

图1是本发明混合策略的维吾尔语词性标注系统的结构流程图。

具体实施方式

一种维吾尔语词性标注方法，1.制订维吾尔语词性标注集及百万词次的维吾尔语语料库；2.在一级标注中选取基于条件随机场方法构建维吾尔语词性标注模型；3.构建正确标注规则库及无歧义词性标记词典和专有名词词典，构建基于规则和词典的一级词性标注纠正算法，进一步提高一级词性标注的准确率；4.提供基于词干提取的词性标注方法，进一步增加标注单词的覆盖率；5.提供二级词性标注统计模型，增加标注单词的覆盖率和成功率；6.在二级标注中通过无歧义词词典和专有名词词典标注，再经过词干提取标注及统计模型标注，准确率极高的实现二级词性标注。

如图1所示，混合策略的维吾尔语词性标注系统的流程涉及功能模块为：基于HMM的词性标注模块，维吾尔语词干提取系统，基于CRF的一级标注模型，基于词典和规则的词性一级标注纠正模块，基于词典和形态分析的词性二级标注模块，基于最大熵的二级标注模型，及词性标注各级中分别构建的模型参数库及规则集。主要流程包括：首先，针对获取的词性序列采用基于HMM的词性标注方法进行一级标注，对未能标注的单词进行词干提取标注；其次对词序列采用基于CRF的一级标注模型进行基于词典和规则的一级词性标注纠正；最后采用基于最大熵的二级标注模型对词序列进行基于词典和形态分析的二级标注。

使用者通过键盘在汉维双语多媒体电子词典的输入框中选择源语言需要查询的单词或语句文本，系统通过语种识别，利用拼音检索法、首部检索法、尾部检索法、包含检索法、精确匹配检索法的其中一种方法，通过拼音语料库、汉维语料库、维汉语料库的单词匹配，检索出需要翻译的单词，然后根据匹配的单词获取汉语解释、维文解释，通过文本混合排版技术、图文混合排版技术将结果组合成为输出数据，显示在结果显示区域内。

如下表1是混合策略的维吾尔语词性标注系统的二级标注最大熵原子特征模板。最大熵模型使用的上下文窗口长度为4，取当前词、前两个词和后一个词的词形、词性、词干、词缀等信息。为了充分利用已有的二级标记，不仅使用前后单词的一级标记，把二级标记也纳入特征空间。若前后词的二级标记还没有确定，则使用一级标记代替。如下表1所示，使用者通过光标定位需要翻译解释的单词或文本，系统在经过语种识别后，通过常用取词汉语库和常用取词维语库，检索出目标语言的翻译数据，通过文本混合排版技术、图文混合排版技术将结果组合成为输出数据，并动态构建符合输出数据大小的显示界面，显示最终翻译结果。

表1

	特征	说明
			1	W₀	中心词
2	W_-1	中心词的前一个词
			3	W_-2	中心词前第二个词
4	W₁	中心词的后一个词
			5	S₀	中心词的词干
6	S_-1	中心词的前一个词的词干
			7	S_-2	中心词前第二个词的词干
8	S₁	中心词的后一个词的词干
			9	SFF₀	中心词的词缀
10	SFF_-1	中心词的前一个词的词缀
			11	SFF_-2	中心词前第二个词的词缀
12	SFF₁	中心词的后一个词的词缀
			13	T_-2	中心词前第二个词的一级标记
14	T_-1	中心词前一个词的一级标记
			15	T₁	中心词的后一个词的一级标记

如下表2是本发明混合策略的维吾尔语词性标注系统与单纯的基于HMM的词性标注其的效率对比。实验采用新疆多语种信息技术重点实验室研制的《维吾尔语百万词词法标注语料库》进行以下个实验：A.使用所有的语料训练相关模型，进行封闭测试；B.随机选出80％的语料进行模型训练，20％语料库用于测试；C.使用所有的语料进行模型训练，对新选出的50篇新闻进行词性标注，并对实验结果进行人工校对。使用者输入源语言单词或文本后，系统经过语种识别、文本方式维吾尔文音节单词切分、维吾尔文和汉语单词匹配，通过汉语真人语音库、真人维文语音库和合成维文语音库，生成语音文件，通过系统语音设备读取并实现语音朗诵。

如下表2所示，混合策略有效地利用各类资源，充分发挥语言相关的知识库的作用，使得维吾尔语的词性标注性能得到了较大提高。

表2

Claims

1. 一种维吾尔语词性标注方法，其特征是：1. 制订维吾尔语词性标注集及百万词次的维吾尔语语料库；2. 在一级标注中选取基于条件随机场方法构建维吾尔语词性标注模型；3. 构建正确标注规则库及无歧义词性标记词典和专有名词词典，构建基于规则和词典的一级词性标注纠正算法，进一步提高一级词性标注的准确率； 4．提供基于词干提取的词性标注方法，进一步增加标注单词的覆盖率；5．提供二级词性标注统计模型，增加标注单词的覆盖率和成功率；6.在二级标注中通过无歧义词词典和专有名词词典标注，再经过词干提取标注及统计模型标注，准确率极高的实现二级词性标注。