CN103902524A

CN103902524A - 维吾尔语句子边界识别方法

Info

Publication number: CN103902524A
Application number: CN201210579930.8A
Authority: CN
Inventors: 尼加提·纳吉米; 买合木提·买买提; 帕肉克·司地克; 马斌
Original assignee: Xinjiang Electric Power Information Communication Co Ltd
Current assignee: Xinjiang Electric Power Information Communication Co Ltd
Priority date: 2012-12-28
Filing date: 2012-12-28
Publication date: 2014-07-02

Abstract

本发明公开了维吾尔语句子边界识别方法，1.提出维吾尔语句子识别中无歧义标点符号的识别规则；2.提出维吾尔语段落分类算法，有效减少统计空间的规模，迅速提高效率；3．使用统计学建立维吾尔语句子边界识别特征空间，高效的识别维吾尔语句子中歧义标点符号；4.针对无差别语料均实现高性能的维吾尔语句子边界识别。本发明有效地提高了句子边界识别的准确率，为后续词性标注和句法分析等自然语言处理工作提供基础分析服务。

Description

维吾尔语句子边界识别方法

技术领域

本发明涉及语言信息处理技术，特别是维吾尔语句子边界识别方法。

背景技术

随着Internet技术的迅速发展，各类信息聚增，网上每天都有海量信息在生成，存储和传播，人类面临前所未有的信息膨胀。自然语言处理技术在处理大量网络信息文本中的广泛应用，自动、高效的维吾尔文文本分析技术成为了对信息进行处理与理解的关键技术，对于语言信息处理领域及其相关应用领域的研究具有重要的理论意义和应用价值。

英语、汉语、阿拉伯语等大语种的大规模自然语言文本的获取技术、机器学习方法和模型、以及语料库语言学的逐渐发展和成熟，使得人们可以获得大量的带标注的文本和相关数据，并能够利用机器学习模型实现分析算法，对文本进行高度自动化的处理和标注。

近年来，随着少数民族信息化领域的发展，维吾尔语分析在语言信息处理领域也成为热点，但维吾尔语的自然语言处理的技术由于起步较晚，研究人员规模不大等原因，在研究方法和处理性能等方面一直处于初级阶段，尚未成熟的维吾尔语分析技术严重地阻碍了句法分析、语义分析、汉维机器翻译、信息检索、语音合成、语音识别等智能系统的研究与开发。

在英语、土耳其语和维吾尔语等语言中，句子边界的识别是词性标注、句法分析、机器翻译等自然语言处理系统首要解决的基础问题，涉及到句子的范围，即句子的正确划分。一般，通过简单地使用“.;!?”等符号进行句子边界识别也能得到85%-95%的准确率。但是，按照自然语言处理的错误放大原理，自然语言处理中处于最低层的句子边界识别算法的性能直接影响下一步分析的准确率，而且影响比较大。

国外一些学者通过长期研究英语特征，已经建立了一些英语句子边界识别的模型和方法，但是这些模型不能直接用于维吾尔语句子边界识别任务中，原因在于这两种语言产生句子边界的歧义不同，消除歧义的对象不同和对识别有贡献的特征存在较大的区别等。

发明内容

本发明的目的在于提供一种维吾尔语句子边界识别方法，有效地提高了句子边界识别的准确率，为后续词性标注和句法分析等自然语言处理工作提供基础分析服务。

本发明的目的是这样实现的：一种维吾尔语句子边界识别方法，1.提出维吾尔语句子识别中无歧义标点符号的识别规则；2.提出维吾尔语段落分类算法，有效减少统计空间的规模，迅速提高效率；3．使用统计学建立维吾尔语句子边界识别特征空间，高效的识别维吾尔语句子中歧义标点符号；4.针对无差别语料均实现高性能的维吾尔语句子边界识别。

本发明涉及维吾尔语文本中句子边界的识别，属于自然语言处理中的基于语料库的机器翻译技术领域；在目前市场上，这种能够综合维吾尔语词形、词的长度、词的字符串类型、音节等信息，高效识别维吾尔语句子边界的方法典尚属首例。

本发明综合了维吾尔语词形、词的长度、词的字符串类型、音节方面的特征，适用于维吾尔语语料的初级处理，有效地提高了句子边界识别的准确率，为后续词性标注和句法分析等自然语言处理工作提供基础分析服务，为维吾尔语信息化打下了坚实的基础。

本发明的有益效果是：高处理能力和鲁棒性的维吾尔语句子边界识别系统为后续词性标注和句法分析等自然语言处理工作提供基础分析服务，极大的促进了维吾尔语词法分析、句法分析、语义分析、汉维机器翻译、信息检索、语音合成、语音识别等智能系统的研究与开发，为维吾尔语信息化打下了坚实的基础。

本发明鉴于维吾尔语句子中标点符号的特征及基于规则的句子边界识别方法的不足，提出了最大熵模型和规则相结合的句子边界识别方法。该方法综合了维吾尔语词形、词的长度、词的字符串类型、音节方面的特征，适用于维吾尔语语料的初级处理，有效地提高了句子边界识别的准确率，为后续词性标注和句法分析等自然语言处理工作提供基础分析服务。

附图说明

下面将结合附图对本发明作进一步说明。

图1是本发明的流程图。

具体实施方式

一种维吾尔语句子边界识别方法，1.提出维吾尔语句子识别中无歧义标点符号的识别规则；2.提出维吾尔语段落分类算法，有效减少统计空间的规模，迅速提高效率；3．使用统计学建立维吾尔语句子边界识别特征空间，高效的识别维吾尔语句子中歧义标点符号；4.针对无差别语料均实现高性能的维吾尔语句子边界识别。

如图1所示，本发明涉及的流程及功能模块为：段落分类规则库、测试语料库、段落分类器、句子边界识别规则库，训练语料库、最大熵模型模块。主要流程包括：首先，在规则库支持下，将维吾尔文文本通过段落分类器划分为无歧义段落和有歧义段落；其次，针对无歧义段落，使用句子边界识别规则库对该段落内的句子进行识别划分；然后，使用划分结果作为训练语料库，训练最大熵模型；最后，使用训练所得的参数使用最大熵模型对有歧义段落进行句子边界识别划分。

本发明统计与规则结合的维吾尔语句子边界识别系统中段落分类算法的步骤如下：

S1：从文本中读入一个段落；

S2：判断当前段落是否包含任何有歧义符号，若不包含，则转到S7，若包含转到S3；

S2：若包含冒号，则转到S6，若包含省略号，转到S4，若包含句号，转到S5；

S4：若冒号在段落内出现，则转到S6，若冒号出现在段落尾处，则转到S7；

S5：若当前段落中包含两个句号之间出现的单词或非句子边界符号数量大于2的句号，则转到S7，否则转到S6；

S6：把当前段落加入有歧义段落组，转到S1；

S7：把当前段落加入无歧义段落组，转到S1；

如下表1是本发明统计与规则结合的维吾尔语句子边界识别系统中最大熵模型下的句子边界识别特征空间。

表1

序号	原子模板(函数)	模板意义
			1	RRWord	右边第二个单词
2	RRType	右边第二个单词类型
			3	RWord	右边单词
4	RLen	右边单词长度
			5	RType	右边单词类型
6	RLastSyl	右边单词最后音节
			7	RSymbol	右边符号
8	LSymbol	左边符号
			8	LWord	左边单词
10	LLen	左边单词长度
			11	LType	左边单词类型
12	LLastSyl	左边单词最后音节
			13	LLWord	左边第二个单词
14	LLType	左边第二个单词类型

Claims

1.一种维吾尔语句子边界识别方法，其特征是：1.提出维吾尔语句子识别中无歧义标点符号的识别规则；2.提出维吾尔语段落分类算法，有效减少统计空间的规模，迅速提高效率；3．使用统计学建立维吾尔语句子边界识别特征空间，高效的识别维吾尔语句子中歧义标点符号；4.针对无差别语料均实现高性能的维吾尔语句子边界识别。