CN103902522A

CN103902522A - 维吾尔语词干提取方法

Info

Publication number: CN103902522A
Application number: CN201210579424.9A
Authority: CN
Inventors: 尼加提·纳吉米; 买合木提·买买提; 帕肉克·司地克; 马斌
Original assignee: Xinjiang Electric Power Information Communication Co Ltd
Current assignee: Xinjiang Electric Power Information Communication Co Ltd
Priority date: 2012-12-28
Filing date: 2012-12-28
Publication date: 2014-07-02

Abstract

本发明公开了维吾尔语词干提取方法，根据维吾尔语的形态特点对维吾尔语词干提取规则形式化，依据维吾尔语名词形态构造构形词缀优先自动机、形容词、数词、量词、代词、副词等静词的有限状态自动机（FSM），对动词的词干、人称形式、非人称形式等构建了范畴级别的相互连接或出现规则框架，针对每一个范畴根据范畴的形态变化规律分别使用了简单的线性规则或FSM。本发明为汉维机器翻译和维吾尔语电子词典的构建提供了帮助，对乌（乌孜别克文）、哈（哈萨克）、柯（柯尔克孜）、土（土耳其文）电子词典及辅助机器翻译系统的开发打下了坚实的基础。

Description

维吾尔语词干提取方法

技术领域

本发明涉及语言信息处理技术，特别是维吾尔语词干提取方法。

背景技术

在国民经济和社会信息化的今天，人们对各类语种信息获取、查询、翻译提出了更快、更高的要求。随之，研制开发了各类电子词典产品和机器翻译系统，受到广大用户欢迎。在进行机器翻译或处理用户提供的搜索关键词时，被提交的单词很可能已具有了形态变化。这时系统必须要采用某种方法对提交的单词进行形态还原并取回相关信息，词干提取系统是机器翻译和构建电子词典的辅助工具。

机器翻译系统和自然语言处理系统的实用化进程中，机器词典和机器翻译系统已成为开发的焦点，很多IR系统和电子词典，机器翻译系统开发商和研究机构为了提高系统召回率，着手研究与开发了形态还原和派生形态系统。在研究和开发这些形态分析系统过程中，很多研究者提出了不同的方法，其中有Porter算法，词典查询，有限状态转录机(Finite State Transducer,FST)，有限状态自动机(Finite State Machine, FSM)，基于隐马尔科夫模型(Hidden Markov Model, HMM)的方法等。Porter算法是最常见的，也是最早提出的算法，特点在于简单和易于实现，但是召回率并不高。词典查询方法也是常见的方法之一，非常简单，效率和召回率与词库有关，但不能处理未登录词。虽然FST比词典查询方法速度快，但需要大量的人工工作，需要建设形态词表，但仍然不能处理未登录词。基于HMM的方法与词库的关系并密切，但是还没有成熟，性能略高于Porter算法。

近年来，随着少数民族信息化领域的发展，在新疆的少数民族语言的词干提取系统也有了新的发展，但大多数以维吾尔语为主，在更多少数民族语言的支持和技术水平上存在一定的缺陷。

维吾尔语词干提取就是在上述背景下提出的，该系统解决了对提交的单词进行形态还原并取回相关信息；是维吾尔语电子词典的构建，汉维机器翻译系统很好的辅助工具；另一方面对将来汉维机器翻译词典库建设；对乌（乌孜别克文）、哈（哈萨克）、柯（柯尔克孜）、土（土耳其文）电子词典及辅助机器翻译系统的开发打下了坚实的基础。

发明内容

本发明的目的在于提供一种维吾尔语词干提取方法，系统实现维吾尔语静词和动词的词干提取，为维吾尔语电子词典的构建提供了帮助；为汉维机器翻译系统的研究提供了基础，对乌（乌孜别克文）、哈（哈萨克）、柯（柯尔克孜）、土（土耳其文）电子词典及辅助机器翻译系统的开发打下了坚实的基础。

本发明的目的是这样实现的：一种维吾尔语词干提取方法，1. 构造名词构形词缀优先自动机，确定所有构形名词词缀和它们间的连接规则，然后构造从左向右的维吾尔语名词构形词缀切分有限自动机；2. 构造形容词有限状态自动机，和名词构建过程一样构造形容词的有限状态自动机，形容词不但可以接受名词的词缀还可以接受自己的词缀，形容词的FSM比名词复杂，最终构造的确定自动机的状态也较多；3. 构造数词有限状态自动机，数词在句中以各种形态变化的形式出现，充当各种句子成分，数词只能附加构形词缀，不能附加构词词缀，一般维吾尔语数词不仅可以附加名词的构形词缀，有自己的词缀，实现数词有限状态自动机；4.使用统计学和语音学实现维文单词和文本的朗读功能，语音朗读标准、清晰具有较先进的技术特色；5. 动词本身是一个复杂的系统，不能建立统一的框架进行处理，所以对动词的词干、人称形式、非人称形式等构建范畴级别的相互连接或出现规则框架，针对每一个范畴根据范畴的形态变化规律分别使用简单的线性规则或FSM，对助动词、系动词等根据内部分类把形态有较多变化的与动词一样处理，对形态变化也十分有限的部分系动词和助动词的采用词典的方法进行处理。

本发明涉及维吾尔语静词和动词的词干提取，其中静词包括名词、形容词、数词、量词、代词和副词。形态分析是自然语言处理领域中的基本问题之一，也是长期以来一直在研究的课题。词干提取在英语，阿拉伯语，土耳其语，维吾尔语等黏着语言中与中文分词一样很重要。在目前市场上，这种能对维吾尔语静词和动词进行词干提取功能的词干提取系统尚属首例。

本发明基于计算语言学、语言学、社会学、计算机信息处理科学，根据维吾尔语词类统计对于维吾尔语词干提取而言最关键的是提出能够高性能地处理名词、形容词、数词、代词以及动词形态的方法或框架，这些单词占整个语料库的90.28%，其他词类基本没有形态变化，无需进行词干提取。其特征是：根据维吾尔语的形态特点对维吾尔语词干提取规则形式化，依据维吾尔语名词形态构造构形词缀优先自动机、形容词、数词、量词、代词、副词等静词的有限状态自动机（FSM），对动词的词干、人称形式、非人称形式等构建了范畴级别的相互连接或出现规则框架，针对每一个范畴根据范畴的形态变化规律分别使用了简单的线性规则或FSM。

本发明的有益效果是，系统实现了维吾尔语静词和动词的词干提取，为维吾尔语电子词典的构建提供了帮助；为汉维机器翻译系统的研究提供了基础，对乌（乌孜别克文）、哈（哈萨克）、柯（柯尔克孜）、土（土耳其文）电子词典及辅助机器翻译系统的开发打下了坚实的基础。

附图说明

下面将结合附图对本发明作进一步说明。

图1是本发明维吾尔语名词构形词缀有限状态自动机的示意图；

图2是本发明维吾尔语形容词有限状态自动机的示意图；

图3是本发明维吾尔语数词有限状态自动机的第一示意图；

图4是本发明维吾尔语量词有限状态自动机的第二示意图；

图5是本发明维吾尔语动词范畴的连接规则框架的示意图。

具体实施方式

一种维吾尔语词干提取方法，1. 构造名词构形词缀优先自动机，确定所有构形名词词缀和它们间的连接规则，然后构造从左向右的维吾尔语名词构形词缀切分有限自动机；2. 构造形容词有限状态自动机，和名词构建过程一样构造形容词的有限状态自动机，形容词不但可以接受名词的词缀还可以接受自己的词缀，形容词的FSM比名词复杂，最终构造的确定自动机的状态也较多；3. 构造数词有限状态自动机，数词在句中以各种形态变化的形式出现，充当各种句子成分，数词只能附加构形词缀，不能附加构词词缀，一般维吾尔语数词不仅可以附加名词的构形词缀，有自己的词缀，实现数词有限状态自动机；4.使用统计学和语音学实现维文单词和文本的朗读功能，语音朗读标准、清晰具有较先进的技术特色；5. 动词本身是一个复杂的系统，不能建立统一的框架进行处理，所以对动词的词干、人称形式、非人称形式等构建范畴级别的相互连接或出现规则框架，针对每一个范畴根据范畴的形态变化规律分别使用简单的线性规则或FSM，对助动词、系动词等根据内部分类把形态有较多变化的与动词一样处理，对形态变化也十分有限的部分系动词和助动词的采用词典的方法进行处理。

如图1所示，首先，构造从右向左的非确定自动机，词缀按照一定规则进行互相连接。收集了所有连接规则之后，在这个规则库的基础上构造了从右向左的有限状态自动机；然后，给词缀编号，在这个步骤给每一个词缀分配唯一的编号，在以后的步骤中进行自动机方向翻转，非确定自动机转换成确定自动机时使用这些标号表示词缀；其次，翻转自动机；最后，NFA转换成DFA，非确定自动机转换成确定自动机，这样可以确保每个符号只能产生一个状态转移，并且可以消除空符号转移。

如图2所示，形容词除了可以接受具有自己特有的一些构形词缀，还可以接受大部分名词的构形词缀，构建过程与名词一样。

如图3所示，数词是每种语言都存在的词类之一。数词在句中以各种形态变化的形式出现，充当各种句子成分。数词只能附加构形词缀，不能附加构词词缀。一般维吾尔语数词不仅可以附加名词的构形词缀，有自己的词缀。

如图4所示，量词是表示计量单位的词类，分为名量词和动量词。名量词表示事物的单位，而动量词则表示动作的单位。在语法书上没有明确阐述量词的形态系统，根据我们对语料库的统计，量词经常与数词一起使用，形态变化十分接近数词的形态。

如图5所示，词干形式：作为动词人称形式和非人称形式共同基础的语法形式叫做动词的词干形式。维吾尔语动词的词干形式包括语态、能动-非能动和肯定-否定三种范畴。维吾尔语动词的语态有基本态、被动态、自反态、强制态和交互集合态等五种。非人称形式：动词还有在人称和数上不与主语一致的形式，叫做非人称形式。这种形式不能独立作为谓语，但可以和助动词或系动词等一起构成合成谓语，还可以在句子中充当主语、宾语、定语、状语和表语。动名词、形动词、副动词以及目的动词等就是动词的非人称形式。人称形式：也叫做变位形式，动词在充当谓语时，它的形式要同主语在人称和数上一致，因此叫做人称形式。动词的人称形式有式、体、时态、人称和数等范畴。

Claims

1.一种维吾尔语词干提取方法，其特征是：1. 构造名词构形词缀优先自动机，确定所有构形名词词缀和它们间的连接规则，然后构造从左向右的维吾尔语名词构形词缀切分有限自动机；2. 构造形容词有限状态自动机，和名词构建过程一样构造形容词的有限状态自动机；3. 构造数词有限状态自动机；4.使用统计学和语音学实现维文单词和文本的朗读功；5.对动词的词干、人称形式、非人称形式构建范畴级别的相互连接或出现规则框架，针对每一个范畴根据范畴的形态变化规律分别使用简单的线性规则或FSM，对助动词、系动词根据内部分类把形态有较多变化的与动词一样处理，对形态变化也十分有限的部分系动词和助动词的采用词典的方法进行处理。