CN103902525B - 维吾尔语词性标注方法 - Google Patents
维吾尔语词性标注方法 Download PDFInfo
- Publication number
- CN103902525B CN103902525B CN201210579945.4A CN201210579945A CN103902525B CN 103902525 B CN103902525 B CN 103902525B CN 201210579945 A CN201210579945 A CN 201210579945A CN 103902525 B CN103902525 B CN 103902525B
- Authority
- CN
- China
- Prior art keywords
- uighur
- speech tagging
- speech
- word
- mark
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000002372 labelling Methods 0.000 claims abstract description 9
- 238000013179 statistical model Methods 0.000 claims abstract description 7
- 239000000284 extract Substances 0.000 abstract description 4
- 238000004458 analytical method Methods 0.000 description 15
- 230000000877 morphologic effect Effects 0.000 description 14
- 238000011160 research Methods 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 12
- 238000013519 translation Methods 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 5
- 230000010365 information processing Effects 0.000 description 5
- 239000003550 marker Substances 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 239000000463 material Substances 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000001915 proofreading effect Effects 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000531229 Caryopteris x clandonensis Species 0.000 description 1
- 235000001486 Salvia viridis Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000010977 jade Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了维吾尔语词性标注方法,1.制订维吾尔语词性标注集及百万词次的维吾尔语语料库;2.在一级标注中选取基于条件随机场方法构建维吾尔语词性标注模型;3.构建正确标注规则库及无歧义词性标记词典和专有名词词典,构建基于规则和词典的一级词性标注纠正算法,进一步提高一级词性标注的准确率;4.提供基于词干提取的词性标注方法,进一步增加标注单词的覆盖率;5.提供二级词性标注统计模型,增加标注单词的覆盖率和成功率;6.在二级标注中通过无歧义词词典和专有名词词典标注,再经过词干提取标注及统计模型标注,准确率极高的实现二级词性标注。本发明较高效率地解决了维吾尔语的词性标注问题。
Description
技术领域
本发明涉及语言信息处理技术,特别是维吾尔语词性标注方法。
背景技术
在国民经济和社会信息化的今天,每天都有海量信息在生成,存储和传播,人类面临了前所未有的信息膨胀,如何从海量信息中寻找自己所需的信息,又如何把千差万别的信息转换成自己所能理解的信息成为人们共同关注的问题,也是信息处理所需解决的问题。目前自然语言处理已经成为信息处理领域中的一个引人注目的研究热点。
新疆维吾尔自治区是多民族聚居的地区,在现有的2000多万人口中,少数民族人口有1300多万,占总人口的60%。目前,维吾尔文、哈萨克文、柯尔克孜文是和汉文同时使用的官方语言文字。在信息化社会的今天,全疆范围的政府机构、检察院、法院、基层乡镇政府、报社、出版社等日程工作中频繁使用地方民族语言的机构对维吾尔语的信息处理技术提出了很高的要求。少数民族语言的信息处理问题的解决是方便广大民族群众和提高政府部门工作效率的有力保障。因此维吾尔语的信息化处理也得到了广泛范围内的极大重视。
在自然语言处理中,词是能够独立活动的有意义的最小的语言成分,因此它是语言中表达内容的基本单位。词性标注(Part-of-Speech Tagging)的主要目的是给句中每一个词赋以正确的分类标记,它是词法分析的一个重要部分,词性标注的难点是正确判断兼类词的词类以及生词词类的判别。每一种语言都具有各自的词法体系。故词法分析是对某一种语言进行自然语言处理时不可或缺的基础环节,也是计算机理解语言的第一步。因此词法分析在机器翻译、信息检索、信息安全、语音识别与合成、文本校对等诸多领域的研究中具有重要的地位。维吾尔语词法分析技术同样是对维吾尔语进行深入研究和智能化处理不可或缺的核心技术,是维吾尔语与其它语言或机器会话必定要经过的重要环节。
维吾尔语是黏着语言,属于阿尔泰语系突厥语族,在国内属于同类语系的有哈萨克语、柯尔克孜语,在国外有土耳其语、乌兹别克语、土库曼语等。在这些语言当中,除了土耳其语在词法分析中展开一定的工作之外,其他语种的词法分析、分析技术仍处于初级阶段。维吾尔语词法分析技术的研究,将对这些国内外语言的研究具有很大的促进作用。词性标注作为词法分析的核心内容,更是研究工作的重中之重。
词性标注综述:国内外词性标注的研究方法主要有三种:基于规则的方法、基于转换错误驱动的方法、基于统计的方法。基于规则的词性标注方法是最早被提出的一种词性标注方法,其基本思想是:按兼类词搭配关系和上下文语境构建词类消歧规则。如美国布朗大学的Greence和Rubin 1971年开发的TAGGIT词类标注系统。国内刘开瑛按兼类词搭配关系构造了词类识别规则库,并结合词类同现概率实现了汉语词性标注系统。随着标注语料库规模的逐步增大,可利用资源越来越多,具备可以从已标注的文本中提取规则显得更为科学而实际。因此,学者们提出了基于机器学习的规则自动提取方法。EBrill(1995)提出了基于转换的学习器(TBL)和错误驱动的学习方法来进行词性标注处理。国内周明等人提出了相应的改进方法。另外,李晓黎等人尝试了利用数据采掘方法获取汉语词性标注规则的方法。随着自然语言处理研究的逐渐热门,受到国外研究的启发,国内学者们根据汉语词性标注任务的特点展开广泛而深入的研究。孙茂松等人对基于隐Markov模型的汉语词类白动标注进行实验。对基于统计的汉语词性标注方法进行了分析与改进。基于统计和规则的方法拥有各自的优势,周强提出了一种规则和统计方法相结合的词性标注算法。国内外大量学者对英语、汉语进行了大量深入而详细的研究,但针对维吾尔语的研究基本上处于空白。词性标注作为词法分析技术的重要组成部分,对维吾尔语的进一步信息化处理具有举足轻重的地位。词性标注系统性能的高低直接决定了维吾尔语句法分析乃至机器翻译、信息检索、信息安全、语音识别与合成、文本校对等研究的效率。
发明内容
本发明的目的在于提供一种维吾尔语词性标注方法,较高效率地解决了维吾尔语的词性标注问题,实现了维吾尔语自然语言处理时不可或缺的基础环节,为维吾尔语的词法分析研究打下了坚实的基础,是维吾尔语的机器翻译、信息检索、信息安全、语音识别与合成、文本校对等诸多领域的研究成为可能,同时对同属突厥语系的土耳其语、乌兹别克语等语言的研究具有很大的促进作用。
本发明的目的是这样实现的:一种维吾尔语词性标注方法,1.制订维吾尔语词性标注集及百万词次的维吾尔语语料库;2.在一级标注中选取基于条件随机场方法构建维吾尔语词性标注模型;3.构建正确标注规则库及无歧义词性标记词典和专有名词词典,构建基于规则和词典的一级词性标注纠正算法,进一步提高一级词性标注的准确率;4.提供基于词干提取的词性标注方法,进一步增加标注单词的覆盖率;5.提供二级词性标注统计模型,增加标注单词的覆盖率和成功率;6.在二级标注中通过无歧义词词典和专有名词词典标注,再经过词干提取标注及统计模型标注,准确率极高的实现二级词性标注。
本发明(混合策略的维吾尔语词性标注方法)指采用混合策略对维吾尔语句子中的每一个词赋以正确的分类标记。其特点是:使用了基于词典、基于规则、基于统计方法相结合的分两级进行词性标注,第一级选取了最适合于维吾尔语序列标注的条件随机场方法构建了维吾尔语词性标注的统计模型,提出了基于无歧义规则和词典的以及词性标记纠正方法,第二级提出了词典、规则、形态标志、最大熵模型等方法相结合的词性二级标注方法,此系统在实际应用中性能较好,达到了可用水平。
本发明涉及维吾尔语文本中的词性标注技术,属于自然语言处理中的词法分析领域;在目前市场上,这种采用混合策略,使用基于词典、基于规则、基于统计方法对维吾尔语文本进行较为准确的词性标注的系统,在国内尚属首例。
本发明的有益效果是:提取灵活,准确率高,较高效率地解决了维吾尔语的词性标注问题,实现了维吾尔语自然语言处理时不可或缺的基础环节,为维吾尔语的词法分析研究打下了坚实的基础,是维吾尔语的机器翻译、信息检索、信息安全、语音识别与合成、文本校对等诸多领域的研究成为可能,同时对同属突厥语系的土耳其语、乌兹别克语等语言的研究具有很大的促进作用。
附图说明
下面将结合附图对本发明作进一步说明。
图1是本发明混合策略的维吾尔语词性标注系统的结构流程图。
具体实施方式
一种维吾尔语词性标注方法,1.制订维吾尔语词性标注集及百万词次的维吾尔语语料库;2.在一级标注中选取基于条件随机场方法构建维吾尔语词性标注模型;3.构建正确标注规则库及无歧义词性标记词典和专有名词词典,构建基于规则和词典的一级词性标注纠正算法,进一步提高一级词性标注的准确率;4.提供基于词干提取的词性标注方法,进一步增加标注单词的覆盖率;5.提供二级词性标注统计模型,增加标注单词的覆盖率和成功率;6.在二级标注中通过无歧义词词典和专有名词词典标注,再经过词干提取标注及统计模型标注,准确率极高的实现二级词性标注。
如图1所示,混合策略的维吾尔语词性标注系统的流程涉及功能模块为:基于HMM的词性标注模块,维吾尔语词干提取系统,基于CRF的一级标注模型,基于词典和规则的词性一级标注纠正模块,基于词典和形态分析的词性二级标注模块,基于最大熵的二级标注模型,及词性标注各级中分别构建的模型参数库及规则集。主要流程包括:首先,针对获取的词性序列采用基于HMM的词性标注方法进行一级标注,对未能标注的单词进行词干提取标注;其次对词序列采用基于CRF的一级标注模型进行基于词典和规则的一级词性标注纠正;最后采用基于最大熵的二级标注模型对词序列进行基于词典和形态分析的二级标注。
使用者通过键盘在汉维双语多媒体电子词典的输入框中选择源语言需要查询的单词或语句文本,系统通过语种识别,利用拼音检索法、首部检索法、尾部检索法、包含检索法、精确匹配检索法的其中一种方法,通过拼音语料库、汉维语料库、维汉语料库的单词匹配,检索出需要翻译的单词,然后根据匹配的单词获取汉语解释、维文解释,通过文本混合排版技术、图文混合排版技术将结果组合成为输出数据,显示在结果显示区域内。
如下表1是混合策略的维吾尔语词性标注系统的二级标注最大熵原子特征模板。最大熵模型使用的上下文窗口长度为4,取当前词、前两个词和后一个词的词形、词性、词干、词缀等信息。为了充分利用已有的二级标记,不仅使用前后单词的一级标记,把二级标记也纳入特征空间。若前后词的二级标记还没有确定,则使用一级标记代替。如下表1所示,使用者通过光标定位需要翻译解释的单词或文本,系统在经过语种识别后,通过常用取词汉语库和常用取词维语库,检索出目标语言的翻译数据,通过文本混合排版技术、图文混合排版技术将结果组合成为输出数据,并动态构建符合输出数据大小的显示界面,显示最终翻译结果。
表1
特征 | 说明 | |
1 | W0 | 中心词 |
2 | W-1 | 中心词的前一个词 |
3 | W-2 | 中心词前第二个词 |
4 | W1 | 中心词的后一个词 |
5 | S0 | 中心词的词干 |
6 | S-1 | 中心词的前一个词的词干 |
7 | S-2 | 中心词前第二个词的词干 |
8 | S1 | 中心词的后一个词的词干 |
9 | SFF0 | 中心词的词缀 |
10 | SFF-1 | 中心词的前一个词的词缀 |
11 | SFF-2 | 中心词前第二个词的词缀 |
12 | SFF1 | 中心词的后一个词的词缀 |
13 | T-2 | 中心词前第二个词的一级标记 |
14 | T-1 | 中心词前一个词的一级标记 |
15 | T1 | 中心词的后一个词的一级标记 |
如下表2是本发明混合策略的维吾尔语词性标注系统与单纯的基于HMM的词性标注其的效率对比。实验采用新疆多语种信息技术重点实验室研制的《维吾尔语百万词词法标注语料库》进行以下个实验:A.使用所有的语料训练相关模型,进行封闭测试;B.随机选出80%的语料进行模型训练,20%语料库用于测试;C.使用所有的语料进行模型训练,对新选出的50篇新闻进行词性标注,并对实验结果进行人工校对。使用者输入源语言单词或文本后,系统经过语种识别、文本方式维吾尔文音节单词切分、维吾尔文和汉语单词匹配,通过汉语真人语音库、真人维文语音库和合成维文语音库,生成语音文件,通过系统语音设备读取并实现语音朗诵。
如下表2所示,混合策略有效地利用各类资源,充分发挥语言相关的知识库的作用,使得维吾尔语的词性标注性能得到了较大提高。
表2
Claims (1)
1. 一种维吾尔语词性标注方法,其特征是:1. 制订维吾尔语词性标注集及百万词次的维吾尔语语料库;2. 在一级标注中选取基于条件随机场方法构建维吾尔语词性标注模型;3. 构建正确标注规则库及无歧义词性标记词典和专有名词词典,构建基于规则和词典的一级词性标注纠正算法,进一步提高一级词性标注的准确率; 4.提供基于词干提取的词性标注方法,进一步增加标注单词的覆盖率;5.提供二级词性标注统计模型,增加标注单词的覆盖率和成功率;6.在二级标注中通过无歧义词词典和专有名词词典标注,再经过词干提取标注及统计模型标注,准确率极高的实现二级词性标注。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210579945.4A CN103902525B (zh) | 2012-12-28 | 2012-12-28 | 维吾尔语词性标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210579945.4A CN103902525B (zh) | 2012-12-28 | 2012-12-28 | 维吾尔语词性标注方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103902525A CN103902525A (zh) | 2014-07-02 |
CN103902525B true CN103902525B (zh) | 2016-09-21 |
Family
ID=50993855
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210579945.4A Active CN103902525B (zh) | 2012-12-28 | 2012-12-28 | 维吾尔语词性标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103902525B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815209B (zh) * | 2015-11-30 | 2020-03-17 | 张海军 | 一种维吾尔文农业技术术语识别方法 |
CN106372060B (zh) * | 2016-08-31 | 2019-05-03 | 北京百度网讯科技有限公司 | 搜索文本的标注方法和装置 |
CN107894977A (zh) * | 2017-11-01 | 2018-04-10 | 昆明理工大学 | 结合兼类词词性消歧模型和字典的越南语词性标记方法 |
CN108182448B (zh) * | 2017-12-22 | 2020-08-21 | 北京中关村科金技术有限公司 | 一种标注策略的选择方法及相关装置 |
CN109992766B (zh) * | 2017-12-29 | 2024-02-06 | 北京京东尚科信息技术有限公司 | 提取目标词的方法和装置 |
CN107977364B (zh) * | 2017-12-30 | 2022-02-25 | 科大讯飞股份有限公司 | 维语子词切分方法及装置 |
CN110930997B (zh) * | 2019-12-10 | 2022-08-16 | 四川长虹电器股份有限公司 | 一种利用深度学习模型对音频进行标注的方法 |
CN113157857B (zh) * | 2021-03-13 | 2023-06-02 | 中国科学院新疆理化技术研究所 | 面向新闻的热点话题检测方法、装置及设备 |
CN113158693A (zh) * | 2021-03-13 | 2021-07-23 | 中国科学院新疆理化技术研究所 | 基于汉语关键词的维吾尔语关键词生成方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101295295A (zh) * | 2008-06-13 | 2008-10-29 | 中国科学院计算技术研究所 | 基于线性模型的汉语词法分析方法 |
CN101539907A (zh) * | 2008-03-19 | 2009-09-23 | 日电(中国)有限公司 | 词性标注模型训练装置、词性标注系统及其方法 |
CN101866337A (zh) * | 2009-04-14 | 2010-10-20 | 日电(中国)有限公司 | 词性标注系统、用于训练词性标注模型的装置及其方法 |
CN102662930A (zh) * | 2012-04-16 | 2012-09-12 | 乐山师范学院 | 一种语料标注方法及装置 |
EP2506151A1 (en) * | 2009-11-27 | 2012-10-03 | Korea Institute Of Science And Technology Information | Semantic syntax tree kernel-based processing system and method for automatically extracting semantic correlations between scientific and technological core entities |
-
2012
- 2012-12-28 CN CN201210579945.4A patent/CN103902525B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101539907A (zh) * | 2008-03-19 | 2009-09-23 | 日电(中国)有限公司 | 词性标注模型训练装置、词性标注系统及其方法 |
CN101295295A (zh) * | 2008-06-13 | 2008-10-29 | 中国科学院计算技术研究所 | 基于线性模型的汉语词法分析方法 |
CN101866337A (zh) * | 2009-04-14 | 2010-10-20 | 日电(中国)有限公司 | 词性标注系统、用于训练词性标注模型的装置及其方法 |
EP2506151A1 (en) * | 2009-11-27 | 2012-10-03 | Korea Institute Of Science And Technology Information | Semantic syntax tree kernel-based processing system and method for automatically extracting semantic correlations between scientific and technological core entities |
CN102662930A (zh) * | 2012-04-16 | 2012-09-12 | 乐山师范学院 | 一种语料标注方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN103902525A (zh) | 2014-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103902525B (zh) | 维吾尔语词性标注方法 | |
CN112364623A (zh) | 基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法 | |
CN101763403A (zh) | 面向多语言信息检索系统的查询翻译方法 | |
Kang | Spoken language to sign language translation system based on HamNoSys | |
Kambarami et al. | Computational modeling of agglutinative languages: the challenge for southern bantu languages | |
Moran et al. | TeDDi sample: Text data diversity sample for language comparison and multilingual NLP | |
CN103164398B (zh) | 利用汉维电子辞典自动转译汉维语的方法 | |
Mohnot et al. | Hybrid approach for Part of Speech Tagger for Hindi language | |
CN103164397A (zh) | 汉哈电子辞典及其自动转译汉哈语的方法 | |
CN106156007A (zh) | 一种单词原形化的英汉统计机器翻译方法 | |
CN103164395A (zh) | 汉柯电子辞典及其自动转译汉柯语的方法 | |
CN103164396A (zh) | 汉维哈柯电子辞典及其自动转译汉维哈柯语的方法 | |
Zhou et al. | Research on computer-aided translation | |
Wang et al. | Comparison of changes between Mainland China and Taiwan | |
Amezian et al. | Training an LSTM-based Seq2Seq model on a Moroccan biscript lexicon | |
Wang et al. | Chunk extraction and analysis based on frame-verbs | |
Nowakowski et al. | A proposal for a unified corpus of the Ainu language | |
Lingam et al. | English to Telugu Rule based Machine Translation System: A Hybrid Approach | |
Samanta et al. | Development of multimodal user interfaces to Internet for common people | |
Chengping | The Research and construction of Yi corpus for information processing | |
Tsai et al. | Applying an NVEF Word-Pair Identifier to the Chinese Syllable-to-Word Conversion Problem | |
Miao et al. | Chinese named entity recognition and disambiguation based on Wikipedia | |
Guo et al. | Big-Data Based English-Chinese Corpus Collection and Mining and Machine Translation Framework | |
Liu et al. | Creation and Application of Inter-language CorporaBased on Language Information Processing | |
Jia et al. | Language Translation Technology Based on Mobile Internet |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C41 | Transfer of patent application or patent right or utility model | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20160725 Address after: 830000, the Xinjiang Uygur Autonomous Region, Urumqi hi tech Zone, Changchun South Road, No. 1, 1118, 12 floor Applicant after: INFORMATION & TELECOMMUNICATION COMPANY OF STATE GRID XINJIANG ELECTRIC POWER COMPANY Applicant after: State Grid Corporation of China Address before: 830011 No. 6 Kunming Road, hi tech Zone, the Xinjiang Uygur Autonomous Region, Urumqi Applicant before: Xinjiang Electric Power Information Communication Co., Ltd. |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |