CN103902524A - 维吾尔语句子边界识别方法 - Google Patents
维吾尔语句子边界识别方法 Download PDFInfo
- Publication number
- CN103902524A CN103902524A CN201210579930.8A CN201210579930A CN103902524A CN 103902524 A CN103902524 A CN 103902524A CN 201210579930 A CN201210579930 A CN 201210579930A CN 103902524 A CN103902524 A CN 103902524A
- Authority
- CN
- China
- Prior art keywords
- uighur
- sentence boundary
- recognition
- boundary recognition
- uygur language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了维吾尔语句子边界识别方法,1.提出维吾尔语句子识别中无歧义标点符号的识别规则;2.提出维吾尔语段落分类算法,有效减少统计空间的规模,迅速提高效率;3.使用统计学建立维吾尔语句子边界识别特征空间,高效的识别维吾尔语句子中歧义标点符号;4.针对无差别语料均实现高性能的维吾尔语句子边界识别。本发明有效地提高了句子边界识别的准确率,为后续词性标注和句法分析等自然语言处理工作提供基础分析服务。
Description
技术领域
本发明涉及语言信息处理技术,特别是维吾尔语句子边界识别方法。
背景技术
随着Internet技术的迅速发展,各类信息聚增,网上每天都有海量信息在生成,存储和传播,人类面临前所未有的信息膨胀。自然语言处理技术在处理大量网络信息文本中的广泛应用,自动、高效的维吾尔文文本分析技术成为了对信息进行处理与理解的关键技术,对于语言信息处理领域及其相关应用领域的研究具有重要的理论意义和应用价值。
英语、汉语、阿拉伯语等大语种的大规模自然语言文本的获取技术、机器学习方法和模型、以及语料库语言学的逐渐发展和成熟,使得人们可以获得大量的带标注的文本和相关数据,并能够利用机器学习模型实现分析算法,对文本进行高度自动化的处理和标注。
近年来,随着少数民族信息化领域的发展,维吾尔语分析在语言信息处理领域也成为热点,但维吾尔语的自然语言处理的技术由于起步较晚,研究人员规模不大等原因,在研究方法和处理性能等方面一直处于初级阶段,尚未成熟的维吾尔语分析技术严重地阻碍了句法分析、语义分析、汉维机器翻译、信息检索、语音合成、语音识别等智能系统的研究与开发。
在英语、土耳其语和维吾尔语等语言中,句子边界的识别是词性标注、句法分析、机器翻译等自然语言处理系统首要解决的基础问题,涉及到句子的范围,即句子的正确划分。一般,通过简单地使用“.;!?”等符号进行句子边界识别也能得到85%-95%的准确率。但是,按照自然语言处理的错误放大原理,自然语言处理中处于最低层的句子边界识别算法的性能直接影响下一步分析的准确率,而且影响比较大。
国外一些学者通过长期研究英语特征,已经建立了一些英语句子边界识别的模型和方法,但是这些模型不能直接用于维吾尔语句子边界识别任务中,原因在于这两种语言产生句子边界的歧义不同,消除歧义的对象不同和对识别有贡献的特征存在较大的区别等。
发明内容
本发明的目的在于提供一种维吾尔语句子边界识别方法,有效地提高了句子边界识别的准确率,为后续词性标注和句法分析等自然语言处理工作提供基础分析服务。
本发明的目的是这样实现的:一种维吾尔语句子边界识别方法,1.提出维吾尔语句子识别中无歧义标点符号的识别规则;2.提出维吾尔语段落分类算法,有效减少统计空间的规模,迅速提高效率;3.使用统计学建立维吾尔语句子边界识别特征空间,高效的识别维吾尔语句子中歧义标点符号;4.针对无差别语料均实现高性能的维吾尔语句子边界识别。
本发明涉及维吾尔语文本中句子边界的识别,属于自然语言处理中的基于语料库的机器翻译技术领域;在目前市场上,这种能够综合维吾尔语词形、词的长度、词的字符串类型、音节等信息,高效识别维吾尔语句子边界的方法典尚属首例。
本发明综合了维吾尔语词形、词的长度、词的字符串类型、音节方面的特征,适用于维吾尔语语料的初级处理,有效地提高了句子边界识别的准确率,为后续词性标注和句法分析等自然语言处理工作提供基础分析服务,为维吾尔语信息化打下了坚实的基础。
本发明的有益效果是:高处理能力和鲁棒性的维吾尔语句子边界识别系统为后续词性标注和句法分析等自然语言处理工作提供基础分析服务,极大的促进了维吾尔语词法分析、句法分析、语义分析、汉维机器翻译、信息检索、语音合成、语音识别等智能系统的研究与开发,为维吾尔语信息化打下了坚实的基础。
本发明鉴于维吾尔语句子中标点符号的特征及基于规则的句子边界识别方法的不足,提出了最大熵模型和规则相结合的句子边界识别方法。该方法综合了维吾尔语词形、词的长度、词的字符串类型、音节方面的特征,适用于维吾尔语语料的初级处理,有效地提高了句子边界识别的准确率,为后续词性标注和句法分析等自然语言处理工作提供基础分析服务。
附图说明
下面将结合附图对本发明作进一步说明。
图1是本发明的流程图。
具体实施方式
一种维吾尔语句子边界识别方法,1.提出维吾尔语句子识别中无歧义标点符号的识别规则;2.提出维吾尔语段落分类算法,有效减少统计空间的规模,迅速提高效率;3.使用统计学建立维吾尔语句子边界识别特征空间,高效的识别维吾尔语句子中歧义标点符号;4.针对无差别语料均实现高性能的维吾尔语句子边界识别。
如图1所示,本发明涉及的流程及功能模块为:段落分类规则库、测试语料库、段落分类器、句子边界识别规则库,训练语料库、最大熵模型模块。主要流程包括:首先,在规则库支持下,将维吾尔文文本通过段落分类器划分为无歧义段落和有歧义段落;其次,针对无歧义段落,使用句子边界识别规则库对该段落内的句子进行识别划分;然后,使用划分结果作为训练语料库,训练最大熵模型;最后,使用训练所得的参数使用最大熵模型对有歧义段落进行句子边界识别划分。
本发明统计与规则结合的维吾尔语句子边界识别系统中段落分类算法的步骤如下:
S1:从文本中读入一个段落;
S2:判断当前段落是否包含任何有歧义符号,若不包含,则转到S7,若包含转到S3;
S2:若包含冒号,则转到S6,若包含省略号,转到S4,若包含句号,转到S5;
S4:若冒号在段落内出现,则转到S6,若冒号出现在段落尾处,则转到S7;
S5:若当前段落中包含两个句号之间出现的单词或非句子边界符号数量大于2的句号,则转到S7,否则转到S6;
S6:把当前段落加入有歧义段落组,转到S1;
S7:把当前段落加入无歧义段落组,转到S1;
如下表1是本发明统计与规则结合的维吾尔语句子边界识别系统中最大熵模型下的句子边界识别特征空间。
表1
序号 | 原子模板(函数) | 模板意义 |
1 | RRWord | 右边第二个单词 |
2 | RRType | 右边第二个单词类型 |
3 | RWord | 右边单词 |
4 | RLen | 右边单词长度 |
5 | RType | 右边单词类型 |
6 | RLastSyl | 右边单词最后音节 |
7 | RSymbol | 右边符号 |
8 | LSymbol | 左边符号 |
8 | LWord | 左边单词 |
10 | LLen | 左边单词长度 |
11 | LType | 左边单词类型 |
12 | LLastSyl | 左边单词最后音节 |
13 | LLWord | 左边第二个单词 |
14 | LLType | 左边第二个单词类型 |
Claims (1)
1.一种维吾尔语句子边界识别方法,其特征是:1.提出维吾尔语句子识别中无歧义标点符号的识别规则;2.提出维吾尔语段落分类算法,有效减少统计空间的规模,迅速提高效率;3.使用统计学建立维吾尔语句子边界识别特征空间,高效的识别维吾尔语句子中歧义标点符号;4.针对无差别语料均实现高性能的维吾尔语句子边界识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210579930.8A CN103902524A (zh) | 2012-12-28 | 2012-12-28 | 维吾尔语句子边界识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210579930.8A CN103902524A (zh) | 2012-12-28 | 2012-12-28 | 维吾尔语句子边界识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103902524A true CN103902524A (zh) | 2014-07-02 |
Family
ID=50993854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210579930.8A Pending CN103902524A (zh) | 2012-12-28 | 2012-12-28 | 维吾尔语句子边界识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103902524A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111401004A (zh) * | 2020-03-28 | 2020-07-10 | 苏州机数芯微科技有限公司 | 一种基于机器学习的文章断句方法 |
CN112464644A (zh) * | 2020-12-04 | 2021-03-09 | 北京中科凡语科技有限公司 | 自动断句模型建立方法及自动断句方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1545666A (zh) * | 2001-07-02 | 2004-11-10 | 英特尔公司 | 用于词汇获取和词边界识别的方法和系统 |
CN1570923A (zh) * | 2003-07-22 | 2005-01-26 | 中国科学院自动化研究所 | 口语会话中句子边界识别方法 |
CN1894686A (zh) * | 2003-11-21 | 2007-01-10 | 皇家飞利浦电子股份有限公司 | 用于文档构造的文本分段和主题注释 |
CN1991819A (zh) * | 2005-12-30 | 2007-07-04 | 北京法国电信研发中心有限公司 | 语言形态分析器 |
CN101013421A (zh) * | 2007-02-02 | 2007-08-08 | 清华大学 | 基于规则的汉语基本块自动分析方法 |
US20120010873A1 (en) * | 2010-07-06 | 2012-01-12 | Electronics And Telecommunications Research Institute | Sentence translation apparatus and method |
-
2012
- 2012-12-28 CN CN201210579930.8A patent/CN103902524A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1545666A (zh) * | 2001-07-02 | 2004-11-10 | 英特尔公司 | 用于词汇获取和词边界识别的方法和系统 |
CN1570923A (zh) * | 2003-07-22 | 2005-01-26 | 中国科学院自动化研究所 | 口语会话中句子边界识别方法 |
CN1894686A (zh) * | 2003-11-21 | 2007-01-10 | 皇家飞利浦电子股份有限公司 | 用于文档构造的文本分段和主题注释 |
CN1991819A (zh) * | 2005-12-30 | 2007-07-04 | 北京法国电信研发中心有限公司 | 语言形态分析器 |
CN101013421A (zh) * | 2007-02-02 | 2007-08-08 | 清华大学 | 基于规则的汉语基本块自动分析方法 |
US20120010873A1 (en) * | 2010-07-06 | 2012-01-12 | Electronics And Telecommunications Research Institute | Sentence translation apparatus and method |
Non-Patent Citations (1)
Title |
---|
艾山·吾买尔,吐尔根·依步拉音: "统计与规则相结合的维吾尔语句子边界识别", 《计算机工程与应用》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111401004A (zh) * | 2020-03-28 | 2020-07-10 | 苏州机数芯微科技有限公司 | 一种基于机器学习的文章断句方法 |
CN111401004B (zh) * | 2020-03-28 | 2023-12-22 | 苏州机数芯微科技有限公司 | 一种基于机器学习的文章断句方法 |
CN112464644A (zh) * | 2020-12-04 | 2021-03-09 | 北京中科凡语科技有限公司 | 自动断句模型建立方法及自动断句方法 |
CN112464644B (zh) * | 2020-12-04 | 2024-03-29 | 北京中科凡语科技有限公司 | 自动断句模型建立方法及自动断句方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Boudin et al. | Keyphrase extraction for n-best reranking in multi-sentence compression | |
Mori et al. | A machine learning approach to recipe text processing | |
CN103020230A (zh) | 一种语义模糊匹配方法 | |
Li | Parsing the internal structure of words: a new paradigm for Chinese word segmentation | |
Duh et al. | POS tagging of dialectal Arabic: a minimally supervised approach | |
CN102214189B (zh) | 基于数据挖掘获取词用法知识的系统及方法 | |
CN103678288A (zh) | 一种专名自动翻译的方法 | |
Cing et al. | Improving accuracy of part-of-speech (POS) tagging using hidden markov model and morphological analysis for Myanmar Language | |
Rasooli et al. | Unsupervised morphology-based vocabulary expansion | |
CN102681985A (zh) | 一种面向形态丰富语言的翻译方法和系统 | |
Falkenjack et al. | Classifying easy-to-read texts without parsing | |
Salesky et al. | Exploiting morphological, grammatical, and semantic correlates for improved text difficulty assessment | |
Anwar et al. | A statistical based part of speech tagger for Urdu language | |
CN103902524A (zh) | 维吾尔语句子边界识别方法 | |
Khoufi et al. | Statistical-based system for morphological annotation of Arabic texts | |
Srinivasagan et al. | An automated system for tamil named entity recognition using hybrid approach | |
JP5454763B2 (ja) | 文の対中の単語対応付装置及びそのコンピュータプログラム | |
Boutsis et al. | A system for recognition of named entities in Greek | |
CN109960720B (zh) | 针对半结构化文本的信息抽取方法 | |
Seresangtakul et al. | Thai-Isarn dialect parallel corpus construction for machine translation | |
Altenbek et al. | Identification of basic phrases for kazakh language using maximum entropy model | |
ch Balabantaray et al. | Case study of named entity recognition in Odia using CRF++ tool | |
Asker et al. | Applying machine learning to Amharic text classification | |
Flanagan et al. | Automatic extraction and prediction of word order errors from language learning SNS | |
Hill et al. | Introduction (to special issue on Tibetan natural language processing) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20140702 |