CN109543151A - 一种提高老挝语词性标注准确率的方法 - Google Patents

一种提高老挝语词性标注准确率的方法 Download PDF

Info

Publication number
CN109543151A
CN109543151A CN201811287367.0A CN201811287367A CN109543151A CN 109543151 A CN109543151 A CN 109543151A CN 201811287367 A CN201811287367 A CN 201811287367A CN 109543151 A CN109543151 A CN 109543151A
Authority
CN
China
Prior art keywords
word
speech
speech tagging
sentence
count
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811287367.0A
Other languages
English (en)
Other versions
CN109543151B (zh
Inventor
周兰江
王兴金
张建安
周枫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201811287367.0A priority Critical patent/CN109543151B/zh
Publication of CN109543151A publication Critical patent/CN109543151A/zh
Application granted granted Critical
Publication of CN109543151B publication Critical patent/CN109543151B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种提高老挝语词性标注准确率的方法,属于自然语言处理和机器学习技术领域。本发明构建了基于BiLSTM的词预测模型,来利用未登录词前后已登录词的信息来对未登录词位置可能出现的词进行预测,并将其替换参与词性标注的过程,在一定程度上可以解决词性标注小语料库的不足性,能够解决HMM模型由于出现未登记词而导致词性标注失败的问题,从而提高词性标注的准确率。

Description

一种提高老挝语词性标注准确率的方法
技术领域
本发明涉及一种提高老挝语词性标注准确率的方法,具体涉及一种利用基于BiLSTM构建的词预测模型来提高隐马尔可夫模型对老挝语词性标注准确率的方法,属于自然语言处理和机器学习技术领域。
背景技术
所谓词性标注就是根据句子的语义信息给句中的每个词确定一个最为合适的词性标记。词性标注是很多NLP任务的预处理步骤,它是为后续更重要的工作做准备,标注的准确度起到了至关重要的作用。词性标注的困难点主要是由词性兼类所引起的,也就是一个词在不同的语义下有不同的词性出现。词性兼类的消歧方法我们通常采用概率的方法,比如:隐马尔科夫模型,HMM有效性依赖于兼类词性的概率分布模型。在使用HMM对一个句子进行词性标注时,发现未登录词出现,那么未登录词及后序词的标注将会失败。
发明内容
本发明提供了一种提高老挝语词性标注准确率的方法,以用于通过该方法实现老挝语词性标注。
本发明的技术方案是:一种提高老挝语词性标注准确率的方法,所述方法具体步骤如下:
Step1、使用老挝语词性标注语料库构建HMM词性标注模型,该HMM词性标注模型具有以下五个基本要素:
①老挝语词性的隐藏状态数N,若S是词性状态集合,则S={S1,S2,…,SN};其中,SN表示第N个词性;
②老挝词的观察状态数M,若V为观测词集合,则V={O1,O2,…,OM};其中,OM表示第M个词;
③词性的初始概率分布π,π表示词性在句首的概率集合;
④观测概率矩阵B={bi(O),1≤i≤N,O∈V},bi(O)=count(O,i)/count(i)表示词O的词性为i的概率,count(O,i)表示统计的观测词集合中词O的词性为i的个数,count(i)表示统计的观测词集合中词的词性为i出现的次数;
⑤词性的状态转移矩阵A={aij},1≤i,j≤N,aij表示词性j到词性i的转换概率,aij=count(j,i)/count(j);其中,count(j,i)表示观测词集合中词的词性为j的右连接词性为i出现的次数,count(j)表示统计的观测词集合中词的词性为j出现的次数;
Step2、当为一个句子(W1 W2 W3)进行词性标注时,分为两种情况:
第一种情况是句子中无未登录词:
当第一种情况时,Viterbi算法使用HMM词性标注模型中的五个要素计算出句子(W1 W2 W3)的最佳词性标注序列,至此,词性标注完成;
第二种情况是句子中存在未登录词:
当第二种情况时,由于存在未登录词(假设是W2),使用基于BiLSTM结构来创建词预测模型,词预测模型根据未登录词的前后已登录词,来预测这个未登录词(W2)的预测词(假设为Wp),而预测词(Wp)在老挝语词性标注语料中已登录,将其替换未登录词,则存在未登录词的句子W1 W2 W3替换为带预测词的句子W1 Wp W3,而带预测词的句子W1 Wp W3中的词都已经属于已登录词,将通过Viterbi算法使用HMM词性标注模型中的五个要素对带预测词的句子进行词性标注,计算出句子的最佳词性标注序列,至此,词性标注完成;其中创建词预测模型训练使用的语料库是老挝语词性标注语料库。
本发明的有益效果是:本发明构建了基于BiLSTM的词预测模型,来利用未登录词前后已登录词的信息来对未登录词位置可能出现的词进行预测,并将其替换参与词性标注的过程,在一定程度上可以解决词性标注小语料库的不足性,能够解决HMM模型由于出现未登记词而导致词性标注失败的问题,从而提高词性标注的准确率。
附图说明
图1是本发明的流程图。
具体实施方式
下面结合附图和实施例,对本发明作进一步说明,但本发明的内容并不限于所述范围。
实施例1:如图1所示,一种提高老挝语词性标注准确率的方法,所述方法步骤如下:
Step1、若词性标注语料库拥有两个句子:句子一:名词动词形容词;句子二:名词形容词动词。使用该语料库来构建HMM词性标注模型的五个要素:
(1)隐藏状态数N等于3,S={名词、动词、形容词};
(2)观察状态数M等于6,
(3)词性的初始概率分布π,π表示词性在句首的概率集合,π={名词:100%,动词:0,形容词:0};
(4)观测概率矩阵B={bi(O),1≤i≤3,O∈V},假设i为“名词”的索引,O为词则bi(O)=1/2;
(5)词性的状态转移矩阵A,A={aij,1≤i,j≤3},假设j为“名词”的索引,i为“动词”的,则aij=1/2。
计算得到的观测概率矩阵B如下表所示:
表1观测概率矩阵B
计算得到的状态转移矩阵A如下表2所示:
表2状态转移矩阵A
名词 动词 形容词
名词 0 0.5 0.5
动词 0 0 0.5
形容词 0 0.5 0
Step2、对某个句子进行词性标注时分为以下两种情况。
第一种情况:句子中的每个词都在词性标注语料库中出现(已登录词),例如:句子由于每个词在词性标注语料库中出现,因此HMM模型的五个要素有每个词的信息,此时Viterbi算法使用HMM模型的五个要素便可以计算出句子的最佳词性(假设为:名词、动词、形容词)。
第二种情况:句子中存在未登录词,例如:句子它有三个词,由于词未在词性标注语料库中出现,因此在HMM模型的五个要素中无词的信息,导致Viterbi算法无法使用HMM词性标注模型的五个要素对这个句子进行词性标注。本文使用词预测模型来解决这个问题。首先,词预测模型使用未登录词周围的已登录词来预测未登录即:词预测模型使用 来预测未登录词,假设得到预测词在训练HMM模型的词性标注语料库中有出现。然后,使用预测词替换未登录词句子转换为而该句子中的词都已登录。此时,Viterbi算法可以成功使用HMM词性标注模型的五个要素对转换后的句子进行词性标注。
词预测模型构建使用BiLSTM结构,训练使用的语料库是标注语料的分词部分的两个句子,句子一:句子二:待词预测模型参数训练完成后,就可以使用词预测模型。因为训练词预测模型使用的语料库是训练HMM模型词性标注语料库中的分词部分,预测的词也将属于词性标注语料库中的词,因此预测的词属于已登录词。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (1)

1.一种提高老挝语词性标注准确率的方法,其特征在于:所述方法具体步骤如下:
Step1、使用老挝语词性标注语料库构建HMM词性标注模型,该HMM词性标注模型具有以下五个基本要素:
①老挝语词性的隐藏状态数N,若S是词性状态集合,则S={S1,S2,...,SN};其中,SN表示第N个词性;
②老挝词的观察状态数M,若V为观测词集合,则V={O1,O2,...,OM};其中,OM表示第M个词;
③词性的初始概率分布π,π表示词性在句首的概率集合;
④观测概率矩阵B={bi(O),1≤i≤N,O∈V},bi(O)=count(O,i)/count(i)表示词O的词性为i的概率,count(O,i)表示统计的观测词集合中词O的词性为i的个数,count(i)表示统计的观测词集合中词的词性为i出现的次数;
⑤词性的状态转移矩阵A={aij},1≤i,j≤N,aij表示词性j到词性i的转换概率,aii=count(j,i)/count(j);其中,count(j,i)表示观测词集合中词的词性为j的右连接词性为i出现的次数,count(j)表示统计的观测词集合中词的词性为j出现的次数;
Step2、当为一个句子进行词性标注时,分为两种情况:
第一种情况是句子中无未登录词:
当第一种情况时,Viterbi算法使用HMM词性标注模型中的五个要素计算出句子的最佳词性标注序列,至此,词性标注完成;
第二种情况是句子中存在未登录词:
当第二种情况时,由于存在未登录词,使用基于BiLSTM结构来创建词预测模型,词预测模型根据未登录词的前后已登录词,来预测这个未登录词的预测词,而预测词在老挝语词性标注语料中已登录,将其替换未登录词,则存在未登录词的句子替换为带预测词的句子,而带预测词的句子中的词都已经属于已登录词,将通过Viterbi算法使用HMM词性标注模型中的五个要素对带预测词的句子进行词性标注,计算出句子的最佳词性标注序列,至此,词性标注完成;其中创建词预测模型训练使用的语料库是老挝语词性标注语料库。
CN201811287367.0A 2018-10-31 2018-10-31 一种提高老挝语词性标注准确率的方法 Expired - Fee Related CN109543151B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811287367.0A CN109543151B (zh) 2018-10-31 2018-10-31 一种提高老挝语词性标注准确率的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811287367.0A CN109543151B (zh) 2018-10-31 2018-10-31 一种提高老挝语词性标注准确率的方法

Publications (2)

Publication Number Publication Date
CN109543151A true CN109543151A (zh) 2019-03-29
CN109543151B CN109543151B (zh) 2021-05-25

Family

ID=65846226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811287367.0A Expired - Fee Related CN109543151B (zh) 2018-10-31 2018-10-31 一种提高老挝语词性标注准确率的方法

Country Status (1)

Country Link
CN (1) CN109543151B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7188064B2 (en) * 2001-04-13 2007-03-06 University Of Texas System Board Of Regents System and method for automatic semantic coding of free response data using Hidden Markov Model methodology
CN101539907A (zh) * 2008-03-19 2009-09-23 日电(中国)有限公司 词性标注模型训练装置、词性标注系统及其方法
CN103678272A (zh) * 2012-09-17 2014-03-26 北京信息科技大学 汉语依存树库中未登录词的处理方法
CN107329960A (zh) * 2017-06-29 2017-11-07 哈尔滨工业大学 一种上下文敏感的神经网络机器翻译中未登录词翻译装置和方法
CN107807910A (zh) * 2017-10-10 2018-03-16 昆明理工大学 一种基于hmm的词性标注方法
CN107908614A (zh) * 2017-10-12 2018-04-13 北京知道未来信息技术有限公司 一种基于Bi‑LSTM的命名实体识别方法
CN108073570A (zh) * 2018-01-04 2018-05-25 焦点科技股份有限公司 一种基于隐马尔可夫模型的词义消歧方法
CN108460013A (zh) * 2018-01-30 2018-08-28 大连理工大学 一种基于细粒度词表示模型的序列标注模型
CN108717574A (zh) * 2018-03-26 2018-10-30 浙江大学 一种基于连词标记和强化学习的自然语言推理方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7188064B2 (en) * 2001-04-13 2007-03-06 University Of Texas System Board Of Regents System and method for automatic semantic coding of free response data using Hidden Markov Model methodology
CN101539907A (zh) * 2008-03-19 2009-09-23 日电(中国)有限公司 词性标注模型训练装置、词性标注系统及其方法
CN103678272A (zh) * 2012-09-17 2014-03-26 北京信息科技大学 汉语依存树库中未登录词的处理方法
CN107329960A (zh) * 2017-06-29 2017-11-07 哈尔滨工业大学 一种上下文敏感的神经网络机器翻译中未登录词翻译装置和方法
CN107807910A (zh) * 2017-10-10 2018-03-16 昆明理工大学 一种基于hmm的词性标注方法
CN107908614A (zh) * 2017-10-12 2018-04-13 北京知道未来信息技术有限公司 一种基于Bi‑LSTM的命名实体识别方法
CN108073570A (zh) * 2018-01-04 2018-05-25 焦点科技股份有限公司 一种基于隐马尔可夫模型的词义消歧方法
CN108460013A (zh) * 2018-01-30 2018-08-28 大连理工大学 一种基于细粒度词表示模型的序列标注模型
CN108717574A (zh) * 2018-03-26 2018-10-30 浙江大学 一种基于连词标记和强化学习的自然语言推理方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
GERS FELIX A 等: "Learning to forget: Continual prediction with LSTM", 《9TH INTERNATIONAL CONFERENCE ON ARTIFICIAL NEURAL》 *
LI SIZHUO 等: "A Word Alignment Algorithm of Laos-Chinese Based on Language Feature", 《PROCEEDINGS OF THE 4TH INTERNATIONAL CONFERENCE ON VIRTUAL REALITY》 *
周寅: "融合深度学习特征与浅层机器学习特征的中文分词关键技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
张晶莹: "基于深度学习的汉语词义消歧方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
韩霞 等: "基于半监督隐马尔科夫模型的汉语词性标注研究", 《小型微型计算机系统》 *

Also Published As

Publication number Publication date
CN109543151B (zh) 2021-05-25

Similar Documents

Publication Publication Date Title
CN106202153B (zh) 一种es搜索引擎的拼写纠错方法及系统
CN105957518A (zh) 一种蒙古语大词汇量连续语音识别的方法
CN108460013A (zh) 一种基于细粒度词表示模型的序列标注模型
CN103823794B (zh) 一种关于英语阅读理解测试疑问式简答题的自动化命题方法
CN109062892A (zh) 一种基于Word2Vec的中文语句相似度计算方法
CN103154936A (zh) 用于自动化文本校正的方法和系统
CN101599071A (zh) 对话文本主题的自动提取方法
CN103678271B (zh) 一种文本校正方法及用户设备
CN108563632A (zh) 文字拼写错误的修正方法、系统、计算机设备及存储介质
CN111489746B (zh) 一种基于bert的电网调度语音识别语言模型构建方法
Paul et al. Hidden Markov model based part of speech tagging for Nepali language
Bilgin et al. Sentiment analysis with term weighting and word vectors
CN103678288A (zh) 一种专名自动翻译的方法
Do et al. Accent classes in South Kyengsang Korean: Lexical drift, novel words and loanwords
CN102929864B (zh) 一种音字转换方法及装置
CN106055633A (zh) 一种中文微博主客观句分类方法
Zaghouani et al. Guidelines and framework for a large scale Arabic diacritized corpus
Čibej et al. Normalisation, tokenisation and sentence segmentation of Slovene tweets
CN113360647A (zh) 一种基于聚类的5g移动业务投诉溯源分析方法
Koo et al. K-nct: Korean neural grammatical error correction gold-standard test set using novel error type classification criteria
CN106250367B (zh) 基于改进的Nivre算法构建越南语依存树库的方法
CN106126606B (zh) 一种短文本新词发现方法
Martínez-Hinarejos et al. Unsegmented dialogue act annotation and decoding with n-gram transducers
CN109543151A (zh) 一种提高老挝语词性标注准确率的方法
Rajan et al. A survey of Konkani NLP resources

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210525

Termination date: 20211031