CN109543151A - 一种提高老挝语词性标注准确率的方法 - Google Patents
一种提高老挝语词性标注准确率的方法 Download PDFInfo
- Publication number
- CN109543151A CN109543151A CN201811287367.0A CN201811287367A CN109543151A CN 109543151 A CN109543151 A CN 109543151A CN 201811287367 A CN201811287367 A CN 201811287367A CN 109543151 A CN109543151 A CN 109543151A
- Authority
- CN
- China
- Prior art keywords
- word
- speech
- speech tagging
- sentence
- count
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000007704 transition Effects 0.000 claims description 2
- 230000007812 deficiency Effects 0.000 abstract description 2
- 238000010801 machine learning Methods 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 abstract 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种提高老挝语词性标注准确率的方法,属于自然语言处理和机器学习技术领域。本发明构建了基于BiLSTM的词预测模型,来利用未登录词前后已登录词的信息来对未登录词位置可能出现的词进行预测,并将其替换参与词性标注的过程,在一定程度上可以解决词性标注小语料库的不足性,能够解决HMM模型由于出现未登记词而导致词性标注失败的问题,从而提高词性标注的准确率。
Description
技术领域
本发明涉及一种提高老挝语词性标注准确率的方法,具体涉及一种利用基于BiLSTM构建的词预测模型来提高隐马尔可夫模型对老挝语词性标注准确率的方法,属于自然语言处理和机器学习技术领域。
背景技术
所谓词性标注就是根据句子的语义信息给句中的每个词确定一个最为合适的词性标记。词性标注是很多NLP任务的预处理步骤,它是为后续更重要的工作做准备,标注的准确度起到了至关重要的作用。词性标注的困难点主要是由词性兼类所引起的,也就是一个词在不同的语义下有不同的词性出现。词性兼类的消歧方法我们通常采用概率的方法,比如:隐马尔科夫模型,HMM有效性依赖于兼类词性的概率分布模型。在使用HMM对一个句子进行词性标注时,发现未登录词出现,那么未登录词及后序词的标注将会失败。
发明内容
本发明提供了一种提高老挝语词性标注准确率的方法,以用于通过该方法实现老挝语词性标注。
本发明的技术方案是:一种提高老挝语词性标注准确率的方法,所述方法具体步骤如下:
Step1、使用老挝语词性标注语料库构建HMM词性标注模型,该HMM词性标注模型具有以下五个基本要素:
①老挝语词性的隐藏状态数N,若S是词性状态集合,则S={S1,S2,…,SN};其中,SN表示第N个词性;
②老挝词的观察状态数M,若V为观测词集合,则V={O1,O2,…,OM};其中,OM表示第M个词;
③词性的初始概率分布π,π表示词性在句首的概率集合;
④观测概率矩阵B={bi(O),1≤i≤N,O∈V},bi(O)=count(O,i)/count(i)表示词O的词性为i的概率,count(O,i)表示统计的观测词集合中词O的词性为i的个数,count(i)表示统计的观测词集合中词的词性为i出现的次数;
⑤词性的状态转移矩阵A={aij},1≤i,j≤N,aij表示词性j到词性i的转换概率,aij=count(j,i)/count(j);其中,count(j,i)表示观测词集合中词的词性为j的右连接词性为i出现的次数,count(j)表示统计的观测词集合中词的词性为j出现的次数;
Step2、当为一个句子(W1 W2 W3)进行词性标注时,分为两种情况:
第一种情况是句子中无未登录词:
当第一种情况时,Viterbi算法使用HMM词性标注模型中的五个要素计算出句子(W1 W2 W3)的最佳词性标注序列,至此,词性标注完成;
第二种情况是句子中存在未登录词:
当第二种情况时,由于存在未登录词(假设是W2),使用基于BiLSTM结构来创建词预测模型,词预测模型根据未登录词的前后已登录词,来预测这个未登录词(W2)的预测词(假设为Wp),而预测词(Wp)在老挝语词性标注语料中已登录,将其替换未登录词,则存在未登录词的句子W1 W2 W3替换为带预测词的句子W1 Wp W3,而带预测词的句子W1 Wp W3中的词都已经属于已登录词,将通过Viterbi算法使用HMM词性标注模型中的五个要素对带预测词的句子进行词性标注,计算出句子的最佳词性标注序列,至此,词性标注完成;其中创建词预测模型训练使用的语料库是老挝语词性标注语料库。
本发明的有益效果是:本发明构建了基于BiLSTM的词预测模型,来利用未登录词前后已登录词的信息来对未登录词位置可能出现的词进行预测,并将其替换参与词性标注的过程,在一定程度上可以解决词性标注小语料库的不足性,能够解决HMM模型由于出现未登记词而导致词性标注失败的问题,从而提高词性标注的准确率。
附图说明
图1是本发明的流程图。
具体实施方式
下面结合附图和实施例,对本发明作进一步说明,但本发明的内容并不限于所述范围。
实施例1:如图1所示,一种提高老挝语词性标注准确率的方法,所述方法步骤如下:
Step1、若词性标注语料库拥有两个句子:句子一:名词动词形容词;句子二:名词形容词动词。使用该语料库来构建HMM词性标注模型的五个要素:
(1)隐藏状态数N等于3,S={名词、动词、形容词};
(2)观察状态数M等于6,
(3)词性的初始概率分布π,π表示词性在句首的概率集合,π={名词:100%,动词:0,形容词:0};
(4)观测概率矩阵B={bi(O),1≤i≤3,O∈V},假设i为“名词”的索引,O为词则bi(O)=1/2;
(5)词性的状态转移矩阵A,A={aij,1≤i,j≤3},假设j为“名词”的索引,i为“动词”的,则aij=1/2。
计算得到的观测概率矩阵B如下表所示:
表1观测概率矩阵B
计算得到的状态转移矩阵A如下表2所示:
表2状态转移矩阵A
名词 | 动词 | 形容词 | |
名词 | 0 | 0.5 | 0.5 |
动词 | 0 | 0 | 0.5 |
形容词 | 0 | 0.5 | 0 |
Step2、对某个句子进行词性标注时分为以下两种情况。
第一种情况:句子中的每个词都在词性标注语料库中出现(已登录词),例如:句子由于每个词在词性标注语料库中出现,因此HMM模型的五个要素有每个词的信息,此时Viterbi算法使用HMM模型的五个要素便可以计算出句子的最佳词性(假设为:名词、动词、形容词)。
第二种情况:句子中存在未登录词,例如:句子它有三个词,由于词未在词性标注语料库中出现,因此在HMM模型的五个要素中无词的信息,导致Viterbi算法无法使用HMM词性标注模型的五个要素对这个句子进行词性标注。本文使用词预测模型来解决这个问题。首先,词预测模型使用未登录词周围的已登录词来预测未登录即:词预测模型使用 来预测未登录词,假设得到预测词而在训练HMM模型的词性标注语料库中有出现。然后,使用预测词替换未登录词句子转换为而该句子中的词都已登录。此时,Viterbi算法可以成功使用HMM词性标注模型的五个要素对转换后的句子进行词性标注。
词预测模型构建使用BiLSTM结构,训练使用的语料库是标注语料的分词部分的两个句子,句子一:句子二:待词预测模型参数训练完成后,就可以使用词预测模型。因为训练词预测模型使用的语料库是训练HMM模型词性标注语料库中的分词部分,预测的词也将属于词性标注语料库中的词,因此预测的词属于已登录词。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (1)
1.一种提高老挝语词性标注准确率的方法,其特征在于:所述方法具体步骤如下:
Step1、使用老挝语词性标注语料库构建HMM词性标注模型,该HMM词性标注模型具有以下五个基本要素:
①老挝语词性的隐藏状态数N,若S是词性状态集合,则S={S1,S2,...,SN};其中,SN表示第N个词性;
②老挝词的观察状态数M,若V为观测词集合,则V={O1,O2,...,OM};其中,OM表示第M个词;
③词性的初始概率分布π,π表示词性在句首的概率集合;
④观测概率矩阵B={bi(O),1≤i≤N,O∈V},bi(O)=count(O,i)/count(i)表示词O的词性为i的概率,count(O,i)表示统计的观测词集合中词O的词性为i的个数,count(i)表示统计的观测词集合中词的词性为i出现的次数;
⑤词性的状态转移矩阵A={aij},1≤i,j≤N,aij表示词性j到词性i的转换概率,aii=count(j,i)/count(j);其中,count(j,i)表示观测词集合中词的词性为j的右连接词性为i出现的次数,count(j)表示统计的观测词集合中词的词性为j出现的次数;
Step2、当为一个句子进行词性标注时,分为两种情况:
第一种情况是句子中无未登录词:
当第一种情况时,Viterbi算法使用HMM词性标注模型中的五个要素计算出句子的最佳词性标注序列,至此,词性标注完成;
第二种情况是句子中存在未登录词:
当第二种情况时,由于存在未登录词,使用基于BiLSTM结构来创建词预测模型,词预测模型根据未登录词的前后已登录词,来预测这个未登录词的预测词,而预测词在老挝语词性标注语料中已登录,将其替换未登录词,则存在未登录词的句子替换为带预测词的句子,而带预测词的句子中的词都已经属于已登录词,将通过Viterbi算法使用HMM词性标注模型中的五个要素对带预测词的句子进行词性标注,计算出句子的最佳词性标注序列,至此,词性标注完成;其中创建词预测模型训练使用的语料库是老挝语词性标注语料库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811287367.0A CN109543151B (zh) | 2018-10-31 | 2018-10-31 | 一种提高老挝语词性标注准确率的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811287367.0A CN109543151B (zh) | 2018-10-31 | 2018-10-31 | 一种提高老挝语词性标注准确率的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109543151A true CN109543151A (zh) | 2019-03-29 |
CN109543151B CN109543151B (zh) | 2021-05-25 |
Family
ID=65846226
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811287367.0A Expired - Fee Related CN109543151B (zh) | 2018-10-31 | 2018-10-31 | 一种提高老挝语词性标注准确率的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109543151B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7188064B2 (en) * | 2001-04-13 | 2007-03-06 | University Of Texas System Board Of Regents | System and method for automatic semantic coding of free response data using Hidden Markov Model methodology |
CN101539907A (zh) * | 2008-03-19 | 2009-09-23 | 日电(中国)有限公司 | 词性标注模型训练装置、词性标注系统及其方法 |
CN103678272A (zh) * | 2012-09-17 | 2014-03-26 | 北京信息科技大学 | 汉语依存树库中未登录词的处理方法 |
CN107329960A (zh) * | 2017-06-29 | 2017-11-07 | 哈尔滨工业大学 | 一种上下文敏感的神经网络机器翻译中未登录词翻译装置和方法 |
CN107807910A (zh) * | 2017-10-10 | 2018-03-16 | 昆明理工大学 | 一种基于hmm的词性标注方法 |
CN107908614A (zh) * | 2017-10-12 | 2018-04-13 | 北京知道未来信息技术有限公司 | 一种基于Bi‑LSTM的命名实体识别方法 |
CN108073570A (zh) * | 2018-01-04 | 2018-05-25 | 焦点科技股份有限公司 | 一种基于隐马尔可夫模型的词义消歧方法 |
CN108460013A (zh) * | 2018-01-30 | 2018-08-28 | 大连理工大学 | 一种基于细粒度词表示模型的序列标注模型 |
CN108717574A (zh) * | 2018-03-26 | 2018-10-30 | 浙江大学 | 一种基于连词标记和强化学习的自然语言推理方法 |
-
2018
- 2018-10-31 CN CN201811287367.0A patent/CN109543151B/zh not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7188064B2 (en) * | 2001-04-13 | 2007-03-06 | University Of Texas System Board Of Regents | System and method for automatic semantic coding of free response data using Hidden Markov Model methodology |
CN101539907A (zh) * | 2008-03-19 | 2009-09-23 | 日电(中国)有限公司 | 词性标注模型训练装置、词性标注系统及其方法 |
CN103678272A (zh) * | 2012-09-17 | 2014-03-26 | 北京信息科技大学 | 汉语依存树库中未登录词的处理方法 |
CN107329960A (zh) * | 2017-06-29 | 2017-11-07 | 哈尔滨工业大学 | 一种上下文敏感的神经网络机器翻译中未登录词翻译装置和方法 |
CN107807910A (zh) * | 2017-10-10 | 2018-03-16 | 昆明理工大学 | 一种基于hmm的词性标注方法 |
CN107908614A (zh) * | 2017-10-12 | 2018-04-13 | 北京知道未来信息技术有限公司 | 一种基于Bi‑LSTM的命名实体识别方法 |
CN108073570A (zh) * | 2018-01-04 | 2018-05-25 | 焦点科技股份有限公司 | 一种基于隐马尔可夫模型的词义消歧方法 |
CN108460013A (zh) * | 2018-01-30 | 2018-08-28 | 大连理工大学 | 一种基于细粒度词表示模型的序列标注模型 |
CN108717574A (zh) * | 2018-03-26 | 2018-10-30 | 浙江大学 | 一种基于连词标记和强化学习的自然语言推理方法 |
Non-Patent Citations (5)
Title |
---|
GERS FELIX A 等: "Learning to forget: Continual prediction with LSTM", 《9TH INTERNATIONAL CONFERENCE ON ARTIFICIAL NEURAL》 * |
LI SIZHUO 等: "A Word Alignment Algorithm of Laos-Chinese Based on Language Feature", 《PROCEEDINGS OF THE 4TH INTERNATIONAL CONFERENCE ON VIRTUAL REALITY》 * |
周寅: "融合深度学习特征与浅层机器学习特征的中文分词关键技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
张晶莹: "基于深度学习的汉语词义消歧方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
韩霞 等: "基于半监督隐马尔科夫模型的汉语词性标注研究", 《小型微型计算机系统》 * |
Also Published As
Publication number | Publication date |
---|---|
CN109543151B (zh) | 2021-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106202153B (zh) | 一种es搜索引擎的拼写纠错方法及系统 | |
CN105957518A (zh) | 一种蒙古语大词汇量连续语音识别的方法 | |
CN108460013A (zh) | 一种基于细粒度词表示模型的序列标注模型 | |
CN103823794B (zh) | 一种关于英语阅读理解测试疑问式简答题的自动化命题方法 | |
CN109062892A (zh) | 一种基于Word2Vec的中文语句相似度计算方法 | |
CN103154936A (zh) | 用于自动化文本校正的方法和系统 | |
CN101599071A (zh) | 对话文本主题的自动提取方法 | |
CN103678271B (zh) | 一种文本校正方法及用户设备 | |
CN108563632A (zh) | 文字拼写错误的修正方法、系统、计算机设备及存储介质 | |
CN111489746B (zh) | 一种基于bert的电网调度语音识别语言模型构建方法 | |
Paul et al. | Hidden Markov model based part of speech tagging for Nepali language | |
Bilgin et al. | Sentiment analysis with term weighting and word vectors | |
CN103678288A (zh) | 一种专名自动翻译的方法 | |
Do et al. | Accent classes in South Kyengsang Korean: Lexical drift, novel words and loanwords | |
CN102929864B (zh) | 一种音字转换方法及装置 | |
CN106055633A (zh) | 一种中文微博主客观句分类方法 | |
Zaghouani et al. | Guidelines and framework for a large scale Arabic diacritized corpus | |
Čibej et al. | Normalisation, tokenisation and sentence segmentation of Slovene tweets | |
CN113360647A (zh) | 一种基于聚类的5g移动业务投诉溯源分析方法 | |
Koo et al. | K-nct: Korean neural grammatical error correction gold-standard test set using novel error type classification criteria | |
CN106250367B (zh) | 基于改进的Nivre算法构建越南语依存树库的方法 | |
CN106126606B (zh) | 一种短文本新词发现方法 | |
Martínez-Hinarejos et al. | Unsegmented dialogue act annotation and decoding with n-gram transducers | |
CN109543151A (zh) | 一种提高老挝语词性标注准确率的方法 | |
Rajan et al. | A survey of Konkani NLP resources |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210525 Termination date: 20211031 |