CN109325225B

CN109325225B - 一种通用的基于关联的词性标注方法

Info

Publication number: CN109325225B
Application number: CN201810985852.9A
Authority: CN
Inventors: 邵玉斌; 郭海震; 龙华; 杜庆治
Original assignee: Kunming University of Science and Technology
Current assignee: Yunnan Yunchuang Data Technology Co.,Ltd.; Yunnan Yunchuang Digital Ecological Technology Co.,Ltd.
Priority date: 2018-08-28
Filing date: 2018-08-28
Publication date: 2022-04-12
Anticipated expiration: 2038-08-28
Also published as: CN109325225A

Abstract

本发明涉及一种通用的基于关联的词性标注方法，属于自然语言处理技术领域。本发明首先选择合适的文档作为语料库，并把语料库按句分行处理；然后对语料库进行标注，即为每个单词标注出词性；接着统计标注好的语料库，得到一个状态转移矩阵，为以后的预测阶段提供依据；然后对标注好的语料库提取每个字的特征，为了提高准确性，每个字的特征都包括其上下相邻两个字的属性；然后使用每个单词的特征文件训练一个模型；最后，通过状态转移矩阵和概率模型预测待标注词性的句子中的每个单词的词性。

Description

一种通用的基于关联的词性标注方法

技术领域

本发明涉及一种通用的基于关联的词性标注方法，属于自然语言处理技术领域。

背景技术

词性标注是自然语言处理的基础性课题，是很多其他自然语言处理任务的基础，同时在很大程度上影响着后续任务的最终性能。构建一个高性能、高效率的词性标注系统具有重要的学术意义和应用价值。

发明内容

本发明要解决的技术问题是提出一种通用的基于关联的词性标注方法，用以解决上述问题。

本发明的技术方案是：一种通用的基于关联的词性标注方法，首先选择合适的文档作为语料库，并把语料库按句分行处理；然后对语料库进行标注，即为每个单词标注出词性；接着统计标注好的语料库，得到一个状态转移矩阵，为以后的预测阶段提供依据；然后对标注好的语料库提取每个字的特征，为了提高准确性，每个字的特征都包括其上下相邻两个字的属性；然后使用每个单词的特征文件训练一个模型；最后，通过状态转移矩阵和概率模型预测待标注词性的句子中的每个单词的词性。

具体步骤为：

(1)找到适合作为训练集的语料，将语料按句子进行切分，使得每一行只有一个句子；

(2)处理步骤(1)切分的句子，手工标注每个单词，将每个单词标注为词性集合tags中的一个；

(3)处理步骤(2)获得的训练集，统计词性集合中每种词性的下一个词性出现的次数，记作转移矩阵tag_trans，tag_trans包括两部分：tag_trans1和tag_trans2；

(4)对步骤(3)的结果中的tag_trans1进行归一化处理，记作概率矩阵pro1_trans；

(5)对步骤(3)的结果中的tag_trans2进行归一化处理，记作转移概率矩阵pro2_trans；

(6)提取每个单词的特征feature，为后续步骤预测单词的词性提供依据，对步骤(3)的结果进行处理，在为每个单词生成特征features的过程中，为了提高准确性，充分利用上下文的关系，为每个单词提取特征的时候考虑其前后多个单词，组成一个窗口；

(7)使用步骤(6)提取的特征文件训练一个模型model；

(8)对步骤(7)的结果进行归一化处理，记为概率模型pro_model；

(9)将步骤(8)处理过后的模型用嵌套字典的数据结构存储，并以字节流的方式保存在本地；

(10)预测要分词的句子sentence中各个单词的词性，其中，每个单词的词性是词性集合tags中的一个，各个单词的预测词性是以其各个词性的得分score来确定，标注的时候要区分句首单词和非句首单词，句首单词使用case1来预测其词性，非句首单词用case2预测词性，最后选出一个得分最高的词性作为其预测词性输出。

所述步骤(1)将语料按句子进行切分具体为把语料库的文档，按句话、问号和叹号把句子切分，然后每句话单独放置一行以备后续使用。

所述步骤(2)中的tags是指：tags＝[n,pron,adj,num,v,adv,art,prep,conj,int]；其中，n是名词，表示人或事物的名称，pron是代词，代替名词、数词、形容词，adj表示形容词，用来修饰名词,表示人或事物的特征，num表示数目或顺序，v是动词，表示动作或状态，adv是副词，修饰动、形、副等词,表示动作特征，art是冠词，用在名词前,帮助说明名词所指的范围，prep是介词，用在名词或代词前,说明它与别的词的关系，conj是连词，表示人或事物的名称，int是叹词，代替名词、数词、形容词。

所述步骤(3)中的tag_trans1是指：tag_trans1表示每个句子中句首单词的词性，tag_trans1＝{n:freq₀,pron:freq₁,adj:freq₂,num:freq₃,v:freq₄,adv:freq₅,art:freq₆,prep:freq₇,conj:freq₈,int:freq₉}；

所述步骤(3)中的tag_trans2是指：tag_trans2＝{{n:{n:freq₀,pron:freq₁,adj:freq₂,num:freq₃,v:freq₄,adv:freq₅,art:freq₆,prep:freq₇,conj:freq₈,int:freq₉},pron:{n:freq₁₀,pron:freq₁₁,adj:freq₁₂,num:freq₁₃,v:freq₁₄,adv:freq₁₅,art:freq₁₆,prep:freq₁₇,conj:freq₁₈,int:freq₁₉},adj:{n:freq₂₀,pron:freq₂₁,adj:freq₂₂,num:freq₂₃,v:freq₂₄,adv:freq₂₅,art:freq₂₆,prep:freq₂₇,conj:freq₂₈,int:freq₂₉},num:{n:freq₃₀,pron:freq₃₁,adj:freq₃₂,num:freq₃₃,v:freq₃₄,adv:freq₃₅,art:freq₃₆,prep:freq₃₇,conj:freq₃₈,int:freq₃₉},v:{n:freq₄₀,pron:freq₄₁,adj:freq₄₂,num:freq₄₃,v:freq₄₄,adv:freq₄₅,art:freq₄₆,prep:freq₄₇,conj:freq₄₈,int:freq₄₉},adv:{n:freq₅₀,pron:freq₅₁,adj:freq₅₂,num:freq₅₃,v:freq₅₄,adv:freq₅₅,art:freq₅₆,prep:freq₅₇,conj:freq₅₈,int:freq₅₉},art:{n:freq₆₀,pron:freq₆₁,adj:freq₆₂,num:freq₆₃,v:freq₆₄,adv:freq₆₅,art:freq₆₆,prep:freq₆₇,conj:freq₆₈,int:freq₆₉},prep:{n:freq₇₀,pron:freq₇₁,adj:freq₇₂,num:freq₇₃,v:freq₇₄,adv:freq₇₅,art:freq₇₆,prep:freq₇₇,conj:freq₇₈,int:freq₇₉},conj:{n:freq₈₀,pron:freq₈₁,adj:freq₈₂,num:freq₈₃,v:freq₈₄,adv:freq₈₅,art:freq₈₆,prep:freq₈₇,conj:freq₈₈,int:freq₈₉},int:{n:freq₉₀,pron:freq₉₁,adj:freq₉₂,num:freq₉₃,v:freq₉₄,adv:freq₉₅,art:freq₉₆,prep:freq₉₇,conj:freq₉₈,int:freq₉₉}}。

所述步骤(4)中的归一化是指：每一个词性出现的次数除以十个词性出现的次数总和；

所述步骤(4)中的pro1_trans是指：pro1_trans是对tag_trans1的进一步处理，即每个词性出现的次数除以十种词性出现的次数之和。

所述步骤(5)中的归一化是指：记当前单词的词性为cur_tag，下一个出现单词的词性为sub_tag，每个当前单词下一个可能出现的词性有十种，归一化处理就是取每一个sub_tag出现的次数除以当前词性下可能出现的十种词性出现次数的总和；

所述步骤(5)中的pro2_trans是指：pro2_trans是指对tag_trans2的进一步处理，像步骤(8)所述，记当前单词的词性为cur_tag，下一个出现单词的词性为sub_tag，每个当前单词下一个可能出现的词性有十种，pro2_trans就是取每一个sub_tag出现的次数除以当前词性下可能出现的十种词性出现次数的总和。

所述步骤(6)中feature是指：在为每个单词提取特征的时候，为了提高正确率，充分利用上下文关系，考虑其前后多个单词，组成一个窗口，具体的，这里考虑其前后三个单词，记[w₀w₁w₂]三个单词组成的一个窗口，则w₁的特征feature_w₁＝[w₀,w₁,w₂,w₀w₁,w₁w₂,w₀w₂,w_{0_}tag,w₁_tag,w₂_tag]，因此每个单词都有九维特征。

所述步骤(7)中model是指：由步骤(2)可知，所有单词的词性只能是词性集合tags中的一个，所以模型文件中有十种词性，分别为：n,pron,adj,num,v,adv,art,prep,conj,int，又每个单词的特征是九维的，所有每个词性后有九维特征，训练过程如下：将步骤(3)标注好的每个单词按其词性把它的特征写入相应的位置，然后通过遍历语料库统计每个单词对应词性的每一维特征中各个特征的权重，也就是特征出现的次数。

所述步骤(8)中pro_model是指：该步骤处理的是步骤(8)中每种词性的每维特征中的每个特征，归一化处理就是取每个词性的每维特征中的每个特征出现的次数除以该维特征中所有特征出现次数的总和。

所述步骤(10)中score是指：一个单词被预测成某一词性的可能性，由两部分组成；第一部分是由转移概率矩阵得到的，第二部分是由各个单词的特征得到的；

所述步骤(10)中tags是指：和步骤(2)中tags一样，tags＝[n,pron,adj,num,v,adv,art,prep,conj,int]；

所述步骤(10)中case1是指：若标注的单词是句首的单词，则该单词的各个可能词性的得分是该单词被预测成各个词性在概率矩阵pro1_trans的得分和该单词特征在概率模型pro_model各个词性的得分之和，最后选出得分最高的词性作为预测结果；

所述步骤(10)中case2是指：若标注的单词是非句首的单词，则该单词的各个词性的得分是该单词被预测成各个词性在转移概率矩阵pro2_trans的得分和该单词特征在概率模型pro_model各个词性的得分之和，最后选出得分最高的词性作为预测结果。

本发明的有益效果是：高性能、高效率，适用于所有语言的词性标注。

附图说明

图1是本发明的步骤流程图。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

一种通用的基于关联的词性标注方法，首先选择合适的文档作为语料库，并把语料库按句分行处理；然后对语料库进行标注，即为每个单词标注出词性；接着统计标注好的语料库，得到一个状态转移矩阵，为以后的预测阶段提供依据；然后对标注好的语料库提取每个字的特征，为了提高准确性，每个字的特征都包括其上下相邻两个字的属性；然后使用每个单词的特征文件训练一个模型；最后，通过状态转移矩阵和概率模型预测待标注词性的句子中的每个单词的词性。

具体步骤为：

(7)使用步骤(6)提取的特征文件训练一个模型model；

(8)对步骤(7)的结果进行归一化处理，记为概率模型pro_model；

实施例1：如图1所示，以英文为例，把语料库的文档，按句话、问号和叹号把句子切分，然后每句话单独放置一行以备后续使用，具体的：

I love you

…………。

所述步骤(2)中的tags是指：tags＝[n,pron,adj,num,v,adv,art,prep,conj,int]；其中，n是名词，表示人或事物的名称，pron是代词，代替名词、数词、形容词，adj表示形容词，用来修饰名词,表示人或事物的特征，num表示数目或顺序，v是动词，表示动作或状态，adv是副词，修饰动、形、副等词,表示动作特征，art是冠词，用在名词前,帮助说明名词所指的范围，prep是介词，用在名词或代词前,说明它与别的词的关系，conj是连词，表示人或事物的名称，int是叹词，代替名词、数词、形容词等,具体的：

I/pron love/v you/pron

…………。

所述步骤(3)中的tag_trans1是指：tag_trans1表示每个句子中句首单词的词性，tag_trans1＝{n:freq₀,pron:freq₁,adj:freq₂,num:freq₃,v:freq₄,adv:freq₅,art:freq₆,prep:freq₇,conj:freq₈,int:freq₉}。

所述步骤(4)中的归一化是指：每一个词性出现的次数除以十个词性出现的次数总和。

所述步骤(5)中的归一化是指：记当前单词的词性为cur_tag，下一个出现单词的词性为sub_tag，每个当前单词下一个可能出现的词性有十种，归一化处理就是取每一个sub_tag出现的次数除以当前词性下可能出现的十种词性出现次数的总和。

所述步骤(5)中的pro2_trans是指：pro2_trans是指对tag_trans2的进一步处理，像步骤(7)所述，记当前单词的词性为cur_tag，下一个出现单词的词性为sub_tag，每个当前单词下一个可能出现的词性有十种，pro2_trans就是取每一个sub_tag出现的次数除以当前词性下可能出现的十种词性出现次数的总和。

所述步骤(8)中pro_model是指：与步骤(5)类似，该步骤处理的是步骤(8)中每种词性的每维特征中的每个特征，归一化处理就是取每个词性的每维特征中的每个特征出现的次数除以该维特征中所有特征出现次数的总和。

所述步骤(10)中score是指：一个单词被预测成某一词性的可能性，由两部分组成；第一部分是由转移概率矩阵得到的，第二部分是由各个单词的特征得到的。

所述步骤(10)中tags是指：和步骤(2)中tags一样，tags＝[n,pron,adj,num,v,adv,art,prep,conj,int]。

所述步骤(10)中case1是指：若标注的单词是句首的单词，则该单词的各个可能词性的得分是该单词被预测成各个词性在概率矩阵pro1_trans的得分和该单词特征在概率模型pro_model各个词性的得分之和，最后选出得分最高的词性作为预测结果。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种通用的基于关联的词性标注方法，其特征在于：

(4)对步骤(3)的结果中的tag_trans1进行归一化处理，记作概率矩阵pro1_tra ns；

(7)使用步骤(6)提取的特征文件训练一个模型model；

(8)对步骤(7)的结果进行归一化处理，记为概率模型pro_model；

(10)预测要分词的句子sentence中各个单词的词性，其中，每个单词的词性是词性集合tags中的一个，各个单词的预测词性是以其各个词性的得分score来确定，标注的时候要区分句首单词和非句首单词，句首单词使用case1来预测其词性，非句首单词用case2预测词性，最后选出一个得分最高的词性作为其预测词性输出；

所述步骤(6)中feature是指：在为每个单词提取特征的时候，为了提高正确率，充分利用上下文关系，考虑其前后多个单词，组成一个窗口，具体的，这里考虑其前后三个单词，记[w₀w₁w₂]三个单词组成的一个窗口，则w₁的特征feature_w₁＝[w₀,w₁,w₂,w₀w₁,w₁w₂,w₀w₂,w_{0_}tag,w₁_tag,w₂_tag]，因此每个单词都有九维特征；

所述步骤(7)中model是指：由步骤(2)可知，所有单词的词性只能是词性集合tags中的一个，所以模型文件中有十种词性，分别为：n,pron,adj,num,v,adv,art,prep,conj,int，又每个单词的特征是九维的，所有每个词性后有九维特征，训练过程如下：将步骤(3)标注好的每个单词按其词性把它的特征写入相应的位置，然后通过遍历语料库统计每个单词对应词性的每一维特征中各个特征的权重，也就是特征出现的次数；

所述步骤(8)中pro_model是指：该步骤处理的是步骤(8)中每种词性的每维特征中的每个特征，归一化处理就是取每个词性的每维特征中的每个特征出现的次数除以该维特征中所有特征出现次数的总和；

所述步骤(4)中的pro1_trans是指：pro1_trans是对tag_trans1的进一步处理，即每个词性出现的次数除以十种词性出现的次数之和；

所述步骤(5)中的归一化是指：记当前单词的词性为cur_tag，下一个出现单词的词性为sub_tag，每个当前单词下一个出现的词性有十种，归一化处理就是取每一个sub_tag出现的次数除以当前词性下出现的十种词性出现次数的总和；

所述步骤(5)中的pro2_trans是指：pro2_trans是指对tag_trans2的进一步处理，像步骤(8)所述，记当前单词的词性为cur_tag，下一个出现单词的词性为sub_tag，每个当前单词下一个出现的词性有十种，pro2_trans就是取每一个sub_tag出现的次数除以当前词性下出现的十种词性出现次数的总和。

2.根据权利要求1所述的通用的基于关联的词性标注方法，其特征在于：所述步骤(1)将语料按句子进行切分具体为把语料库的文档，按句话、问号和叹号把句子切分，然后每句话单独放置一行以备后续使用。

3.根据权利要求1所述的通用的基于关联的词性标注方法，其特征在于：所述步骤(2)中的tags是指：tags＝[n,pron,adj,num,v,adv,art,prep,conj,int]；其中，n是名词，表示人或事物的名称，pron是代词，代替名词、数词、形容词，adj表示形容词，用来修饰名词,表示人或事物的特征，num表示数目或顺序，v是动词，表示动作或状态，adv是副词，修饰动、形、副等词,表示动作特征，art是冠词，用在名词前,帮助说明名词所指的范围，prep是介词，用在名词或代词前,说明它与别的词的关系，conj是连词，表示人或事物的名称，int是叹词，代替名词、数词、形容词。

4.根据权利要求1所述的通用的基于关联的词性标注方法，其特征在于：

5.根据权利要求1所述的通用的基于关联的词性标注方法，其特征在于：

所述步骤(10)中score是指：一个单词被预测成某一词性的概率，由两部分组成；第一部分是由转移概率矩阵得到的，第二部分是由各个单词的特征得到的；

所述步骤(10)中case1是指：若标注的单词是句首的单词，则该单词的各个词性的得分是该单词被预测成各个词性在概率矩阵pro1_trans的得分和该单词特征在概率模型pro_model各个词性的得分之和，最后选出得分最高的词性作为预测结果；