CN109325225A - 一种通用的基于关联的词性标注方法 - Google Patents
一种通用的基于关联的词性标注方法 Download PDFInfo
- Publication number
- CN109325225A CN109325225A CN201810985852.9A CN201810985852A CN109325225A CN 109325225 A CN109325225 A CN 109325225A CN 201810985852 A CN201810985852 A CN 201810985852A CN 109325225 A CN109325225 A CN 109325225A
- Authority
- CN
- China
- Prior art keywords
- freq
- speech
- word
- tag
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 239000011159 matrix material Substances 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 15
- 230000007704 transition Effects 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000012986 modification Methods 0.000 claims description 6
- 230000004048 modification Effects 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种通用的基于关联的词性标注方法,属于自然语言处理技术领域。本发明首先选择合适的文档作为语料库,并把语料库按句分行处理;然后对语料库进行标注,即为每个单词标注出词性;接着统计标注好的语料库,得到一个状态转移矩阵,为以后的预测阶段提供依据;然后对标注好的语料库提取每个字的特征,为了提高准确性,每个字的特征都包括其上下相邻两个字的属性;然后使用每个单词的特征文件训练一个模型;最后,通过状态转移矩阵和概率模型预测待标注词性的句子中的每个单词的词性。
Description
技术领域
本发明涉及一种通用的基于关联的词性标注方法,属于自然语言处理技术领域。
背景技术
词性标注是自然语言处理的基础性课题,是很多其他自然语言处理任务的基础,同时在很大程度上影响着后续任务的最终性能。构建一个高性能、高效率的词性标注系统具有重要的学术意义和应用价值。
发明内容
本发明要解决的技术问题是提出一种通用的基于关联的词性标注方法,用以解决上述问题。
本发明的技术方案是:一种通用的基于关联的词性标注方法,首先选择合适的文档作为语料库,并把语料库按句分行处理;然后对语料库进行标注,即为每个单词标注出词性;接着统计标注好的语料库,得到一个状态转移矩阵,为以后的预测阶段提供依据;然后对标注好的语料库提取每个字的特征,为了提高准确性,每个字的特征都包括其上下相邻两个字的属性;然后使用每个单词的特征文件训练一个模型;最后,通过状态转移矩阵和概率模型预测待标注词性的句子中的每个单词的词性。
具体步骤为:
(1)找到适合作为训练集的语料,将语料按句子进行切分,使得每一行只有一个句子;
(2)处理步骤(1)切分的句子,手工标注每个单词,将每个单词标注为词性集合tags中的一个;
(3)处理步骤(2)获得的训练集,统计词性集合中每种词性的下一个词性出现的次数,记作转移矩阵tag_trans,tag_trans包括两部分:tag_trans1和tag_trans2;
(4)对步骤(3)的结果中的tag_trans1进行归一化处理,记作概率矩阵pro1_trans;
(5)对步骤(3)的结果中的tag_trans2进行归一化处理,记作转移概率矩阵pro2_trans;
(6)提取每个单词的特征feature,为后续步骤预测单词的词性提供依据,对步骤(3)的结果进行处理,在为每个单词生成特征features的过程中,为了提高准确性,充分利用上下文的关系,为每个单词提取特征的时候考虑其前后多个单词,组成一个窗口;
(7)使用步骤(6)提取的特征文件训练一个模型model;
(8)对步骤(7)的结果进行归一化处理,记为概率模型pro_model;
(9)将步骤(8)处理过后的模型用嵌套字典的数据结构存储,并以字节流的方式保存在本地;
(10)预测要分词的句子sentence中各个单词的词性,其中,每个单词的词性是词性集合tags中的一个,各个单词的预测词性是以其各个词性的得分score来确定,标注的时候要区分句首单词和非句首单词,句首单词使用case1来预测其词性,非句首单词用case2预测词性,最后选出一个得分最高的词性作为其预测词性输出。
所述步骤(1)将语料按句子进行切分具体为把语料库的文档,按句话、问号和叹号把句子切分,然后每句话单独放置一行以备后续使用。
所述步骤(2)中的tags是指:tags=[n,pron,adj,num,v,adv,art,prep,conj,int];其中,n是名词,表示人或事物的名称,pron是代词,代替名词、数词、形容词,adj表示形容词,用来修饰名词,表示人或事物的特征,num表示数目或顺序,v是动词,表示动作或状态,adv是副词,修饰动、形、副等词,表示动作特征,art是冠词,用在名词前,帮助说明名词所指的范围,prep是介词,用在名词或代词前,说明它与别的词的关系,conj是连词,表示人或事物的名称,int是叹词,代替名词、数词、形容词。
所述步骤(3)中的tag_trans1是指:tag_trans1表示每个句子中句首单词的词性,tag_trans1={n:freq0,pron:freq1,adj:freq2,num:freq3,v:freq4,adv:freq5,art:freq6,prep:freq7,conj:freq8,int:freq9};
所述步骤(3)中的tag_trans2是指:tag_trans2={{n:{n:freq0,pron:freq1,adj:freq2,num:freq3,v:freq4,adv:freq5,art:freq6,prep:freq7,conj:freq8,int:freq9},pron:{n:freq10,pron:freq11,adj:freq12,num:freq13,v:freq14,adv:freq15,art:freq16,prep:freq17,conj:freq18,int:freq19},adj:{n:freq20,pron:freq21,adj:freq22,num:freq23,v:freq24,adv:freq25,art:freq26,prep:freq27,conj:freq28,int:freq29},num:{n:freq30,pron:freq31,adj:freq32,num:freq33,v:freq34,adv:freq35,art:freq36,prep:freq37,conj:freq38,int:freq39},v:{n:freq40,pron:freq41,adj:freq42,num:freq43,v:freq44,adv:freq45,art:freq46,prep:freq47,conj:freq48,int:freq49},adv:{n:freq50,pron:freq51,adj:freq52,num:freq53,v:freq54,adv:freq55,art:freq56,prep:freq57,conj:freq58,int:freq59},art:{n:freq60,pron:freq61,adj:freq62,num:freq63,v:freq64,adv:freq65,art:freq66,prep:freq67,conj:freq68,int:freq69},prep:{n:freq70,pron:freq71,adj:freq72,num:freq73,v:freq74,adv:freq75,art:freq76,prep:freq77,conj:freq78,int:freq79},conj:{n:freq80,pron:freq81,adj:freq82,num:freq83,v:freq84,adv:freq85,art:freq86,prep:freq87,conj:freq88,int:freq89},int:{n:freq90,pron:freq91,adj:freq92,num:freq93,v:freq94,adv:freq95,art:freq96,prep:freq97,conj:freq98,int:freq99}}。
所述步骤(4)中的归一化是指:每一个词性出现的次数除以十个词性出现的次数总和;
所述步骤(4)中的pro1_trans是指:pro1_trans是对tag_trans1的进一步处理,即每个词性出现的次数除以十种词性出现的次数之和。
所述步骤(5)中的归一化是指:记当前单词的词性为cur_tag,下一个出现单词的词性为sub_tag,每个当前单词下一个可能出现的词性有十种,归一化处理就是取每一个sub_tag出现的次数除以当前词性下可能出现的十种词性出现次数的总和;
所述步骤(5)中的pro2_trans是指:pro2_trans是指对tag_trans2的进一步处理,像步骤(8)所述,记当前单词的词性为cur_tag,下一个出现单词的词性为sub_tag,每个当前单词下一个可能出现的词性有十种,pro2_trans就是取每一个sub_tag出现的次数除以当前词性下可能出现的十种词性出现次数的总和。
所述步骤(6)中feature是指:在为每个单词提取特征的时候,为了提高正确率,充分利用上下文关系,考虑其前后多个单词,组成一个窗口,具体的,这里考虑其前后三个单词,记[w0w1w2]三个单词组成的一个窗口,则w1的特征feature_w1=[w0,w1,w2,w0w1,w1w2,w0w2,w0_tag,w1_tag,w2_tag],因此每个单词都有九维特征。
所述步骤(7)中model是指:由步骤(2)可知,所有单词的词性只能是词性集合tags中的一个,所以模型文件中有十种词性,分别为:n,pron,adj,num,v,adv,art,prep,conj,int,又每个单词的特征是九维的,所有每个词性后有九维特征,训练过程如下:将步骤(3)标注好的每个单词按其词性把它的特征写入相应的位置,然后通过遍历语料库统计每个单词对应词性的每一维特征中各个特征的权重,也就是特征出现的次数。
所述步骤(8)中pro_model是指:该步骤处理的是步骤(8)中每种词性的每维特征中的每个特征,归一化处理就是取每个词性的每维特征中的每个特征出现的次数除以该维特征中所有特征出现次数的总和。
所述步骤(10)中score是指:一个单词被预测成某一词性的可能性,由两部分组成;第一部分是由转移概率矩阵得到的,第二部分是由各个单词的特征得到的;
所述步骤(10)中tags是指:和步骤(2)中tags一样,tags=[n,pron,adj,num,v,adv,art,prep,conj,int];
所述步骤(10)中case1是指:若标注的单词是句首的单词,则该单词的各个可能词性的得分是该单词被预测成各个词性在概率矩阵pro1_trans的得分和该单词特征在概率模型pro_model各个词性的得分之和,最后选出得分最高的词性作为预测结果;
所述步骤(10)中case2是指:若标注的单词是非句首的单词,则该单词的各个词性的得分是该单词被预测成各个词性在转移概率矩阵pro2_trans的得分和该单词特征在概率模型pro_model各个词性的得分之和,最后选出得分最高的词性作为预测结果。
本发明的有益效果是:高性能、高效率,适用于所有语言的词性标注。
附图说明
图1是本发明的步骤流程图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
一种通用的基于关联的词性标注方法,首先选择合适的文档作为语料库,并把语料库按句分行处理;然后对语料库进行标注,即为每个单词标注出词性;接着统计标注好的语料库,得到一个状态转移矩阵,为以后的预测阶段提供依据;然后对标注好的语料库提取每个字的特征,为了提高准确性,每个字的特征都包括其上下相邻两个字的属性;然后使用每个单词的特征文件训练一个模型;最后,通过状态转移矩阵和概率模型预测待标注词性的句子中的每个单词的词性。
具体步骤为:
(1)找到适合作为训练集的语料,将语料按句子进行切分,使得每一行只有一个句子;
(2)处理步骤(1)切分的句子,手工标注每个单词,将每个单词标注为词性集合tags中的一个;
(3)处理步骤(2)获得的训练集,统计词性集合中每种词性的下一个词性出现的次数,记作转移矩阵tag_trans,tag_trans包括两部分:tag_trans1和tag_trans2;
(4)对步骤(3)的结果中的tag_trans1进行归一化处理,记作概率矩阵pro1_trans;
(5)对步骤(3)的结果中的tag_trans2进行归一化处理,记作转移概率矩阵pro2_trans;
(6)提取每个单词的特征feature,为后续步骤预测单词的词性提供依据,对步骤(3)的结果进行处理,在为每个单词生成特征features的过程中,为了提高准确性,充分利用上下文的关系,为每个单词提取特征的时候考虑其前后多个单词,组成一个窗口;
(7)使用步骤(6)提取的特征文件训练一个模型model;
(8)对步骤(7)的结果进行归一化处理,记为概率模型pro_model;
(9)将步骤(8)处理过后的模型用嵌套字典的数据结构存储,并以字节流的方式保存在本地;
(10)预测要分词的句子sentence中各个单词的词性,其中,每个单词的词性是词性集合tags中的一个,各个单词的预测词性是以其各个词性的得分score来确定,标注的时候要区分句首单词和非句首单词,句首单词使用case1来预测其词性,非句首单词用case2预测词性,最后选出一个得分最高的词性作为其预测词性输出。
实施例1:如图1所示,以英文为例,把语料库的文档,按句话、问号和叹号把句子切分,然后每句话单独放置一行以备后续使用,具体的:
I love you
…………。
所述步骤(2)中的tags是指:tags=[n,pron,adj,num,v,adv,art,prep,conj,int];其中,n是名词,表示人或事物的名称,pron是代词,代替名词、数词、形容词,adj表示形容词,用来修饰名词,表示人或事物的特征,num表示数目或顺序,v是动词,表示动作或状态,adv是副词,修饰动、形、副等词,表示动作特征,art是冠词,用在名词前,帮助说明名词所指的范围,prep是介词,用在名词或代词前,说明它与别的词的关系,conj是连词,表示人或事物的名称,int是叹词,代替名词、数词、形容词等,具体的:
I/pron love/v you/pron
…………。
所述步骤(3)中的tag_trans1是指:tag_trans1表示每个句子中句首单词的词性,tag_trans1={n:freq0,pron:freq1,adj:freq2,num:freq3,v:freq4,adv:freq5,art:freq6,prep:freq7,conj:freq8,int:freq9}。
所述步骤(3)中的tag_trans2是指:tag_trans2={{n:{n:freq0,pron:freq1,adj:freq2,num:freq3,v:freq4,adv:freq5,art:freq6,prep:freq7,conj:freq8,int:freq9},pron:{n:freq10,pron:freq11,adj:freq12,num:freq13,v:freq14,adv:freq15,art:freq16,prep:freq17,conj:freq18,int:freq19},adj:{n:freq20,pron:freq21,adj:freq22,num:freq23,v:freq24,adv:freq25,art:freq26,prep:freq27,conj:freq28,int:freq29},num:{n:freq30,pron:freq31,adj:freq32,num:freq33,v:freq34,adv:freq35,art:freq36,prep:freq37,conj:freq38,int:freq39},v:{n:freq40,pron:freq41,adj:freq42,num:freq43,v:freq44,adv:freq45,art:freq46,prep:freq47,conj:freq48,int:freq49},adv:{n:freq50,pron:freq51,adj:freq52,num:freq53,v:freq54,adv:freq55,art:freq56,prep:freq57,conj:freq58,int:freq59},art:{n:freq60,pron:freq61,adj:freq62,num:freq63,v:freq64,adv:freq65,art:freq66,prep:freq67,conj:freq68,int:freq69},prep:{n:freq70,pron:freq71,adj:freq72,num:freq73,v:freq74,adv:freq75,art:freq76,prep:freq77,conj:freq78,int:freq79},conj:{n:freq80,pron:freq81,adj:freq82,num:freq83,v:freq84,adv:freq85,art:freq86,prep:freq87,conj:freq88,int:freq89},int:{n:freq90,pron:freq91,adj:freq92,num:freq93,v:freq94,adv:freq95,art:freq96,prep:freq97,conj:freq98,int:freq99}}。
所述步骤(4)中的归一化是指:每一个词性出现的次数除以十个词性出现的次数总和。
所述步骤(4)中的pro1_trans是指:pro1_trans是对tag_trans1的进一步处理,即每个词性出现的次数除以十种词性出现的次数之和。
所述步骤(5)中的归一化是指:记当前单词的词性为cur_tag,下一个出现单词的词性为sub_tag,每个当前单词下一个可能出现的词性有十种,归一化处理就是取每一个sub_tag出现的次数除以当前词性下可能出现的十种词性出现次数的总和。
所述步骤(5)中的pro2_trans是指:pro2_trans是指对tag_trans2的进一步处理,像步骤(7)所述,记当前单词的词性为cur_tag,下一个出现单词的词性为sub_tag,每个当前单词下一个可能出现的词性有十种,pro2_trans就是取每一个sub_tag出现的次数除以当前词性下可能出现的十种词性出现次数的总和。
所述步骤(6)中feature是指:在为每个单词提取特征的时候,为了提高正确率,充分利用上下文关系,考虑其前后多个单词,组成一个窗口,具体的,这里考虑其前后三个单词,记[w0w1w2]三个单词组成的一个窗口,则w1的特征feature_w1=[w0,w1,w2,w0w1,w1w2,w0w2,w0_tag,w1_tag,w2_tag],因此每个单词都有九维特征。
所述步骤(7)中model是指:由步骤(2)可知,所有单词的词性只能是词性集合tags中的一个,所以模型文件中有十种词性,分别为:n,pron,adj,num,v,adv,art,prep,conj,int,又每个单词的特征是九维的,所有每个词性后有九维特征,训练过程如下:将步骤(3)标注好的每个单词按其词性把它的特征写入相应的位置,然后通过遍历语料库统计每个单词对应词性的每一维特征中各个特征的权重,也就是特征出现的次数。
所述步骤(8)中pro_model是指:与步骤(5)类似,该步骤处理的是步骤(8)中每种词性的每维特征中的每个特征,归一化处理就是取每个词性的每维特征中的每个特征出现的次数除以该维特征中所有特征出现次数的总和。
所述步骤(10)中score是指:一个单词被预测成某一词性的可能性,由两部分组成;第一部分是由转移概率矩阵得到的,第二部分是由各个单词的特征得到的。
所述步骤(10)中tags是指:和步骤(2)中tags一样,tags=[n,pron,adj,num,v,adv,art,prep,conj,int]。
所述步骤(10)中case1是指:若标注的单词是句首的单词,则该单词的各个可能词性的得分是该单词被预测成各个词性在概率矩阵pro1_trans的得分和该单词特征在概率模型pro_model各个词性的得分之和,最后选出得分最高的词性作为预测结果。
所述步骤(10)中case2是指:若标注的单词是非句首的单词,则该单词的各个词性的得分是该单词被预测成各个词性在转移概率矩阵pro2_trans的得分和该单词特征在概率模型pro_model各个词性的得分之和,最后选出得分最高的词性作为预测结果。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (10)
1.一种通用的基于关联的词性标注方法,其特征在于:
(1)找到适合作为训练集的语料,将语料按句子进行切分,使得每一行只有一个句子;
(2)处理步骤(1)切分的句子,手工标注每个单词,将每个单词标注为词性集合tags中的一个;
(3)处理步骤(2)获得的训练集,统计词性集合中每种词性的下一个词性出现的次数,记作转移矩阵tag_trans,tag_trans包括两部分:tag_trans1和tag_trans2;
(4)对步骤(3)的结果中的tag_trans1进行归一化处理,记作概率矩阵pro1_trans;
(5)对步骤(3)的结果中的tag_trans2进行归一化处理,记作转移概率矩阵pro2_trans;
(6)提取每个单词的特征feature,为后续步骤预测单词的词性提供依据,对步骤(3)的结果进行处理,在为每个单词生成特征features的过程中,为了提高准确性,充分利用上下文的关系,为每个单词提取特征的时候考虑其前后多个单词,组成一个窗口;
(7)使用步骤(6)提取的特征文件训练一个模型model;
(8)对步骤(7)的结果进行归一化处理,记为概率模型pro_model;
(9)将步骤(8)处理过后的模型用嵌套字典的数据结构存储,并以字节流的方式保存在本地;
(10)预测要分词的句子sentence中各个单词的词性,其中,每个单词的词性是词性集合tags中的一个,各个单词的预测词性是以其各个词性的得分score来确定,标注的时候要区分句首单词和非句首单词,句首单词使用case1来预测其词性,非句首单词用case2预测词性,最后选出一个得分最高的词性作为其预测词性输出。
2.根据权利要求1所述的通用的基于关联的词性标注方法,其特征在于:所述步骤(1)将语料按句子进行切分具体为把语料库的文档,按句话、问号和叹号把句子切分,然后每句话单独放置一行以备后续使用。
3.根据权利要求1所述的通用的基于关联的词性标注方法,其特征在于:所述步骤(2)中的tags是指:tags=[n,pron,adj,num,v,adv,art,prep,conj,int];其中,n是名词,表示人或事物的名称,pron是代词,代替名词、数词、形容词,adj表示形容词,用来修饰名词,表示人或事物的特征,num表示数目或顺序,v是动词,表示动作或状态,adv是副词,修饰动、形、副等词,表示动作特征,art是冠词,用在名词前,帮助说明名词所指的范围,prep是介词,用在名词或代词前,说明它与别的词的关系,conj是连词,表示人或事物的名称,int是叹词,代替名词、数词、形容词。
4.根据权利要求1所述的通用的基于关联的词性标注方法,其特征在于:
所述步骤(3)中的tag_trans1是指:tag_trans1表示每个句子中句首单词的词性,tag_trans1={n:freq0,pron:freq1,adj:freq2,num:freq3,v:freq4,adv:freq5,art:freq6,prep:freq7,conj:freq8,int:freq9};
所述步骤(3)中的tag_trans2是指:tag_trans2={{n:{n:freq0,pron:freq1,adj:freq2,num:freq3,v:freq4,adv:freq5,art:freq6,prep:freq7,conj:freq8,int:freq9},pron:{n:freq10,pron:freq11,adj:freq12,num:freq13,v:freq14,adv:freq15,art:freq16,prep:freq17,conj:freq18,int:freq19},adj:{n:freq20,pron:freq21,adj:freq22,num:freq23,v:freq24,adv:freq25,art:freq26,prep:freq27,conj:freq28,int:freq29},num:{n:freq30,pron:freq31,adj:freq32,num:freq33,v:freq34,adv:freq35,art:freq36,prep:freq37,conj:freq38,int:freq39},v:{n:freq40,pron:freq41,adj:freq42,num:freq43,v:freq44,adv:freq45,art:freq46,prep:freq47,conj:freq48,int:freq49},adv:{n:freq50,pron:freq51,adj:freq52,num:freq53,v:freq54,adv:freq55,art:freq56,prep:freq57,conj:freq58,int:freq59},art:{n:freq60,pron:freq61,adj:freq62,num:freq63,v:freq64,adv:freq65,art:freq66,prep:freq67,conj:freq68,int:freq69},prep:{n:freq70,pron:freq71,adj:freq72,num:freq73,v:freq74,adv:freq75,art:freq76,prep:freq77,conj:freq78,int:freq79},conj:{n:freq80,pron:freq81,adj:freq82,num:freq83,v:freq84,adv:freq85,art:freq86,prep:freq87,conj:freq88,int:freq89},int:{n:freq90,pron:freq91,adj:freq92,num:freq93,v:freq94,adv:freq95,art:freq96,prep:freq97,conj:freq98,int:freq99}}。
5.根据权利要求1所述的通用的基于关联的词性标注方法,其特征在于:
所述步骤(4)中的归一化是指:每一个词性出现的次数除以十个词性出现的次数总和;
所述步骤(4)中的pro1_trans是指:pro1_trans是对tag_trans1的进一步处理,即每个词性出现的次数除以十种词性出现的次数之和。
6.根据权利要求1所述的通用的基于关联的词性标注方法,其特征在于:
所述步骤(5)中的归一化是指:记当前单词的词性为cur_tag,下一个出现单词的词性为sub_tag,每个当前单词下一个可能出现的词性有十种,归一化处理就是取每一个sub_tag出现的次数除以当前词性下可能出现的十种词性出现次数的总和;
所述步骤(5)中的pro2_trans是指:pro2_trans是指对tag_trans2的进一步处理,像步骤(8)所述,记当前单词的词性为cur_tag,下一个出现单词的词性为sub_tag,每个当前单词下一个可能出现的词性有十种,pro2_trans就是取每一个sub_tag出现的次数除以当前词性下可能出现的十种词性出现次数的总和。
7.根据权利要求1所述的通用的基于关联的词性标注方法,其特征在于:所述步骤(6)中feature是指:在为每个单词提取特征的时候,为了提高正确率,充分利用上下文关系,考虑其前后多个单词,组成一个窗口,具体的,这里考虑其前后三个单词,记[w0w1w2]三个单词组成的一个窗口,则w1的特征feature_w1=[w0,w1,w2,w0w1,w1w2,w0w2,w0_tag,w1_tag,w2_tag],因此每个单词都有九维特征。
8.根据权利要求1所述的通用的基于关联的词性标注方法,其特征在于:所述步骤(7)中model是指:由步骤(2)可知,所有单词的词性只能是词性集合tags中的一个,所以模型文件中有十种词性,分别为:n,pron,adj,num,v,adv,art,prep,conj,int,又每个单词的特征是九维的,所有每个词性后有九维特征,训练过程如下:将步骤(3)标注好的每个单词按其词性把它的特征写入相应的位置,然后通过遍历语料库统计每个单词对应词性的每一维特征中各个特征的权重,也就是特征出现的次数。
9.根据权利要求1所述的通用的基于关联的词性标注方法,其特征在于:所述步骤(8)中pro_model是指:该步骤处理的是步骤(8)中每种词性的每维特征中的每个特征,归一化处理就是取每个词性的每维特征中的每个特征出现的次数除以该维特征中所有特征出现次数的总和。
10.根据权利要求1所述的通用的基于关联的词性标注方法,其特征在于:
所述步骤(10)中score是指:一个单词被预测成某一词性的可能性,由两部分组成;第一部分是由转移概率矩阵得到的,第二部分是由各个单词的特征得到的;
所述步骤(10)中tags是指:和步骤(2)中tags一样,tags=[n,pron,adj,num,v,adv,art,prep,conj,int];
所述步骤(10)中case1是指:若标注的单词是句首的单词,则该单词的各个可能词性的得分是该单词被预测成各个词性在概率矩阵pro1_trans的得分和该单词特征在概率模型pro_model各个词性的得分之和,最后选出得分最高的词性作为预测结果;
所述步骤(10)中case2是指:若标注的单词是非句首的单词,则该单词的各个词性的得分是该单词被预测成各个词性在转移概率矩阵pro2_trans的得分和该单词特征在概率模型pro_model各个词性的得分之和,最后选出得分最高的词性作为预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810985852.9A CN109325225B (zh) | 2018-08-28 | 2018-08-28 | 一种通用的基于关联的词性标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810985852.9A CN109325225B (zh) | 2018-08-28 | 2018-08-28 | 一种通用的基于关联的词性标注方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109325225A true CN109325225A (zh) | 2019-02-12 |
CN109325225B CN109325225B (zh) | 2022-04-12 |
Family
ID=65263495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810985852.9A Active CN109325225B (zh) | 2018-08-28 | 2018-08-28 | 一种通用的基于关联的词性标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109325225B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113408286A (zh) * | 2021-05-28 | 2021-09-17 | 浙江工业大学 | 一种面向机械化工领域的中文实体识别方法和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140324435A1 (en) * | 2010-08-27 | 2014-10-30 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
CN106980609A (zh) * | 2017-03-21 | 2017-07-25 | 大连理工大学 | 一种基于词向量表示的条件随机场的命名实体识别方法 |
CN107608970A (zh) * | 2017-09-29 | 2018-01-19 | 百度在线网络技术(北京)有限公司 | 词性标注模型生成方法和装置 |
CN107807910A (zh) * | 2017-10-10 | 2018-03-16 | 昆明理工大学 | 一种基于hmm的词性标注方法 |
CN108170680A (zh) * | 2017-12-29 | 2018-06-15 | 厦门市美亚柏科信息股份有限公司 | 基于隐马尔科夫模型的关键词识别方法、终端设备及存储介质 |
CN108170675A (zh) * | 2017-12-27 | 2018-06-15 | 哈尔滨福满科技有限责任公司 | 一种面向医疗领域基于深度学习的命名实体识别方法 |
-
2018
- 2018-08-28 CN CN201810985852.9A patent/CN109325225B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140324435A1 (en) * | 2010-08-27 | 2014-10-30 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
CN106980609A (zh) * | 2017-03-21 | 2017-07-25 | 大连理工大学 | 一种基于词向量表示的条件随机场的命名实体识别方法 |
CN107608970A (zh) * | 2017-09-29 | 2018-01-19 | 百度在线网络技术(北京)有限公司 | 词性标注模型生成方法和装置 |
CN107807910A (zh) * | 2017-10-10 | 2018-03-16 | 昆明理工大学 | 一种基于hmm的词性标注方法 |
CN108170675A (zh) * | 2017-12-27 | 2018-06-15 | 哈尔滨福满科技有限责任公司 | 一种面向医疗领域基于深度学习的命名实体识别方法 |
CN108170680A (zh) * | 2017-12-29 | 2018-06-15 | 厦门市美亚柏科信息股份有限公司 | 基于隐马尔科夫模型的关键词识别方法、终端设备及存储介质 |
Non-Patent Citations (4)
Title |
---|
唐超: "基于统计模型的汉语词性标注系统的改进方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
四海龙王BLACK: "实习点滴(3)—以"词性标注"为例理解CRF算法", 《HTTPS://BLOG.CSDN.NET/SIHAILONGWANG/ARTICLE/DETAILS/75043661》 * |
屈刚 等: "基于特征的汉语词性标注模型", 《计算机研究与发展》 * |
艳红 等: "基于HMM的蒙古文自动词性标注", 《内蒙古师范大学学报(自然科学汉文版)》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113408286A (zh) * | 2021-05-28 | 2021-09-17 | 浙江工业大学 | 一种面向机械化工领域的中文实体识别方法和系统 |
CN113408286B (zh) * | 2021-05-28 | 2024-03-26 | 浙江工业大学 | 一种面向机械化工领域的中文实体识别方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109325225B (zh) | 2022-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106919646B (zh) | 中文文本摘要生成系统及方法 | |
CN106598939B (zh) | 一种文本纠错方法及装置、服务器、存储介质 | |
CN107608949B (zh) | 一种基于语义模型的文本信息抽取方法及装置 | |
CN101950284B (zh) | 中文分词方法及系统 | |
CN106469554B (zh) | 一种自适应的识别方法及系统 | |
Litvak et al. | DegExt—A language-independent graph-based keyphrase extractor | |
CN101354712B (zh) | 中文术语自动提取系统及方法 | |
CN103164471A (zh) | 视频文本标签的推荐方法及系统 | |
Kumar et al. | Study of automatic text summarization approaches in different languages | |
CN111241267A (zh) | 摘要提取和摘要抽取模型训练方法及相关装置、存储介质 | |
CN108717410B (zh) | 命名实体识别方法及系统 | |
CN106126619A (zh) | 一种基于视频内容的视频检索方法及系统 | |
CN113032552B (zh) | 一种基于文本摘要的政策要点抽取方法与提取系统 | |
TW200519645A (en) | Creating taxonomies and training data in multiple languages | |
CN114298010A (zh) | 一种融合双语言模型和句子检测的文本生成方法 | |
CN106874419A (zh) | 一种多粒度实时热点聚合方法 | |
CN110929518B (zh) | 一种使用重叠拆分规则的文本序列标注算法 | |
JP2572314B2 (ja) | キーワード抽出装置 | |
JP4931114B2 (ja) | データ表示装置、データ表示方法及びデータ表示プログラム | |
Shi et al. | A supervised fine-grained sentiment analysis system for online reviews | |
CN109325225A (zh) | 一种通用的基于关联的词性标注方法 | |
JPS60189565A (ja) | 仮名漢字変換装置 | |
El-Alami et al. | Word sense representation based-method for Arabic text categorization | |
JP2008021139A (ja) | 意味タグ付け用モデル構築装置、意味タグ付け装置及びコンピュータプログラム | |
Khorjuvenkar et al. | Parts of speech tagging for Konkani language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231214 Address after: 22nd Floor, Building A, Yuntong Compaar Building, Kegao Road, High-tech Zone, Kunming City, Yunnan Province, 650000 Patentee after: Yunnan Yunchuang Digital Ecological Technology Co.,Ltd. Patentee after: Yunnan Yunchuang Data Technology Co.,Ltd. Address before: 650093 No. 253, Xuefu Road, Wuhua District, Yunnan, Kunming Patentee before: Kunming University of Science and Technology |