CN109325225B - 一种通用的基于关联的词性标注方法 - Google Patents

一种通用的基于关联的词性标注方法 Download PDF

Info

Publication number
CN109325225B
CN109325225B CN201810985852.9A CN201810985852A CN109325225B CN 109325225 B CN109325225 B CN 109325225B CN 201810985852 A CN201810985852 A CN 201810985852A CN 109325225 B CN109325225 B CN 109325225B
Authority
CN
China
Prior art keywords
freq
speech
word
tag
conj
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810985852.9A
Other languages
English (en)
Other versions
CN109325225A (zh
Inventor
邵玉斌
郭海震
龙华
杜庆治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan Yunchuang Data Technology Co.,Ltd.
Yunnan Yunchuang Digital Ecological Technology Co.,Ltd.
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201810985852.9A priority Critical patent/CN109325225B/zh
Publication of CN109325225A publication Critical patent/CN109325225A/zh
Application granted granted Critical
Publication of CN109325225B publication Critical patent/CN109325225B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Abstract

本发明涉及一种通用的基于关联的词性标注方法,属于自然语言处理技术领域。本发明首先选择合适的文档作为语料库,并把语料库按句分行处理;然后对语料库进行标注,即为每个单词标注出词性;接着统计标注好的语料库,得到一个状态转移矩阵,为以后的预测阶段提供依据;然后对标注好的语料库提取每个字的特征,为了提高准确性,每个字的特征都包括其上下相邻两个字的属性;然后使用每个单词的特征文件训练一个模型;最后,通过状态转移矩阵和概率模型预测待标注词性的句子中的每个单词的词性。

Description

一种通用的基于关联的词性标注方法
技术领域
本发明涉及一种通用的基于关联的词性标注方法,属于自然语言处理技术领域。
背景技术
词性标注是自然语言处理的基础性课题,是很多其他自然语言处理任务的基础,同时在很大程度上影响着后续任务的最终性能。构建一个高性能、高效率的词性标注系统具有重要的学术意义和应用价值。
发明内容
本发明要解决的技术问题是提出一种通用的基于关联的词性标注方法,用以解决上述问题。
本发明的技术方案是:一种通用的基于关联的词性标注方法,首先选择合适的文档作为语料库,并把语料库按句分行处理;然后对语料库进行标注,即为每个单词标注出词性;接着统计标注好的语料库,得到一个状态转移矩阵,为以后的预测阶段提供依据;然后对标注好的语料库提取每个字的特征,为了提高准确性,每个字的特征都包括其上下相邻两个字的属性;然后使用每个单词的特征文件训练一个模型;最后,通过状态转移矩阵和概率模型预测待标注词性的句子中的每个单词的词性。
具体步骤为:
(1)找到适合作为训练集的语料,将语料按句子进行切分,使得每一行只有一个句子;
(2)处理步骤(1)切分的句子,手工标注每个单词,将每个单词标注为词性集合tags中的一个;
(3)处理步骤(2)获得的训练集,统计词性集合中每种词性的下一个词性出现的次数,记作转移矩阵tag_trans,tag_trans包括两部分:tag_trans1和tag_trans2;
(4)对步骤(3)的结果中的tag_trans1进行归一化处理,记作概率矩阵pro1_trans;
(5)对步骤(3)的结果中的tag_trans2进行归一化处理,记作转移概率矩阵pro2_trans;
(6)提取每个单词的特征feature,为后续步骤预测单词的词性提供依据,对步骤(3)的结果进行处理,在为每个单词生成特征features的过程中,为了提高准确性,充分利用上下文的关系,为每个单词提取特征的时候考虑其前后多个单词,组成一个窗口;
(7)使用步骤(6)提取的特征文件训练一个模型model;
(8)对步骤(7)的结果进行归一化处理,记为概率模型pro_model;
(9)将步骤(8)处理过后的模型用嵌套字典的数据结构存储,并以字节流的方式保存在本地;
(10)预测要分词的句子sentence中各个单词的词性,其中,每个单词的词性是词性集合tags中的一个,各个单词的预测词性是以其各个词性的得分score来确定,标注的时候要区分句首单词和非句首单词,句首单词使用case1来预测其词性,非句首单词用case2预测词性,最后选出一个得分最高的词性作为其预测词性输出。
所述步骤(1)将语料按句子进行切分具体为把语料库的文档,按句话、问号和叹号把句子切分,然后每句话单独放置一行以备后续使用。
所述步骤(2)中的tags是指:tags=[n,pron,adj,num,v,adv,art,prep,conj,int];其中,n是名词,表示人或事物的名称,pron是代词,代替名词、数词、形容词,adj表示形容词,用来修饰名词,表示人或事物的特征,num表示数目或顺序,v是动词,表示动作或状态,adv是副词,修饰动、形、副等词,表示动作特征,art是冠词,用在名词前,帮助说明名词所指的范围,prep是介词,用在名词或代词前,说明它与别的词的关系,conj是连词,表示人或事物的名称,int是叹词,代替名词、数词、形容词。
所述步骤(3)中的tag_trans1是指:tag_trans1表示每个句子中句首单词的词性,tag_trans1={n:freq0,pron:freq1,adj:freq2,num:freq3,v:freq4,adv:freq5,art:freq6,prep:freq7,conj:freq8,int:freq9};
所述步骤(3)中的tag_trans2是指:tag_trans2={{n:{n:freq0,pron:freq1,adj:freq2,num:freq3,v:freq4,adv:freq5,art:freq6,prep:freq7,conj:freq8,int:freq9},pron:{n:freq10,pron:freq11,adj:freq12,num:freq13,v:freq14,adv:freq15,art:freq16,prep:freq17,conj:freq18,int:freq19},adj:{n:freq20,pron:freq21,adj:freq22,num:freq23,v:freq24,adv:freq25,art:freq26,prep:freq27,conj:freq28,int:freq29},num:{n:freq30,pron:freq31,adj:freq32,num:freq33,v:freq34,adv:freq35,art:freq36,prep:freq37,conj:freq38,int:freq39},v:{n:freq40,pron:freq41,adj:freq42,num:freq43,v:freq44,adv:freq45,art:freq46,prep:freq47,conj:freq48,int:freq49},adv:{n:freq50,pron:freq51,adj:freq52,num:freq53,v:freq54,adv:freq55,art:freq56,prep:freq57,conj:freq58,int:freq59},art:{n:freq60,pron:freq61,adj:freq62,num:freq63,v:freq64,adv:freq65,art:freq66,prep:freq67,conj:freq68,int:freq69},prep:{n:freq70,pron:freq71,adj:freq72,num:freq73,v:freq74,adv:freq75,art:freq76,prep:freq77,conj:freq78,int:freq79},conj:{n:freq80,pron:freq81,adj:freq82,num:freq83,v:freq84,adv:freq85,art:freq86,prep:freq87,conj:freq88,int:freq89},int:{n:freq90,pron:freq91,adj:freq92,num:freq93,v:freq94,adv:freq95,art:freq96,prep:freq97,conj:freq98,int:freq99}}。
所述步骤(4)中的归一化是指:每一个词性出现的次数除以十个词性出现的次数总和;
所述步骤(4)中的pro1_trans是指:pro1_trans是对tag_trans1的进一步处理,即每个词性出现的次数除以十种词性出现的次数之和。
所述步骤(5)中的归一化是指:记当前单词的词性为cur_tag,下一个出现单词的词性为sub_tag,每个当前单词下一个可能出现的词性有十种,归一化处理就是取每一个sub_tag出现的次数除以当前词性下可能出现的十种词性出现次数的总和;
所述步骤(5)中的pro2_trans是指:pro2_trans是指对tag_trans2的进一步处理,像步骤(8)所述,记当前单词的词性为cur_tag,下一个出现单词的词性为sub_tag,每个当前单词下一个可能出现的词性有十种,pro2_trans就是取每一个sub_tag出现的次数除以当前词性下可能出现的十种词性出现次数的总和。
所述步骤(6)中feature是指:在为每个单词提取特征的时候,为了提高正确率,充分利用上下文关系,考虑其前后多个单词,组成一个窗口,具体的,这里考虑其前后三个单词,记[w0w1w2]三个单词组成的一个窗口,则w1的特征feature_w1=[w0,w1,w2,w0w1,w1w2,w0w2,w0_tag,w1_tag,w2_tag],因此每个单词都有九维特征。
所述步骤(7)中model是指:由步骤(2)可知,所有单词的词性只能是词性集合tags中的一个,所以模型文件中有十种词性,分别为:n,pron,adj,num,v,adv,art,prep,conj,int,又每个单词的特征是九维的,所有每个词性后有九维特征,训练过程如下:将步骤(3)标注好的每个单词按其词性把它的特征写入相应的位置,然后通过遍历语料库统计每个单词对应词性的每一维特征中各个特征的权重,也就是特征出现的次数。
所述步骤(8)中pro_model是指:该步骤处理的是步骤(8)中每种词性的每维特征中的每个特征,归一化处理就是取每个词性的每维特征中的每个特征出现的次数除以该维特征中所有特征出现次数的总和。
所述步骤(10)中score是指:一个单词被预测成某一词性的可能性,由两部分组成;第一部分是由转移概率矩阵得到的,第二部分是由各个单词的特征得到的;
所述步骤(10)中tags是指:和步骤(2)中tags一样,tags=[n,pron,adj,num,v,adv,art,prep,conj,int];
所述步骤(10)中case1是指:若标注的单词是句首的单词,则该单词的各个可能词性的得分是该单词被预测成各个词性在概率矩阵pro1_trans的得分和该单词特征在概率模型pro_model各个词性的得分之和,最后选出得分最高的词性作为预测结果;
所述步骤(10)中case2是指:若标注的单词是非句首的单词,则该单词的各个词性的得分是该单词被预测成各个词性在转移概率矩阵pro2_trans的得分和该单词特征在概率模型pro_model各个词性的得分之和,最后选出得分最高的词性作为预测结果。
本发明的有益效果是:高性能、高效率,适用于所有语言的词性标注。
附图说明
图1是本发明的步骤流程图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
一种通用的基于关联的词性标注方法,首先选择合适的文档作为语料库,并把语料库按句分行处理;然后对语料库进行标注,即为每个单词标注出词性;接着统计标注好的语料库,得到一个状态转移矩阵,为以后的预测阶段提供依据;然后对标注好的语料库提取每个字的特征,为了提高准确性,每个字的特征都包括其上下相邻两个字的属性;然后使用每个单词的特征文件训练一个模型;最后,通过状态转移矩阵和概率模型预测待标注词性的句子中的每个单词的词性。
具体步骤为:
(1)找到适合作为训练集的语料,将语料按句子进行切分,使得每一行只有一个句子;
(2)处理步骤(1)切分的句子,手工标注每个单词,将每个单词标注为词性集合tags中的一个;
(3)处理步骤(2)获得的训练集,统计词性集合中每种词性的下一个词性出现的次数,记作转移矩阵tag_trans,tag_trans包括两部分:tag_trans1和tag_trans2;
(4)对步骤(3)的结果中的tag_trans1进行归一化处理,记作概率矩阵pro1_trans;
(5)对步骤(3)的结果中的tag_trans2进行归一化处理,记作转移概率矩阵pro2_trans;
(6)提取每个单词的特征feature,为后续步骤预测单词的词性提供依据,对步骤(3)的结果进行处理,在为每个单词生成特征features的过程中,为了提高准确性,充分利用上下文的关系,为每个单词提取特征的时候考虑其前后多个单词,组成一个窗口;
(7)使用步骤(6)提取的特征文件训练一个模型model;
(8)对步骤(7)的结果进行归一化处理,记为概率模型pro_model;
(9)将步骤(8)处理过后的模型用嵌套字典的数据结构存储,并以字节流的方式保存在本地;
(10)预测要分词的句子sentence中各个单词的词性,其中,每个单词的词性是词性集合tags中的一个,各个单词的预测词性是以其各个词性的得分score来确定,标注的时候要区分句首单词和非句首单词,句首单词使用case1来预测其词性,非句首单词用case2预测词性,最后选出一个得分最高的词性作为其预测词性输出。
实施例1:如图1所示,以英文为例,把语料库的文档,按句话、问号和叹号把句子切分,然后每句话单独放置一行以备后续使用,具体的:
I love you
…………。
所述步骤(2)中的tags是指:tags=[n,pron,adj,num,v,adv,art,prep,conj,int];其中,n是名词,表示人或事物的名称,pron是代词,代替名词、数词、形容词,adj表示形容词,用来修饰名词,表示人或事物的特征,num表示数目或顺序,v是动词,表示动作或状态,adv是副词,修饰动、形、副等词,表示动作特征,art是冠词,用在名词前,帮助说明名词所指的范围,prep是介词,用在名词或代词前,说明它与别的词的关系,conj是连词,表示人或事物的名称,int是叹词,代替名词、数词、形容词等,具体的:
I/pron love/v you/pron
…………。
所述步骤(3)中的tag_trans1是指:tag_trans1表示每个句子中句首单词的词性,tag_trans1={n:freq0,pron:freq1,adj:freq2,num:freq3,v:freq4,adv:freq5,art:freq6,prep:freq7,conj:freq8,int:freq9}。
所述步骤(3)中的tag_trans2是指:tag_trans2={{n:{n:freq0,pron:freq1,adj:freq2,num:freq3,v:freq4,adv:freq5,art:freq6,prep:freq7,conj:freq8,int:freq9},pron:{n:freq10,pron:freq11,adj:freq12,num:freq13,v:freq14,adv:freq15,art:freq16,prep:freq17,conj:freq18,int:freq19},adj:{n:freq20,pron:freq21,adj:freq22,num:freq23,v:freq24,adv:freq25,art:freq26,prep:freq27,conj:freq28,int:freq29},num:{n:freq30,pron:freq31,adj:freq32,num:freq33,v:freq34,adv:freq35,art:freq36,prep:freq37,conj:freq38,int:freq39},v:{n:freq40,pron:freq41,adj:freq42,num:freq43,v:freq44,adv:freq45,art:freq46,prep:freq47,conj:freq48,int:freq49},adv:{n:freq50,pron:freq51,adj:freq52,num:freq53,v:freq54,adv:freq55,art:freq56,prep:freq57,conj:freq58,int:freq59},art:{n:freq60,pron:freq61,adj:freq62,num:freq63,v:freq64,adv:freq65,art:freq66,prep:freq67,conj:freq68,int:freq69},prep:{n:freq70,pron:freq71,adj:freq72,num:freq73,v:freq74,adv:freq75,art:freq76,prep:freq77,conj:freq78,int:freq79},conj:{n:freq80,pron:freq81,adj:freq82,num:freq83,v:freq84,adv:freq85,art:freq86,prep:freq87,conj:freq88,int:freq89},int:{n:freq90,pron:freq91,adj:freq92,num:freq93,v:freq94,adv:freq95,art:freq96,prep:freq97,conj:freq98,int:freq99}}。
所述步骤(4)中的归一化是指:每一个词性出现的次数除以十个词性出现的次数总和。
所述步骤(4)中的pro1_trans是指:pro1_trans是对tag_trans1的进一步处理,即每个词性出现的次数除以十种词性出现的次数之和。
所述步骤(5)中的归一化是指:记当前单词的词性为cur_tag,下一个出现单词的词性为sub_tag,每个当前单词下一个可能出现的词性有十种,归一化处理就是取每一个sub_tag出现的次数除以当前词性下可能出现的十种词性出现次数的总和。
所述步骤(5)中的pro2_trans是指:pro2_trans是指对tag_trans2的进一步处理,像步骤(7)所述,记当前单词的词性为cur_tag,下一个出现单词的词性为sub_tag,每个当前单词下一个可能出现的词性有十种,pro2_trans就是取每一个sub_tag出现的次数除以当前词性下可能出现的十种词性出现次数的总和。
所述步骤(6)中feature是指:在为每个单词提取特征的时候,为了提高正确率,充分利用上下文关系,考虑其前后多个单词,组成一个窗口,具体的,这里考虑其前后三个单词,记[w0w1w2]三个单词组成的一个窗口,则w1的特征feature_w1=[w0,w1,w2,w0w1,w1w2,w0w2,w0_tag,w1_tag,w2_tag],因此每个单词都有九维特征。
所述步骤(7)中model是指:由步骤(2)可知,所有单词的词性只能是词性集合tags中的一个,所以模型文件中有十种词性,分别为:n,pron,adj,num,v,adv,art,prep,conj,int,又每个单词的特征是九维的,所有每个词性后有九维特征,训练过程如下:将步骤(3)标注好的每个单词按其词性把它的特征写入相应的位置,然后通过遍历语料库统计每个单词对应词性的每一维特征中各个特征的权重,也就是特征出现的次数。
所述步骤(8)中pro_model是指:与步骤(5)类似,该步骤处理的是步骤(8)中每种词性的每维特征中的每个特征,归一化处理就是取每个词性的每维特征中的每个特征出现的次数除以该维特征中所有特征出现次数的总和。
所述步骤(10)中score是指:一个单词被预测成某一词性的可能性,由两部分组成;第一部分是由转移概率矩阵得到的,第二部分是由各个单词的特征得到的。
所述步骤(10)中tags是指:和步骤(2)中tags一样,tags=[n,pron,adj,num,v,adv,art,prep,conj,int]。
所述步骤(10)中case1是指:若标注的单词是句首的单词,则该单词的各个可能词性的得分是该单词被预测成各个词性在概率矩阵pro1_trans的得分和该单词特征在概率模型pro_model各个词性的得分之和,最后选出得分最高的词性作为预测结果。
所述步骤(10)中case2是指:若标注的单词是非句首的单词,则该单词的各个词性的得分是该单词被预测成各个词性在转移概率矩阵pro2_trans的得分和该单词特征在概率模型pro_model各个词性的得分之和,最后选出得分最高的词性作为预测结果。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (5)

1.一种通用的基于关联的词性标注方法,其特征在于:
(1)找到适合作为训练集的语料,将语料按句子进行切分,使得每一行只有一个句子;
(2)处理步骤(1)切分的句子,手工标注每个单词,将每个单词标注为词性集合tags中的一个;
(3)处理步骤(2)获得的训练集,统计词性集合中每种词性的下一个词性出现的次数,记作转移矩阵tag_trans,tag_trans包括两部分:tag_trans1和tag_trans2;
(4)对步骤(3)的结果中的tag_trans1进行归一化处理,记作概率矩阵pro1_tra ns;
(5)对步骤(3)的结果中的tag_trans2进行归一化处理,记作转移概率矩阵pro2_trans;
(6)提取每个单词的特征feature,为后续步骤预测单词的词性提供依据,对步骤(3)的结果进行处理,在为每个单词生成特征features的过程中,为了提高准确性,充分利用上下文的关系,为每个单词提取特征的时候考虑其前后多个单词,组成一个窗口;
(7)使用步骤(6)提取的特征文件训练一个模型model;
(8)对步骤(7)的结果进行归一化处理,记为概率模型pro_model;
(9)将步骤(8)处理过后的模型用嵌套字典的数据结构存储,并以字节流的方式保存在本地;
(10)预测要分词的句子sentence中各个单词的词性,其中,每个单词的词性是词性集合tags中的一个,各个单词的预测词性是以其各个词性的得分score来确定,标注的时候要区分句首单词和非句首单词,句首单词使用case1来预测其词性,非句首单词用case2预测词性,最后选出一个得分最高的词性作为其预测词性输出;
所述步骤(6)中feature是指:在为每个单词提取特征的时候,为了提高正确率,充分利用上下文关系,考虑其前后多个单词,组成一个窗口,具体的,这里考虑其前后三个单词,记[w0w1w2]三个单词组成的一个窗口,则w1的特征feature_w1=[w0,w1,w2,w0w1,w1w2,w0w2,w0_tag,w1_tag,w2_tag],因此每个单词都有九维特征;
所述步骤(7)中model是指:由步骤(2)可知,所有单词的词性只能是词性集合tags中的一个,所以模型文件中有十种词性,分别为:n,pron,adj,num,v,adv,art,prep,conj,int,又每个单词的特征是九维的,所有每个词性后有九维特征,训练过程如下:将步骤(3)标注好的每个单词按其词性把它的特征写入相应的位置,然后通过遍历语料库统计每个单词对应词性的每一维特征中各个特征的权重,也就是特征出现的次数;
所述步骤(8)中pro_model是指:该步骤处理的是步骤(8)中每种词性的每维特征中的每个特征,归一化处理就是取每个词性的每维特征中的每个特征出现的次数除以该维特征中所有特征出现次数的总和;
所述步骤(4)中的归一化是指:每一个词性出现的次数除以十个词性出现的次数总和;
所述步骤(4)中的pro1_trans是指:pro1_trans是对tag_trans1的进一步处理,即每个词性出现的次数除以十种词性出现的次数之和;
所述步骤(5)中的归一化是指:记当前单词的词性为cur_tag,下一个出现单词的词性为sub_tag,每个当前单词下一个出现的词性有十种,归一化处理就是取每一个sub_tag出现的次数除以当前词性下出现的十种词性出现次数的总和;
所述步骤(5)中的pro2_trans是指:pro2_trans是指对tag_trans2的进一步处理,像步骤(8)所述,记当前单词的词性为cur_tag,下一个出现单词的词性为sub_tag,每个当前单词下一个出现的词性有十种,pro2_trans就是取每一个sub_tag出现的次数除以当前词性下出现的十种词性出现次数的总和。
2.根据权利要求1所述的通用的基于关联的词性标注方法,其特征在于:所述步骤(1)将语料按句子进行切分具体为把语料库的文档,按句话、问号和叹号把句子切分,然后每句话单独放置一行以备后续使用。
3.根据权利要求1所述的通用的基于关联的词性标注方法,其特征在于:所述步骤(2)中的tags是指:tags=[n,pron,adj,num,v,adv,art,prep,conj,int];其中,n是名词,表示人或事物的名称,pron是代词,代替名词、数词、形容词,adj表示形容词,用来修饰名词,表示人或事物的特征,num表示数目或顺序,v是动词,表示动作或状态,adv是副词,修饰动、形、副等词,表示动作特征,art是冠词,用在名词前,帮助说明名词所指的范围,prep是介词,用在名词或代词前,说明它与别的词的关系,conj是连词,表示人或事物的名称,int是叹词,代替名词、数词、形容词。
4.根据权利要求1所述的通用的基于关联的词性标注方法,其特征在于:
所述步骤(3)中的tag_trans1是指:tag_trans1表示每个句子中句首单词的词性,tag_trans1={n:freq0,pron:freq1,adj:freq2,num:freq3,v:freq4,adv:freq5,art:freq6,prep:freq7,conj:freq8,int:freq9};
所述步骤(3)中的tag_trans2是指:tag_trans2={{n:{n:freq0,pron:freq1,adj:freq2,num:freq3,v:freq4,adv:freq5,art:freq6,prep:freq7,conj:freq8,int:freq9},pron:{n:freq10,pron:freq11,adj:freq12,num:freq13,v:freq14,adv:freq15,art:freq16,prep:freq17,conj:freq18,int:freq19},adj:{n:freq20,pron:freq21,adj:freq22,num:freq23,v:freq24,adv:freq25,art:freq26,prep:freq27,conj:freq28,int:freq29},num:{n:freq30,pron:freq31,adj:freq32,num:freq33,v:freq34,adv:freq35,art:freq36,prep:freq37,conj:freq38,int:freq39},v:{n:freq40,pron:freq41,adj:freq42,num:freq43,v:freq44,adv:freq45,art:freq46,prep:freq47,conj:freq48,int:freq49},adv:{n:freq50,pron:freq51,adj:freq52,num:freq53,v:freq54,adv:freq55,art:freq56,prep:freq57,conj:freq58,int:freq59},art:{n:freq60,pron:freq61,adj:freq62,num:freq63,v:freq64,adv:freq65,art:freq66,prep:freq67,conj:freq68,int:freq69},prep:{n:freq70,pron:freq71,adj:freq72,num:freq73,v:freq74,adv:freq75,art:freq76,prep:freq77,conj:freq78,int:freq79},conj:{n:freq80,pron:freq81,adj:freq82,num:freq83,v:freq84,adv:freq85,art:freq86,prep:freq87,conj:freq88,int:freq89},int:{n:freq90,pron:freq91,adj:freq92,num:freq93,v:freq94,adv:freq95,art:freq96,prep:freq97,conj:freq98,int:freq99}}。
5.根据权利要求1所述的通用的基于关联的词性标注方法,其特征在于:
所述步骤(10)中score是指:一个单词被预测成某一词性的概率,由两部分组成;第一部分是由转移概率矩阵得到的,第二部分是由各个单词的特征得到的;
所述步骤(10)中tags是指:和步骤(2)中tags一样,tags=[n,pron,adj,num,v,adv,art,prep,conj,int];
所述步骤(10)中case1是指:若标注的单词是句首的单词,则该单词的各个词性的得分是该单词被预测成各个词性在概率矩阵pro1_trans的得分和该单词特征在概率模型pro_model各个词性的得分之和,最后选出得分最高的词性作为预测结果;
所述步骤(10)中case2是指:若标注的单词是非句首的单词,则该单词的各个词性的得分是该单词被预测成各个词性在转移概率矩阵pro2_trans的得分和该单词特征在概率模型pro_model各个词性的得分之和,最后选出得分最高的词性作为预测结果。
CN201810985852.9A 2018-08-28 2018-08-28 一种通用的基于关联的词性标注方法 Active CN109325225B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810985852.9A CN109325225B (zh) 2018-08-28 2018-08-28 一种通用的基于关联的词性标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810985852.9A CN109325225B (zh) 2018-08-28 2018-08-28 一种通用的基于关联的词性标注方法

Publications (2)

Publication Number Publication Date
CN109325225A CN109325225A (zh) 2019-02-12
CN109325225B true CN109325225B (zh) 2022-04-12

Family

ID=65263495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810985852.9A Active CN109325225B (zh) 2018-08-28 2018-08-28 一种通用的基于关联的词性标注方法

Country Status (1)

Country Link
CN (1) CN109325225B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408286B (zh) * 2021-05-28 2024-03-26 浙江工业大学 一种面向机械化工领域的中文实体识别方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107608970A (zh) * 2017-09-29 2018-01-19 百度在线网络技术(北京)有限公司 词性标注模型生成方法和装置
CN107807910A (zh) * 2017-10-10 2018-03-16 昆明理工大学 一种基于hmm的词性标注方法
CN108170675A (zh) * 2017-12-27 2018-06-15 哈尔滨福满科技有限责任公司 一种面向医疗领域基于深度学习的命名实体识别方法
CN108170680A (zh) * 2017-12-29 2018-06-15 厦门市美亚柏科信息股份有限公司 基于隐马尔科夫模型的关键词识别方法、终端设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8719006B2 (en) * 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
CN106980609A (zh) * 2017-03-21 2017-07-25 大连理工大学 一种基于词向量表示的条件随机场的命名实体识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107608970A (zh) * 2017-09-29 2018-01-19 百度在线网络技术(北京)有限公司 词性标注模型生成方法和装置
CN107807910A (zh) * 2017-10-10 2018-03-16 昆明理工大学 一种基于hmm的词性标注方法
CN108170675A (zh) * 2017-12-27 2018-06-15 哈尔滨福满科技有限责任公司 一种面向医疗领域基于深度学习的命名实体识别方法
CN108170680A (zh) * 2017-12-29 2018-06-15 厦门市美亚柏科信息股份有限公司 基于隐马尔科夫模型的关键词识别方法、终端设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于特征的汉语词性标注模型;屈刚 等;《计算机研究与发展》;20030430;第40卷(第4期);第556-561页 *
基于统计模型的汉语词性标注系统的改进方法研究;唐超;《中国优秀硕士学位论文全文数据库信息科技辑》;20100315(第3期);第I138-995页 *
实习点滴(3)—以"词性标注"为例理解CRF算法;四海龙王Black;《https://blog.csdn.net/sihailongwang/article/details/75043661》;20170713;1-3页 *

Also Published As

Publication number Publication date
CN109325225A (zh) 2019-02-12

Similar Documents

Publication Publication Date Title
CN107729309B (zh) 一种基于深度学习的中文语义分析的方法及装置
US9195646B2 (en) Training data generation apparatus, characteristic expression extraction system, training data generation method, and computer-readable storage medium
CN110175246B (zh) 一种从视频字幕中提取概念词的方法
Aramaki et al. Automatic deidentification by using sentence features and label consistency
CN108959566A (zh) 一种基于Stacking集成学习的医疗文本去隐私方法和系统
CN111046660B (zh) 一种识别文本专业术语的方法及装置
CN113268576B (zh) 一种基于深度学习的部门语义信息抽取的方法及装置
CN111143571B (zh) 实体标注模型的训练方法、实体标注方法以及装置
Freihat et al. A single-model approach for Arabic segmentation, POS tagging, and named entity recognition
Tlili-Guiassa Hybrid method for tagging Arabic text
CN110929518A (zh) 一种使用重叠拆分规则的文本序列标注算法
CN111368532B (zh) 一种基于lda的主题词嵌入消歧方法及系统
CN109325225B (zh) 一种通用的基于关联的词性标注方法
CN111597302B (zh) 文本事件的获取方法、装置、电子设备及存储介质
CN109902299B (zh) 一种文本处理方法及装置
CN109002540B (zh) 一种中文通告文档问题答案对自动生成方法
Srinivasagan et al. An automated system for tamil named entity recognition using hybrid approach
Boisen et al. Annotating Resources for Information Extraction.
Mukund et al. NE tagging for Urdu based on bootstrap POS learning
Pailai et al. A comparative study on different techniques for thai part-of-speech tagging
Tongtep et al. Multi-stage automatic NE and pos annotation using pattern-based and statistical-based techniques for thai corpus construction
Buoy et al. Joint Khmer word segmentation and part-of-speech tagging using deep learning
CN109657207B (zh) 条款的格式化处理方法和处理装置
CN109960720B (zh) 针对半结构化文本的信息抽取方法
Abu Bakar et al. Part-of-speech for old Malay manuscript corpus: A Review

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20231214

Address after: 22nd Floor, Building A, Yuntong Compaar Building, Kegao Road, High-tech Zone, Kunming City, Yunnan Province, 650000

Patentee after: Yunnan Yunchuang Digital Ecological Technology Co.,Ltd.

Patentee after: Yunnan Yunchuang Data Technology Co.,Ltd.

Address before: 650093 No. 253, Xuefu Road, Wuhua District, Yunnan, Kunming

Patentee before: Kunming University of Science and Technology

TR01 Transfer of patent right