CN110427621B - 一种汉语分类词语提取方法及系统 - Google Patents
一种汉语分类词语提取方法及系统 Download PDFInfo
- Publication number
- CN110427621B CN110427621B CN201910668339.1A CN201910668339A CN110427621B CN 110427621 B CN110427621 B CN 110427621B CN 201910668339 A CN201910668339 A CN 201910668339A CN 110427621 B CN110427621 B CN 110427621B
- Authority
- CN
- China
- Prior art keywords
- word
- matching
- words
- frequency
- segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
本发明提供一种汉语分类词语提取方法及系统,用种子词对未分词语料进行匹配,筛选出包含预设分类词语的句子,并针对筛选出的句子,记录每一句子中包含的匹配词及该匹配词的频次;使用分词程序对筛选出的句子进行自动分词;基于所记录的每一句子中包含的匹配词及该匹配词的频次,提取出对应的匹配词及其实例上下文,并按所提取的匹配词所在的分词字串,汇总每个分词字串在语料中的频次及各匹配词实例上下文;基于汇总结果,对分词结果进行校对,并再次汇总,不断重复此步骤,直到汇总结果中所有匹配词所在的分词字串仅包含一个词时,这些词的集合即为提取出的分类词语。本发明可有效提取语料中的特定分类词语,从而为分类分级词表的构建提供基础。
Description
技术领域
本发明涉及分类分级词表技术领域,特别是指一种汉语分类词语提取方法及系统。
背景技术
分类分级词表是儿童分级阅读计量的基础资源,可为儿童分级阅读计量提供支持。词汇分级是文本分级的重要依据,面向儿童阅读需求构建分类分级词表可以为儿童分级阅读计量提供基础资源。
现有的分类词表可见于语义分类词典,如:《现代汉语分类词典》,该分类词典为词语义类体系构建提供了很好的基础,但其中的分类词表无法直接用于儿童阅读文本分级计量,这是因为:(1)每个语义类词条逾千条,分类不分级;(2)词条广泛收集于语文词典、大型现代汉语语料库及最新的词表,以动物词为例,对于儿童文学领域,有些词条属于生僻词,如:“役畜”、“鸸鹋”、“鲥鱼”等等;(3)儿童文学在语言上具有“儿童味”,这使得儿童文学中会出现不同于成熟语言语料中的新的词语形式,比如使用叠音词“小小牛”、“毛毛熊”等等,因此儿童阅读词表中可以包含高频“儿童味”的词条。
因此为满足儿童分级阅读计量需求,有必要基于儿童文学语料来构建新的分类分级词表,而为了构建分类分级词表,如何从语料库中提取分类词语是其技术实现的关键点,而现有技术在分类词语提取方面仍存在不足。主要表现在以下三个方面:
(1)使用专家编写的分类词表,不利于发现新词;
(2)先分词再提取词语的方法会导致词条提取不全、错误词等问题,这主要是因为汉语分词准确率尚无法达到100%,而且计算机分词的词语粒度与分类词条的词语粒度经常不一致;
(3)人工校对计算机分词结果,通用的分词校对规则复杂,且工作量大。
发明内容
本发明要解决的技术问题是提供一种汉语分类词语提取方法及系统,实现以种子词与机器自动分词相结合的方法从语料库中提取汉语分类词语,从而为面向儿童分级阅读的分类词表的构建提供基础。
为解决上述技术问题,本发明提供一种汉语分类词语提取方法,其包括:
S1,利用种子词对未分词的语料进行匹配,筛选出包含预设分类词语的句子,并针对筛选出的句子,记录每一句子中包含的匹配词及该匹配词的频次;
S2,使用预设分词程序对筛选出的句子进行自动分词;
S3,基于所记录的每一句子中包含的匹配词及该匹配词的频次,从分词后的句子中提取出对应的匹配词及其实例上下文,并按所提取的匹配词所在的分词字串,汇总每个分词字串在语料中的频次及各匹配词实例上下文;
S4,基于S3中的汇总结果,对S2中的分词结果进行校对,并基于校对后的分词结果再次执行S3,不断重复此步骤,直到汇总结果中所有匹配词所在的分词字串仅包含一个词时,这些词的集合即为提取出的分类词语。
进一步地,S1包括:
S11,对原始语料进行分句处理,形成未分词的分句语料;
S12,利用种子词对所述分句语料中的每个句子进行字符串匹配,筛选出所述分句语料中包含预设分类词语的句子;
S13,针对筛选出的句子,记录每一句子中包含的匹配词及该匹配词频次。
进一步地,S13包括:
S131,针对筛选出的句子,将每一句子中包含的匹配词记录在匹配词列表中,并将该匹配词的频次记录在该匹配词对应的频次列表中;
S132,按词长由长到短的方式对所述匹配词列表中的匹配词进行排序;
S133,遍历所述匹配词列表,对于每一个被长匹配词覆盖的短匹配词,将该短匹配词对应的频次减去覆盖该短匹配词的长匹配词所对应的频次,得到该短匹配词的新频次,当该短匹配词的新频次大于0时,将所述频次列表中该短匹配词对应的频次更新为新频次;当该短匹配词的新频次等于0时,将该短匹配词从所述匹配词列表中删除,并将所述频次列表中该短匹配词对应的频次删除;当任一短匹配词的新频次小于0时,将该短匹配词对应的句子发人工校对;
S134,对更新后的匹配词列表和频次列表进行序列化,得到包含匹配词及各匹配词对应的频次的匹配结果字符串。
进一步地,S3中在汇总每个分词字串在语料中的频次及各匹配词实例上下文时:所述方法还包括:
设置过滤词表,在汇总时对应所述过滤词表中的词不进入汇总结果。
进一步地,S3中所述基于所记录的每一句子中包含的匹配词及该匹配词的频次,从分词后的句子中提取出对应的匹配词及其实例上下文,包括:
S31,获取按词长由长到短排序的匹配词列表及各匹配词对应的频次列表;
S32,遍历所获取的匹配词列表,从分词后的句子中提取出匹配词列表中每一匹配词包含上下文的匹配实例分词及词性标注结果;
S33,按所提取的匹配词所在的分词字串,汇总每个分词字串在语料中的频次及各匹配词实例上下文。
进一步地,S32包括:
S321,确定匹配词对应的匹配实例及该匹配实例在句子中的位置,每个匹配实例都有一个左匹配位置和一个右匹配位置,所有匹配实例对应的左匹配位置均存储在左匹配位置列表中,右匹配位置均存储在右匹配位置列表中;
S322,基于句子分词结果、左匹配位置列表、右匹配位置列表,以及预设的实例上下文词数,获得包含上下文的匹配实例分词及词性标注结果。
进一步地,每一匹配实例对应的左、右匹配位置在加入左、右匹配列表中前,需判断该左、右匹配位置所确定的子字符串是否与之前某个匹配实例对应的左、右匹配位置所确定的子字符串位置有重叠,如果有重叠,则不向左、右匹配位置列表加入成员。
进一步地,S322包括:
S3221,生成分词列表及与每个分词项对应的词性标注列表;
S3222,基于所述分词列表,找到每一匹配实例的左匹配位置和右匹配位置所对应的分词项。
进一步地,S4中基于S3中的汇总结果,对S2中的分词结果进行校对的校对规则包括:
当分词字串与种子词完全匹配时,不对分词结果进行校对;
当分词字串含一个词,且长于种子词时,不对分词结果进行校对;
当分词字串含两个及以上词,且合并后恰为种子词,则调整分词结果,合并分词结果作为一个词;
当分词字串含两个及以上词,且合并后长于种子词,且有分词错误,需调整分词结果。
相应地,为解决上述技术问题,本发明还提供一种汉语分类词语提取系统,该汉语分类词语提取系统包括:
种子词匹配模块,用于利用种子词对未分词的语料进行匹配,筛选出包含预设分类词语的句子,并针对筛选出的句子,记录每一句子中包含的匹配词及该匹配词的频次;
分词模块,用于使用预设分词程序对筛选出的句子进行自动分词;
汇总模块,用于基于记录的每一句子中包含的匹配词及该匹配词的频次,从分词后的句子中提取出对应的匹配词及其实例上下文,并按所提取的匹配词所在的分词字串,汇总每个分词字串在语料中的频次及各匹配词实例上下文;
校对模块,用于基于所述汇总模块的汇总结果,对所述分词模块的分词结果进行校对,并基于校对后的分词结果再次执行所述汇总模块,不断重复此步骤,直到汇总结果中所有匹配词所在的分词字串仅包含一个词时,这些词的集合即为提取出的分类词语。
本发明的上述技术方案的有益效果如下:
本发明利用种子词对未分词的语料进行匹配,筛选出包含预设分类词语的句子,并针对筛选出的句子,记录每一句子中包含的匹配词及该匹配词的频次;使用预设分词程序对筛选出的句子进行自动分词;基于所记录的每一句子中包含的匹配词及该匹配词的频次,从分词后的句子中提取出对应的匹配词及其实例上下文,并按所提取的匹配词所在的分词字串,汇总每个分词字串在语料中的频次及各匹配词实例上下文;基于汇总结果,对分词结果进行校对,并基于校对后的分词结果再次进行汇总,不断重复此步骤,直到汇总结果中所有匹配词所在的分词字串仅包含一个词时,这些词的集合即为提取出的分类词语。从而实现以种子词与机器自动分词相结合的方法从语料库中提取汉语分类词语,进而为面向儿童分级阅读的分类词表的构建提供基础。
附图说明
图1为本发明第一实施例的汉语分类词语提取方法的示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
首先,为便于本领域技术人员理解本发明的技术方案,在此对本发明中所用到的一些术语进行相关介绍如下:
种子词:来自于某种语义分类词表或词典中的某分类下的所有词语,例如:《现代汉语分类词典》(苏新春,2013)中的动物类所有词条;
原始语料库:某类篇章的集合,作为汉语分类词语提取的篇章来源,例如:由若干儿童文学作品文字组成的篇章的集合;
分句语料库:对前述原始语料库进行分句处理后的结果,分句时以句号(。)、问号(?)、感叹号(!)为分割符,对于包含在配对引号中的文字内容不被分割在不同句子中。
此外,本实施例以动物分类词语提取为例,还需说明的是,动物词语是指记录动物的词语。而动物词语可分为两大类,第一类是用来称说动物的名性词语,如:狮子、老虎、老鼠等等,《现代汉语分类词典》中的动物类词条均属此类;第二类是以动物词、动物身体部位或其出产物名称作为构词语素而衍生的词语,可以用于指人(“可怜虫”)、其他动物(“蜂猴”)、植物或果实(“龙眼”)、器物名称(“斑马线”)、星座名称(“双鱼座”)、疾病名称(“鼠疫”)、地名或人名(“龙口”)、人的身体部位(“鹅蛋脸”)、动物的出产物或身体器官(“虎皮”)、动词(“猫腰”)、形容词(“鸡血红”)等等。
第一实施例
如图1所示,本实施例提供一种汉语分类词语提取方法,该方法以种子词与计算机程序分词相结合的方式实现对分类词语的提取,其包括:
S1,利用种子词对未分词的语料进行匹配,筛选出包含预设分类词语的句子,并针对筛选出的句子,记录每一句子中包含的匹配词及该匹配词的频次;
进一步地,需要说明的是,上述S1包括:
S11,对原始语料进行分句处理,形成未分词的分句语料;
本实施例以儿童文学语料作为原始语料进行举例说明;
分句实例选摘(选自《红奶羊_沈石溪》):
①过了一会儿,一只茸毛鲜红的羊羔跑出羊群,淘气地追逐一只金凤蝶,色彩斑斓的美丽的金凤蝶飞飞停停,竟然落到它的狼背上来了。
②它还观察到一个细节,这头母羊膝边没有吃奶的小羊羔。
S12,利用种子词对分句语料中的每个句子进行字符串匹配,筛选出分句语料中包含预设分类词语的句子;
本实施例中以动物类词条为例进行说明;上述步骤在缩小待处理句子数量的同时,还可以确保所有包含动物词的句子都被选出来。
实例选摘(选自《红奶羊_沈石溪》),其中不以#开始的行为句子行:
①过了一会儿,一只茸毛鲜红的羊羔跑出羊群,淘气地追逐一只金凤蝶,色彩斑斓的美丽的金凤蝶飞飞停停,竟然落到它的狼背上来了。
#蝶2;凤蝶2;羊2;狼1;羊羔1;
②它还观察到一个细节,这头母羊膝边没有吃奶的小羊羔。
#羊2;母羊1;小羊1;羊羔1;
S13,针对筛选出的句子,记录每一句子中包含的匹配词及应用种子词匹配除重算法MatchWordQuChong,获得该匹配词不重叠计算的频次。
该种子词匹配除重算法MatchWordQuChong的输入输出参数说明如下:
输入参数:句子sentence,种子词匹配结果wordinfo,均为字符型;
输出参数:除重后的种子词匹配结果newwordinfo或者”need confirm!”,均为字符型;
注:种子词匹配结果格式为“#匹配词1\t匹配词1频次;匹配词2\t匹配词2频次;……”。
算法描述:
Step1:初始化匹配的匹配词列表words及各匹配词对应的频次列表wordscount;
Step2:得到按词长由长到短排序的匹配词列表newwords及各匹配词对应的频次列表newwordscount;
Step3:按词长由长到短排序遍历newwords,对于每一个被长匹配字符串覆盖的短匹配字符串,按照短字符串频次-长字符串频次->短字符串频次的方式得到其新频次。当该短匹配词的新频次大于0时,将newwordscount中该短匹配词对应的频次更新为新频次;当任一短匹配词的新频次小于0时,返回“need confirm!”,将该短匹配词对应的句子发人工校对;
Step4:当该短匹配词的新频次等于0时,将该短匹配词从newwords中删除,并将newwordscount中该短匹配词对应的频次删除;
Step5:将newwords和newwordscount列表序列化为“#匹配词1\t匹配词1频次;匹配词2\t匹配词2频次;……”格式的字符串,返回该字符串。
实例①:
输入句子:过了一会儿,一只茸毛鲜红的羊羔跑出羊群,淘气地追逐一只金凤蝶,色彩斑斓的美丽的金凤蝶飞飞停停,竟然落到它的狼背上来了。
输入种子词匹配结果:#蝶2;凤蝶2;羊2;狼1;羊羔1;
返回除重后的种子词匹配结果:#凤蝶2;羊羔1;羊1;狼1;
实例②:
输入句子:它还观察到一个细节,这头母羊膝边没有吃奶的小羊羔。
输入种子词匹配结果:#羊2;母羊1;小羊1;羊羔1;
返回:need confirm!,此时需要进行人工校对,校对后的结果如下:
#母羊1;羊羔1;
S2,使用预设分词程序对筛选出的句子进行自动分词;
实例①过/u了/u一会儿/d,/wd一/m只/ad茸毛/n鲜红/n的/u羊羔/n跑/v出/v羊群/n,/wd淘气/a地/u追逐/v一/m只/ad金/b凤蝶/nr,/wd色彩斑斓/n的/u美丽/a的/u金/b凤蝶/nr飞/vi飞/vi停停/v,/wd竟然/ad落到/v它/r的/u狼/n背上/v来/v了/u。/wj
实例②它/r还/ad观察/v到/v一个/m细节/n,/wd这/rzv头/n母羊/n膝/ng边/d没有/v吃奶/v的/u小/a羊羔/n。/wj
S3,应用动物词匹配实例提取算法AutoMarkWord,基于所记录的每一句子中包含的匹配词及该匹配词的频次,从分词后的句子中提取出对应的匹配词及其实例上下文,并按所提取的匹配词所在的分词字串,汇总每个分词字串在语料中的频次及各匹配词实例上下文;汇总文件为onefile.txt。
汇总时,设置过滤词表filteredwords.txt,其中列出的词不进入汇总结果,这些词主要是人名、地名等专有名词以及包含种子词字形的非分类词,如:
田小燕/nr、马水清/nr、猪八戒/nr、马上/ad、立马/ad等,该词表中,以*起始的词语不被过滤。
动物词匹配实例提取算法AutoMarkWord的输入输出参数说明如下:
输入参数:句子Sentence(S12生成的句子行),种子词匹配结果SentenceWord(S14生成的与输入句子对应的种子词匹配信息行—以#开始),句子分词结果SentenceWordSeg(由S2生成的与输入句子对应的分词结果),实例上下文词数ws;其中,前三个参数为字符型,ws为整型;
输出参数:字符型,包含上下文的匹配实例分词及词性标注结果。
注:包含上下文的匹配实例分词及词性标注结果格式为“#匹配词1\t匹配词1频次(@实例1上文$匹配词1所在分词字串$实例1下文|@实例2上文$匹配词1所在分词字串$实例2下文......);匹配词2\t匹配词2频次(@实例1上文$匹配词2所在分词字串$实例1下文|@实例2上文$匹配词2所在分词字串$实例2下文......);……”。
算法描述如下:
Step1:由SentenceWord,按词长由长到短排序的匹配词列表newwords及各匹配词对应的频次列表newwordscount;
Step2:按词长由长到短排序遍历newwords,对于每个newwords[i],获得包含上下文的匹配实例分词及词性标注结果。
Step2-1:在Sentence中找到匹配字串在原始句中的位置,每个匹配实例都有一个左匹配位置leftpoint和一个右匹配位置rightpoint,所有匹配实例的左、右匹配位置存储在左匹配位置列表leftpoints和右匹配位置列表rightpoints中。
每个左、右匹配位置在加入列表leftpoints和列表rightpoints之前,需判断是否与之前某个实例的左右区间有重叠,如果有重叠,则不向左匹配位置列表leftpoints和右匹配位置列表rightpoints加入成员。
每个newwords匹配的实例数量应等于newwordscount中对应的频次,如果小于该频次,则匹配实例记录为“notmatchpoint”。
Step2-2:由句子分词结果SentenceWordSeg、左匹配位置列表leftpoints、右匹配位置列表rightpoints、实例上下文词数ws获得包含上下文的匹配实例分词及词性标注结果seginfo。
Step2-2-1:由SentenceWordSeg生成分词列表wordseglist及与每个分词项对应的词性标注列表。
Step2-2-2:对于每一对leftpoints成员和rightpoints成员——matchleft和matchright(即一个匹配实例的左右位置对),找到在分词列表wordseglist中包含的分词项。
Step2-2-2-1:设置segleftfound=false(当在分词列表中找到匹配实例的左边界时,设此变量为true;否则为false);
Step2-2-2-2:遍历wordseglist,每个分词项在原句Sentence的左右位置分别是segleft和segright;
如果segleftfound==false
如果segright>=matchleft/*分词项与匹配实例重叠,即:找到匹配实例在分词项列表中的左边界*/
如果matchright<=segright/*只匹配了一个分词项*/
如果此分词项词类不是nr、ad、v,则seginfo为:以此分词项为中心,向左、右各记录ws个分词项。如果在向左、右遍历上下文时,遇到标点符号(词性标注以w开头),则不再继续遍历上下文。
否则,不打开上下文窗口,seginfo为:本词项及词性标注/*分词项词类是nr、ad、v*/
否则,
seginfo为:此分词项及左侧上文ws个分词项,如果在向左遍历上文时,遇到标点符号(词性标注以w开头),则不再继续遍历。
设置segleftfound=true/*记录已找到匹配实例在分词项列表中的左边界*/
否则/*已找到匹配实例在分词项列表中的左边界*/
seginfo+=本词项及词性标注
如果matchright<=segright/*匹配完成,补充记录右侧下文信息*/
segleftfound=false;
seginfo+=右侧下文ws个分词项及词性标注,如果在向右遍历下文时,
遇到标点符号(词性标注以w开头),则不再继续遍历。
实例①:
句子Sentence:过了一会儿,一只茸毛鲜红的羊羔跑出羊群,淘气地追逐一只金凤蝶,色彩斑斓的美丽的金凤蝶飞飞停停,竟然落到它的狼背上来了。
种子词匹配结果SentenceWord:#凤蝶2;羊羔1;羊1;狼1;
句子分词结果SentenceWordSeg:过/u了/u一会儿/d,/wd一/m只/ad茸毛/n鲜红/n的/u羊羔/n跑/v出/v羊群/n,/wd淘气/a地/u追逐/v一/m只/ad金/b凤蝶/nr,/wd色彩斑斓/n的/u美丽/a的/u金/b凤蝶/nr飞/vi飞/vi停停/v,/wd竟然/ad落到/v它/r的/u狼/n背上/v来/v了/u。/wj
实例上下文词数ws=3
返回结果:#凤蝶2(@$凤蝶/nr$|@$凤蝶/nr$);羊羔1(@茸毛/n鲜红/n的/u$羊羔/n$跑/v出/v羊群/n);羊1(@羊羔/n跑/v出/v$羊群/n$);狼1(@落到/v它/r的/u$狼/n$背上/v来/v了/u);
实例②:
句子Sentence:它还观察到一个细节,这头母羊膝边没有吃奶的小羊羔。
种子词匹配结果SentenceWord:#羊2;母羊1;小羊1;羊羔1;
句子分词结果SentenceWordSeg:它/r还/ad观察/v到/v一个/m细节/n,/wd这/rzv头/n母羊/n膝/ng边/d没有/v吃奶/v的/u小/a羊羔/n。/wj
实例上下文词数ws=3
返回:#母羊1(@这/rzv头/n$母羊/n$膝/ng边/d没有/v);羊羔1(@吃奶/v的/u小/a$羊羔/n$);
S4,基于S3中的汇总结果onefile.txt,对S2中的分词结果进行校对,并基于校对后的分词结果再次执行S3,获得新的onefile.txt,不断重复此步骤,直到汇总结果onefile.txt中所有匹配词所在的分词字串仅包含一个词时,这些词的集合即为提取出的分类词语。
进一步地,S4中基于S3中的汇总结果onefile.txt,对S2中的分词结果进行校对的方式为采用人工校对,此处需要说明的是,计算机自动分词程序基于报纸语料训练,用于儿童文学语料的分词,出现过度切分、错误切分、切分不开都是可以理解的,但采用统计方法设计,具有一定的新词适应力,切分结果也具有一定复现性。考虑到本实施例提取的词表资源为儿童分级文本自动计量服务,所以对于提取词语的粒度,在不与种子词相悖的前提下,“尊重”自动分词结果;具体地,本实施例采用如下校对规则进行校对:
1)当分词字串与种子词完全匹配时,不对分词结果进行校对;
红奶羊_沈石溪_s.txt雪豹/n,雪豹1(@$雪豹/n$和/c野狼/n)
2)当分词字串含一个词,且长于种子词时,不对分词结果进行校对;
红奶羊_沈石溪_s.txt野狼/n,狼2(@雪豹/n和/c$野狼/n$|@用/p羊角/n与/p$野狼/n$争雄/v)
3)当分词字串含两个及以上词,且合并后恰为种子词,则调整分词结果,合并分词结果作为一个词;
实例①:
红奶羊_沈石溪_s.txt食肉/b兽/ng,食肉兽6(@$食肉/b兽/ng$之间/f惊天动地/n的/u|@$食肉/b兽/ng$|@$食肉/b兽/ng$的/u候补/v点心/n|@$食肉/b兽/ng$的/u气味/n就/ad|@$食肉/b兽/ng$|@$食肉/b兽/ng$挑衅/v地/u奔/v)。
将句子分词结果“食肉/b兽/ng“调整为”食肉兽/n“
实例②:
小房子_安武林_s.txt小/a猪/n,小猪12(@$小/a猪/n$|@$小/a猪/n$的/u小/a房子/n|@$小/a猪/n$能/v想到/v的/u|@$小/a猪/n$着急/a了/u|@$小/a猪/n$贴/v了/u几/m|@$小/a猪/n$的/u房子/n奔/v|@$小/a猪/n$躲/v在/p小/a|@$小/a猪/n$的/u房间/n最/ad|@$小/a猪/n$喜欢/a朋友/n来访/v|@$小/a猪/n$用/v了/u多少/r|@$小/a猪/n$|@$小/a猪/n$出来/v了/u)
将句子分词结果“小/a猪/n”调整为“小猪/n”
4)当分词字串含两个及以上词,且合并后长于种子词,则有分词错误,需调整分词结果。
实例①:
红奶羊_沈石溪_s.txt老公/n羊/n,公羊1(@$老公/n羊/n$步履/n踉跄/v地/u)
将句子分词结果“老公/n羊/n“调整为”老/a公羊/n“
实例②:
红奶羊_沈石溪_s.txt头马/n鹿/n,马鹿1(@捕获/v回/v一/m$头马/n鹿/n$或/c一/m只/q)
将句子分词结果“一/m头马/n鹿/n”调整为“一/m头/q马鹿/n”
本实施例的方法具有如下优势:
1、原始语料不经分词就进行种子词匹配,比分词后提取种子词的方法具有更全的种子词匹配召回率;
2、计算机分词结果长于种子词时(如S4中的第二种实例情况),保留计算机分词粒度,有利于提取包含分类词语核心语素的分类衍生词。以动物词提取为例,从480万字的儿童文学语料中提取出称说动物的名词786个,其中564个是种子词表中的词语,扩展率达到39.36%,另有780个衍生动物词;
3、对分词结果只校对与分类词提取有关的部分,而且校对工作以种子词匹配上下文实例为线索,这使得人工校对工作量大幅降低。
第二实施例
本实施例提供一种汉语分类词语提取系统,其包括:
种子词匹配模块,用于利用种子词对未分词的语料进行匹配,筛选出包含预设分类词语的句子,并针对筛选出的句子,记录每一句子中包含的匹配词及该匹配词的频次;
分词模块,用于使用预设分词程序对筛选出的句子进行自动分词;
汇总模块,用于基于记录的每一句子中包含的匹配词及该匹配词的频次,从分词后的句子中提取出对应的匹配词及其实例上下文,并按所提取的匹配词所在的分词字串,汇总每个分词字串在语料中的频次及各匹配词实例上下文;
校对模块,用于基于所述汇总模块的汇总结果,对所述分词模块中的分词结果进行校对,并基于校对后的分词结果再次执行所述汇总模块,不断重复此步骤,直到汇总结果中所有匹配词所在的分词字串仅包含一个词时,这些词的集合即为提取出的分类词语。
本实施例的汉语分类词语提取系统与上述第一实施例的汉语分类词语提取方法相对应;其中,该汉语分类词语提取系统中各模块单元所实现的功能与上述汉语分类词语提取方法中的流程步骤一一对应,故在此不再赘述。
此外,需要说明的是,本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (9)
1.一种汉语分类词语提取方法,其特征在于,包括:
S1,利用种子词对未分词的语料进行匹配,筛选出包含预设分类词语的句子,并针对筛选出的句子,记录每一句子中包含的匹配词及该匹配词的频次;其中,所述种子词是来自现代汉语分类词典中的动物类所有词条,所述语料来自预设的儿童文学语料库,所述预设分类词语为动物类词条;
S2,使用预设分词程序对筛选出的句子进行自动分词;
S3,基于所记录的每一句子中包含的匹配词及该匹配词的频次,从分词后的句子中提取出对应的匹配词及其实例上下文,并按所提取的匹配词所在的分词字串,汇总每个分词字串在语料中的频次及各匹配词实例上下文;
S4,基于 S3中的汇总结果,对 S2中的分词结果进行校对,并基于校对后的分词结果再次执行S3,不断重复此步骤,直到汇总结果中所有匹配词所在的分词字串仅包含一个词时,这些词的集合即为提取出的分类词语;
其中,基于S3中的汇总结果,对S2中的分词结果进行校对的校对规则包括:
当分词字串与种子词完全匹配时,不对分词结果进行校对;
当分词字串含一个词,且长于种子词时,不对分词结果进行校对;
当分词字串含两个及以上词,且合并后恰为种子词,则调整分词结果,合并分词结果作为一个词;
当分词字串含两个及以上词,且合并后长于种子词,且有分词错误,需调整分词结果。
2.如权利要求 1所述的汉语分类词语提取方法,其特征在于,S1包括:
S11,对原始语料进行分句处理,形成未分词的分句语料;
S12,利用种子词对所述分句语料中的每个句子进行字符串匹配,筛选出所述分句语料中包含预设分类词语的句子;
S13,针对筛选出的句子,记录每一句子中包含的匹配词及该匹配词频次。
3.如权利要求 2所述的汉语分类词语提取方法,其特征在于,S13包括:
S131,针对筛选出的句子,将每一句子中包含的匹配词记录在匹配词列表
中,并将该匹配词的频次记录在该匹配词对应的频次列表中;
S132,按词长由长到短的方式对所述匹配词列表中的匹配词进行排序;
S133,遍历所述匹配词列表,对于每一个被长匹配词覆盖的短匹配词,将该短匹配词对应的频次减去覆盖该短匹配词的长匹配词所对应的频次,得到该短匹配词的新频次,当该短匹配词的新频次大于 0时,将所述频次列表中该短匹配词对应的频次更新为新频次;当该短匹配词的新频次等于 0时,将该短匹配词从所述匹配词列表中删除,并将所述频次列表中该短匹配词对应的频次删除;当任一短匹配词的新频次小于 0时,将该短匹配词对应的句子发人工校对;
S134,对更新后的匹配词列表和频次列表进行序列化,得到包含匹配词及各匹配词对应的频次的匹配结果字符串。
4.如权利要求 1所述的汉语分类词语提取方法,其特征在于,S3中在汇总每个分词字串在语料中的频次及各匹配词实例上下文时:所述方法还包括:设置过滤词表,在汇总时对应所述过滤词表中的词不进入汇总结果。
5.如权利要求 1所述的汉语分类词语提取方法,其特征在于,S3中所述基于所记录的每一句子中包含的匹配词及该匹配词的频次,从分词后的句子中提取出对应的匹配词及其实例上下文,包括:
S31,获取按词长由长到短排序的匹配词列表及各匹配词对应的频次列表;
S32,遍历所获取的匹配词列表,从分词后的句子中提取出匹配词列表中每一匹配词包含上下文的匹配实例分词及词性标注结果;
S33,按所提取的匹配词所在的分词字串,汇总每个分词字串在语料中的频次及各匹配词实例上下文。
6.如权利要求5所述的汉语分类词语提取方法,其特征在于,S32包括:
S321,确定匹配词对应的匹配实例及该匹配实例在句子中的位置,每个匹配实例都有一个左匹配位置和一个右匹配位置,所有匹配实例对应的左匹配位置均存储在左匹配位置列表中,右匹配位置均存储在右匹配位置列表中;
S322,基于句子分词结果、左匹配位置列表、右匹配位置列表,以及预设的实例上下文词数,获得包含上下文的匹配实例分词及词性标注结果。
7.如权利要求6所述的汉语分类词语提取方法,其特征在于,每一匹配实例对应的左、右匹配位置在加入左、右匹配列表中前,需判断该左、右匹配位置所确定的子字符串是否与之前某个匹配实例对应的左、右匹配所确定的子字符串有重叠,如果有重叠,则不向左、右匹配位置列表加入成员。
8.如权利要求6所述的汉语分类词语提取方法,其特征在于,S322包括:
S3221,生成分词列表及与每个分词项对应的词性标注列表;
S3222,基于所述分词列表,找到每一匹配实例的左匹配位置和右匹配位置所对应的分词项。
9.一种汉语分类词语提取系统,其特征在于,包括:
种子词匹配模块,用于利用种子词对未分词的语料进行匹配,筛选出包含预设分类词语的句子,并针对筛选出的句子,记录每一句子中包含的匹配词及该匹配词的频次;其中,所述种子词是来自现代汉语分类词典中的动物类所有词条,所述语料来自预设的儿童文学语料库,所述预设分类词语为动物类词条;
分词模块,用于使用预设分词程序对筛选出的句子进行自动分词;
汇总模块,用于基于记录的每一句子中包含的匹配词及该匹配词的频次,从分词后的句子中提取出对应的匹配词及其实例上下文,并按所提取的匹配词所在的分词字串,汇总每个分词字串在语料中的频次及各匹配词实例上下文;
校对模块,用于基于所述汇总模块的汇总结果,对所述分词模块的分词结果进行校对,并基于校对后的分词结果再次执行所述汇总模块,不断重复此步骤,直到汇总结果中所有匹配词所在的分词字串仅包含一个词时,这些词的集合即为提取出的分类词语;
其中,所述校对模块基于所述汇总模块的汇总结果,对所述分词模块的分词结果进行校对的校对规则包括:
当分词字串与种子词完全匹配时,不对分词结果进行校对;
当分词字串含一个词,且长于种子词时,不对分词结果进行校对;
当分词字串含两个及以上词,且合并后恰为种子词,则调整分词结果,合并分词结果作为一个词;
当分词字串含两个及以上词,且合并后长于种子词,且有分词错误,需调整分词结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910668339.1A CN110427621B (zh) | 2019-07-23 | 2019-07-23 | 一种汉语分类词语提取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910668339.1A CN110427621B (zh) | 2019-07-23 | 2019-07-23 | 一种汉语分类词语提取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110427621A CN110427621A (zh) | 2019-11-08 |
CN110427621B true CN110427621B (zh) | 2020-11-20 |
Family
ID=68412034
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910668339.1A Active CN110427621B (zh) | 2019-07-23 | 2019-07-23 | 一种汉语分类词语提取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110427621B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079425B (zh) * | 2019-12-20 | 2021-07-09 | 中南大学 | 一种地质文档词项分级方法及装置 |
CN113361238B (zh) * | 2021-05-21 | 2022-02-11 | 北京语言大学 | 一种语块重组题型的自动命题的方法及装置 |
CN113239689B (zh) * | 2021-07-07 | 2021-10-08 | 北京语言大学 | 面向易混淆词考察的选择题干扰项自动生成方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040260533A1 (en) * | 2000-03-10 | 2004-12-23 | Yumi Wakita | Method and apparatus for converting an expression using key words |
CN101706807A (zh) * | 2009-11-27 | 2010-05-12 | 清华大学 | 一种中文网页新词自动获取方法 |
CN102663046A (zh) * | 2012-03-29 | 2012-09-12 | 中国科学院自动化研究所 | 一种面向微博短文本的情感分析方法 |
CN105975475A (zh) * | 2016-03-31 | 2016-09-28 | 华南理工大学 | 基于中文短语串的细粒度主题信息抽取方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004001623A2 (en) * | 2002-03-26 | 2003-12-31 | University Of Southern California | Constructing a translation lexicon from comparable, non-parallel corpora |
CN107515877B (zh) * | 2016-06-16 | 2021-07-20 | 百度在线网络技术(北京)有限公司 | 敏感主题词集的生成方法和装置 |
CN107609132B (zh) * | 2017-09-18 | 2020-03-20 | 杭州电子科技大学 | 一种基于语义本体库中文文本情感分析方法 |
CN108228566A (zh) * | 2018-01-12 | 2018-06-29 | 中译语通科技股份有限公司 | 多文档关键词自动抽取方法及系统、计算机程序 |
CN109522547B (zh) * | 2018-10-23 | 2020-09-18 | 浙江大学 | 基于模式学习的中文同义词迭代抽取方法 |
-
2019
- 2019-07-23 CN CN201910668339.1A patent/CN110427621B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040260533A1 (en) * | 2000-03-10 | 2004-12-23 | Yumi Wakita | Method and apparatus for converting an expression using key words |
CN101706807A (zh) * | 2009-11-27 | 2010-05-12 | 清华大学 | 一种中文网页新词自动获取方法 |
CN102663046A (zh) * | 2012-03-29 | 2012-09-12 | 中国科学院自动化研究所 | 一种面向微博短文本的情感分析方法 |
CN105975475A (zh) * | 2016-03-31 | 2016-09-28 | 华南理工大学 | 基于中文短语串的细粒度主题信息抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110427621A (zh) | 2019-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bhatia et al. | Better document-level sentiment analysis from rst discourse parsing | |
CN110427621B (zh) | 一种汉语分类词语提取方法及系统 | |
Saggion et al. | Automatic text simplification | |
Hausser et al. | Foundations of computational linguistics | |
KR101130444B1 (ko) | 기계번역기법을 이용한 유사문장 식별 시스템 | |
Cetto et al. | Graphene: Semantically-linked propositions in open information extraction | |
CN108681574A (zh) | 一种基于文本摘要的非事实类问答答案选择方法及系统 | |
CN114528919A (zh) | 自然语言处理方法、装置及计算机设备 | |
CN108460150A (zh) | 新闻标题的处理方法及装置 | |
Sheshikala et al. | Natural language processing and machine learning classifier used for detecting the author of the sentence | |
CN108763211A (zh) | 融合蕴含知识的自动文摘方法及系统 | |
Liu et al. | Semantic role labeling for news tweets | |
Basili et al. | A shallow syntactic analyser to extract word associations from corpora | |
CN108363700A (zh) | 新闻标题的质量评估方法及装置 | |
CN111191413B (zh) | 一种基于图排序模型的事件核心内容自动标记方法、装置及系统 | |
Màrquez et al. | A robust combination strategy for semantic role labeling | |
Yaari et al. | The aligned multimodal movie treebank: An audio, video, dependency-parse treebank | |
CN115188376A (zh) | 一种个性化语音交互方法及系统 | |
KR100886687B1 (ko) | 중국어 미등록어 자동 추출 방법 및 장치 | |
Yarlott et al. | Learning a better motif index: Toward automated motif extraction | |
CN113869066A (zh) | 一种基于农业领域文本的语义理解方法及系统 | |
CN113742469A (zh) | 基于Pipeline处理和ES储存问答系统构建方法 | |
Kumar et al. | An Algorithm for Automatic Text Annotation for Named Entity Recognition using spaCy Framework | |
Jebbor et al. | Overview of knowledge extraction techniques in five question-answering systems | |
CN112507723A (zh) | 基于多模型融合的新闻情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |