CN106484670B - 一种中文分词纠错方法、离线训练装置及在线处理装置 - Google Patents

一种中文分词纠错方法、离线训练装置及在线处理装置 Download PDF

Info

Publication number
CN106484670B
CN106484670B CN201510526686.2A CN201510526686A CN106484670B CN 106484670 B CN106484670 B CN 106484670B CN 201510526686 A CN201510526686 A CN 201510526686A CN 106484670 B CN106484670 B CN 106484670B
Authority
CN
China
Prior art keywords
word
error
bmes
label
correction rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510526686.2A
Other languages
English (en)
Other versions
CN106484670A (zh
Inventor
吴尉林
许欢庆
郭永福
陈沛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING ZHONGSOU CLOUD BUSINESS NETWORK TECHNOLOGY CO., LTD.
Original Assignee
Beijing Zhongsou Cloud Business Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongsou Cloud Business Network Technology Co Ltd filed Critical Beijing Zhongsou Cloud Business Network Technology Co Ltd
Priority to CN201510526686.2A priority Critical patent/CN106484670B/zh
Publication of CN106484670A publication Critical patent/CN106484670A/zh
Application granted granted Critical
Publication of CN106484670B publication Critical patent/CN106484670B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及一种中文分词纠错方法、离线训练装置及在线处理装置,方法包括:从语料库上自动训练得到分词纠错器,比较当前分词结果集与正确的分词结果集,对错误的分词结果进行统计,自动总结出纠错规则,并对每条纠错规则计算统计指标,过滤不可靠的纠错规则,这样不停迭代计算,不断发现新的纠错规则从而构建纠错规则库,再根据纠错规则库对在线句子进行分词纠错处理,本发明提供一种中文分词纠错方法、离线训练装置及在线处理装置能够通过构建纠错规则库有效的提高中文分词的精准性,同时能够不断适应新词出现的需求。

Description

一种中文分词纠错方法、离线训练装置及在线处理装置
技术领域
本发明涉及搜索技术领域,具体涉及一种中文分词纠错方法及装置。
背景技术
词是最小的能够独立活动的有意义的语言成分。不同于英文等印欧语系词语之间以空格分开,中文是以字为基本的书写单位,词语之间没有明显的区分标记。因此,中文文本处理的第一步就是要把中文句子按词的边界分割,即中文分词。很多中文信息处理相关的应用领域,例如,机器翻译、文本检索及搜索引擎、问答系统等,都需要先进行中文分词。因此,中文分词是中文信息处理的基础与关键。
目前,已有的中文分词方法包括多种类型,例如基于词典的机械分词、基于隐马尔科夫模型的分词、基于条件随机场地分词等。虽然近些年来在中文分词方面取得的进步较大,但是无论哪种中文分词方法都不可避免地会出现分词错误。特别地,在互联网的大环境下,各种新词和专业领域词汇层出不穷,提高了中文分词的难度。常见的分词错误主要包括:分词歧义消解错误,人名、地名等专有名词识别错误,未登录词识别错误等。这些分词错误对于后续的处理环节很不利。
发明内容
针对现有技术的不足,本发明提供一种中文分词纠错方法、离线训练装置及在线处理装置。本发明能够通过构建纠错规则库有效的提高中文分词的精准性,同时能够不断适应新词出现的需求。
本发明的目的是采用下述技术方案实现的:
一种中文分词纠错方法,其改进之处在于,所述方法包括:
(1)给定原始语料库及其对应的正确的分词结果集,采用BMES标签将所述正确的分词结果集转换为BMES形式,获取正确的分词语料库C;
(2)采用原始分词器对所述原始语料库进行分词,并采用BMES标签将所述原始语料库的分词结果转换为BMES形式,获取分词结果集Ci,i的初始值为0;
(3)将所述分词结果集Ci与所述正确的分词语料库C进行比较,根据滑动窗口长度n获取纠错规则集Ri,n为正整数,纠错规则包括:纠错规则的触发条件和纠错规则的纠错动作;
(4)统计所述纠错规则集Ri中每个纠错规则的使用频次、正确率和效用值;
(5)分别设定使用频次、正确率和效用值的阈值,过滤所述纠错规则集Ri中小于该阈值的纠错规则,并将过滤后的纠错规则集Ri加入到纠错规则库R中;
(6)根据过滤后的纠错规则集Ri对所述分词结果集Ci进行纠错处理,获取更新后的分词结果集Ci+1
(7)对所述更新后的分词结果集Ci+1迭代执行步骤(3)至步骤(6),直至所述更新后的分词结果集Ci+1中不存在纠错规则,训练完成,获取最终的纠错规则库R;
(8)在线获取原始分词器处理后的句子,并采用BMES标签将所述句子中的字转换为BMES形式;
(9)根据滑动窗口长度n依次获取所述句子中字以及字的左右邻接字,所述句子中字的左右邻接字共n-1个,并获取所述句子中字以及字的左右邻接字的BMES标签,将所述句子中字以及字的左右邻接字与所述句子中字以及字的左右邻接字的BMES标签进行组合,将组合形式作为所述纠错规则的触发条件匹配所述纠错规则库R中纠错规则,获取匹配后的纠错规则;
(10)选择效用值最高的匹配后的纠错规则对所述待处理句子中字进行纠错处理;
(11)对纠错处理后的句子中字的BMES标签进行合法性检查。
优选的,所述BMES标签包括:B表示词的开头字,M表示词的中间字,E表示词的结尾字,S表示独立成词字,F表示英文单词,N表示数字串。
优选的,所述步骤(3)中,将所述分词结果集Ci与所述正确的分词语料库C进行比较,根据滑动窗口长度n获取纠错规则集Ri,n为正整数,包括:
若字V在所述分词结果集Ci中和正确的分词语料库C中对应的BMES标签不同,则获取所述字V和所述字V的左右邻接字,并获取所述字V和所述字V的左右邻接字在所述分词结果集Ci中对应的BMES标签,将所述字V和所述字V的左右邻接字与所述字V和所述字V的左右邻接字在所述分词结果集Ci中的BMES标签进行组合,每条组合形式作为所述纠错规则的触发条件,每条组合形式对应的所述字V和所述字V修正后的BMES标签作为纠错规则的纠错动作,所述字V和所述字V的左右邻接字共n个。
优选的,所述步骤(4)中,统计所述纠错规则集Ri中每个纠错规则的使用频次、正确率和效用值,包括:
计算所述纠错规则集Ri中每个纠错规则的正确率p(r),公式为:
p(r)=g(r)/(g(r)+b(r)) (1)
式(1)中,r为第r个纠错规则,g(r)为应用第r个纠错规则后产生的正例,b(r)为应用第r个纠错规则后产生的反例;
计算纠错规则集Ri中每个纠错规则的效用值u(r),公式为:
u(r)=g(r)-b(r) (2)
式(2)中,g(r)为应用第r个纠错规则后产生的正例,b(r)为应用第r个纠错规则后产生的反例。
优选的,所述步骤(11)中,对纠错处理后的句子中字的BMES标签进行合法性检查,包括:
(11-1)当所述纠错处理后的句子中字的BMES标签为B时,左邻接字的BMES标签非B、E、F和N中的一个或右邻接字的BMES标签非M和E中的一个,则该字的BMES标签不合法;
(11-2)当所述纠错处理后的句子中字的BMES标签为M时,左邻接字的BMES标签非B或右邻接字的BMES标签非E,则该字的BMES标签不合法;
(11-3)当所述纠错处理后的句子中字的BMES标签为E时,左邻接字的BMES标签非B和M中的一个或右邻接字的BMES标签非B、S、N和F中的一个,则该字的BMES标签不合法;
(11-4)当所述纠错处理后的句子中字的BMES标签为S、N或F时,左邻接字的BMES标签非E、S、F和N中的一个或右邻接字的BMES标签非B、S、N和F中的一个,则该字的BMES标签不合法。
一种中文分词纠错离线训练装置,其改进之处在于,所述装置包括:
第一获取单元,用于给定原始语料库及其对应的正确的分词结果集,采用BMES标签将所述正确的分词结果集转换为BMES形式,获取正确的分词语料库C;
第二获取单元,用于采用原始分词器对所述原始语料库进行分词,并采用BMES标签将所述原始语料库的分词结果转换为BMES形式,获取分词结果集Ci,i的初始值为0;
第三获取单元,用于将所述分词结果集Ci与所述正确的分词语料库C进行比较,根据滑动窗口长度n获取纠错规则集Ri,n为正整数,纠错规则包括:纠错规则的触发条件和纠错规则的纠错动作;
统计单元,用于统计所述纠错规则集Ri中每个纠错规则的使用频次、正确率和效用值;
过滤单元,用于分别设定使用频次、正确率和效用值的阈值,过滤所述纠错规则集Ri中小于该阈值的纠错规则,并将过滤后的纠错规则集Ri加入到纠错规则库R中;;
处理单元,根据纠错规则集Ri对所述分词结果集Ci进行纠错处理,获取更新后的分词结果集Ci+1
优选的,所述BMES标签包括:B表示词的开头字,M表示词的中间字,E表示词的结尾字,S表示独立成词字,F表示英文单词,N表示数字串。
优选的,所述第三获取单元,包括:
第三获取子单元,用于若字V在所述分词结果集Ci中和正确的分词语料库C中对应的BMES标签不同,则获取所述字V和所述字V的左右邻接字,并获取所述字V和所述字V的左右邻接字在所述分词结果集Ci中对应的BMES标签,将所述字V和所述字V的左右邻接字与所述字V和所述字V的左右邻接字在所述分词结果集Ci中的BMES标签进行组合,每条组合形式作为所述纠错规则的触发条件,每条组合形式对应的所述字V和所述字V修正后的BMES标签作为纠错规则的纠错动作,所述字V和所述字V的左右邻接字共n个。
优选的,所述统计单元,包括:
第一统计子单元,用于计算所述纠错规则集Ri中每个纠错规则的正确率p(r),公式为:
p(r)=g(r)/(g(r)+b(r)) (1)
式(1)中,r为第r个纠错规则,g(r)为应用第r个纠错规则后产生的正例,b(r)为应用第r个纠错规则后产生的反例;
第二统计子单元,用于计算所述纠错规则集Ri中每个纠错规则的效用值u(r),公式为:
u(r)=g(r)-b(r) (2)
式(2)中,g(r)为应用第r个纠错规则后产生的正例,b(r)为应用第r个纠错规则后产生的反例。
一种中文分词纠错在线处理装置,其改进之处在于,所述装置包括:
第四获取单元,用于在线获取原始分词器处理后的句子,并采用BMES标签将所述句子中的字转换为BMES形式;
第五获取单元,用于根据滑动窗口长度n依次获取所述句子中字以及字的左右邻接字,所述句子中字的左右邻接字共n-1个,并获取所述句子中字以及字的左右邻接字的BMES标签,将所述句子中字以及字的左右邻接字与所述句子中字以及字的左右邻接字的BMES标签进行组合,将组合形式作为所述纠错规则的触发条件匹配所述纠错规则库R中纠错规则,获取匹配后的纠错规则;
选择单元,用于选择效用值最高的匹配后的纠错规则对所述待处理句子中字进行纠错处理;
检查单元,用于对纠错处理后的句子中字的BMES标签进行合法性检查。
优选的,所述检查单元,包括:
第一检查子单元,用于当所述纠错处理后的句子中字的BMES标签为B时,左邻接字的BMES标签非B、E、F和N中的一个或右邻接字的BMES标签非M和E中的一个,则该字的BMES标签不合法;
第二检查子单元,用于当所述纠错处理后的句子中字的BMES标签为M时,左邻接字的BMES标签非B或右邻接字的BMES标签非E,则该字的BMES标签不合法;
第三检查子单元,用于当所述纠错处理后的句子中字的BMES标签为E时,左邻接字的BMES标签非B和M中的一个或右邻接字的BMES标签非B、S、N和F中的一个,则该字的BMES标签不合法;
第四检查子单元,用于当所述纠错处理后的句子中字的BMES标签为S、N或F时,左邻接字的BMES标签非E、S、F和N中的一个或右邻接字的BMES标签非B、S、N和F中的一个,则该字的BMES标签不合法。
与最接近的现有技术相比,本发明具有的有益效果:
本发明提供的一种中文分词纠错方法、离线训练装置及在线处理装置,能够从语料库上自动训练得到分词纠错器,比较当前分词结果集与正确的分词结果集,对错误的分词结果进行统计,自动总结出纠错规则,并对每条纠错规则计算统计指标,过滤不可靠的纠错规则。这样不停迭代计算,不断发现新的纠错规则从而构建纠错规则库,再根据纠错规则库对在线句子进行分词纠错处理,避免了分词歧义消解,人名、地名等专有名词识别,未登录词识别等错误的出现,有效的提高了中文分词的精准性的同时还能够不断适应新词出现的需求;特别的,本发明提供的一种中文分词纠错方法、离线训练装置及在线处理装置可移植性强,能够把通用的分词器移植到给定领域。
附图说明
图1是本发明提供的一种中文分词纠错方法流程图;
图2是本发明提供的一种中文分词纠错离线训练装置示意图;
图3是本发明提供的一种中文分词纠错在线处理装置示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明提供了一种中文分词纠错方法及装置,如图1所示,包括:
(1)给定原始语料库及其对应的正确的分词结果集,采用BMES标签将所述正确的分词结果集转换为BMES形式,获取正确的分词语料库C;
(2)采用原始分词器对所述原始语料库进行分词,并采用BMES标签将所述原始语料库的分词结果转换为BMES形式,获取分词结果集Ci,i的初始值为0;
(3)将所述分词结果集Ci与所述正确的分词语料库C进行比较,根据滑动窗口长度n获取纠错规则集Ri,n为正整数,纠错规则包括:纠错规则的触发条件和纠错规则的纠错动作;
(4)统计所述纠错规则集Ri中每个纠错规则的使用频次、正确率和效用值;
(5)分别设定使用频次、正确率和效用值的阈值,过滤所述纠错规则集Ri中小于该阈值的纠错规则,并将过滤后的纠错规则集Ri加入到纠错规则库R中;
例如:出现频次小于5或者正确率小于阈值0.7或者效用值小于阈值5的规则,可以直接过滤掉,将剩余纠错规则加入至纠错规则库R中;
(6)根据过滤后的纠错规则集Ri对所述分词结果集Ci进行纠错处理,获取更新后的分词结果集Ci+1
(7)对所述更新后的分词结果集Ci+1迭代执行步骤(3)至步骤(6),直至所述更新后的分词结果集Ci+1中不存在纠错规则,训练完成,获取最终的纠错规则库R;
(8)在线获取原始分词器处理后的句子,并采用BMES标签将所述句子中的字转换为BMES形式;
(9)根据滑动窗口长度n依次获取所述句子中字以及字的左右邻接字,所述句子中字的左右邻接字共n-1个,并获取所述句子中字以及字的左右邻接字的BMES标签,将所述句子中字以及字的左右邻接字与所述句子中字以及字的左右邻接字的BMES标签进行组合,将组合形式作为所述纠错规则的触发条件匹配所述纠错规则库R中纠错规则,获取匹配后的纠错规则;
例如:滑动窗口长度n=5,在线获取原始分词器处理后的句子为“系统/集成/员/”,用BMES标签来表示为“系/B统/E集/B成/E员/S”,对于“集”字,其左右4个邻接字为“系统成员”,则将“系、统、集、成、员”及其对应的BMES标签“B、E、B、E、S”进行组合,再例如,组合形式为“系/B统/E集/B成/E员/S”,则将组合形式为“系/B统/E集/B成/E员/S”与纠错规则库R中纠错规则进行匹配,匹配到相应的纠错规则的纠错动作,根据匹配到的纠错动作对“集”字进行纠错处理;
(10)选择效用值最高的匹配后的纠错规则对所述待处理句子中字进行纠错处理;
(11)对纠错处理后的句子中字的BMES标签进行合法性检查。
其中,所述BMES标签包括:B表示词的开头字,M表示词的中间字,E表示词的结尾字,S表示独立成词字,F表示英文单词,N表示数字串。
例如:切分结果“系统/集成/员/”,用BMES标签来表示就是“系/B统/E集/B成/E员/S”。
所述步骤(3)中,将所述分词结果集Ci与所述正确的分词语料库C进行比较,根据滑动窗口长度n获取纠错规则集Ri,n为正整数,包括:
若字V在所述分词结果集Ci中和正确的分词语料库C中对应的BMES标签不同,则获取所述字V和所述字V的左右邻接字,并获取所述字V和所述字V的左右邻接字在所述分词结果集Ci中对应的BMES标签,将所述字V和所述字V的左右邻接字与所述字V和所述字V的左右邻接字在所述分词结果集Ci中的BMES标签进行组合,每条组合形式作为所述纠错规则的触发条件,每条组合形式对应的所述字V和所述字V修正后的BMES标签作为纠错规则的纠错动作,所述字V和所述字V的左右邻接字共n个。
例如:在分词结果集Ci中,系统集成员招聘”被错误地切分为“系统/集/成员/招聘/”,用BMES序列表示就是“系/B统/E集/S成/B员/E招/B聘/E”,而正确的切分结果是“系统/集成/员/招聘/”,用BMES序列表示就是“系/B统/E集/B成/E员/S招/B聘/E”;对于“集”字,可以抽取滑动窗口长度n=5的纠错规则:“系/B统/E集/S成/B员/E”=>“集/B”,其中,“系/B统/E集/S成/B员/E”表示纠错规则的触发条件,“集/B”表示纠错规则的纠错动作;同样地,分别对于“成”和“员”字,可以抽取两条纠错规则:“系/B统/E集/S成/B员/E”=>“成/E”和“系/B统/E集/S成/B员/E”=>“员/S”,同时应用这3条规则,则可将切词结果“系统/集/成员/招聘/”纠正为“系统/集成/员/招聘/”。
通常,一个字对应的纠错规则不止一条且可能存在很多噪音规则,因此需要评价指标来衡量候选规则的可靠性,所述步骤(4)中,统计所述纠错规则集Ri中每个纠错规则的使用频次、正确率和效用值,包括:
计算所述纠错规则集Ri中每个纠错规则的正确率p(r),公式为:
p(r)=g(r)/(g(r)+b(r)) (1)
式(1)中,r为第r个纠错规则,g(r)为应用第r个纠错规则后产生的正例,b(r)为应用第r个纠错规则后产生的反例;
计算纠错规则集Ri中每个纠错规则的效用值u(r),公式为:
u(r)=g(r)-b(r) (2)
式(2)中,g(r)为应用第r个纠错规则后产生的正例,b(r)为应用第r个纠错规则后产生的反例。
为了避免纠错器本身犯错误,可以对纠错后的结果进行合法性检查,所述步骤(11)中,对纠错处理后的句子中字的BMES标签进行合法性检查,包括:
(11-1)当所述纠错处理后的句子中字的BMES标签为B时,左邻接字的BMES标签非B、E、F和N中的一个或右邻接字的BMES标签非M和E中的一个,则该字的BMES标签不合法;
(11-2)当所述纠错处理后的句子中字的BMES标签为M时,左邻接字的BMES标签非B或右邻接字的BMES标签非E,则该字的BMES标签不合法;
(11-3)当所述纠错处理后的句子中字的BMES标签为E时,左邻接字的BMES标签非B和M中的一个或右邻接字的BMES标签非B、S、N和F中的一个,则该字的BMES标签不合法;
(11-4)当所述纠错处理后的句子中字的BMES标签为S、N或F时,左邻接字的BMES标签非E、S、F和N中的一个或右邻接字的BMES标签非B、S、N和F中的一个,则该字的BMES标签不合法。
如果字的BMES标签不合法,则恢复原始的分词结果。
一种中文分词纠错离线训练装置,如图2所示,所述装置包括:
第一获取单元,用于给定原始语料库及其对应的正确的分词结果集,采用BMES标签将所述正确的分词结果集转换为BMES形式,获取正确的分词语料库C;
第二获取单元,用于采用原始分词器对所述原始语料库进行分词,并采用BMES标签将所述原始语料库的分词结果转换为BMES形式,获取分词结果集Ci,i的初始值为0;
第三获取单元,用于将所述分词结果集Ci与所述正确的分词语料库C进行比较,根据滑动窗口长度n获取纠错规则集Ri,n为正整数,纠错规则包括:纠错规则的触发条件和纠错规则的纠错动作;
统计单元,用于统计所述纠错规则集Ri中每个纠错规则的使用频次、正确率和效用值;
过滤单元,用于分别设定使用频次、正确率和效用值的阈值,过滤所述纠错规则集Ri中小于该阈值的纠错规则,并将过滤后的纠错规则集Ri加入到纠错规则库R中;;
处理单元,根据纠错规则集Ri对所述分词结果集Ci进行纠错处理,获取更新后的分词结果集Ci+1
所述BMES标签包括:B表示词的开头字,M表示词的中间字,E表示词的结尾字,S表示独立成词字,F表示英文单词,N表示数字串。
具体的,所述第三获取单元,包括:
第三获取子单元,用于若字V在所述分词结果集Ci中和正确的分词语料库C中对应的BMES标签不同,则获取所述字V和所述字V的左右邻接字,并获取所述字V和所述字V的左右邻接字在所述分词结果集Ci中对应的BMES标签,将所述字V和所述字V的左右邻接字与所述字V和所述字V的左右邻接字在所述分词结果集Ci中的BMES标签进行组合,每条组合形式作为所述纠错规则的触发条件,每条组合形式对应的所述字V和所述字V修正后的BMES标签作为纠错规则的纠错动作,所述字V和所述字V的左右邻接字共n个。
所述统计单元,包括:
第一统计子单元,用于计算所述纠错规则集Ri中每个纠错规则的正确率p(r),公式为:
p(r)=g(r)/(g(r)+b(r)) (1)
式(1)中,r为第r个纠错规则,g(r)为应用第r个纠错规则后产生的正例,b(r)为应用第r个纠错规则后产生的反例;
第二统计子单元,用于计算所述纠错规则集Ri中每个纠错规则的效用值u(r),公式为:
u(r)=g(r)-b(r) (2)
式(2)中,g(r)为应用第r个纠错规则后产生的正例,b(r)为应用第r个纠错规则后产生的反例。
一种中文分词纠错在线处理装置,如图3所示,所述装置包括:
第四获取单元,用于在线获取原始分词器处理后的句子,并采用BMES标签将所述句子中的字转换为BMES形式;
第五获取单元,用于根据滑动窗口长度n依次获取所述句子中字以及字的左右邻接字,所述句子中字的左右邻接字共n-1个,并获取所述句子中字以及字的左右邻接字的BMES标签,将所述句子中字以及字的左右邻接字与所述句子中字以及字的左右邻接字的BMES标签进行组合,将组合形式作为所述纠错规则的触发条件匹配所述纠错规则库R中纠错规则,获取匹配后的纠错规则;
选择单元,用于选择效用值最高的匹配后的纠错规则对所述待处理句子中字进行纠错处理;
检查单元,用于对纠错处理后的句子中字的BMES标签进行合法性检查。
具体的,所述检查单元,包括:
第一检查子单元,用于当所述纠错处理后的句子中字的BMES标签为B时,左邻接字的BMES标签非B、E、F和N中的一个或右邻接字的BMES标签非M和E中的一个,则该字的BMES标签不合法;
第二检查子单元,用于当所述纠错处理后的句子中字的BMES标签为M时,左邻接字的BMES标签非B或右邻接字的BMES标签非E,则该字的BMES标签不合法;
第三检查子单元,用于当所述纠错处理后的句子中字的BMES标签为E时,左邻接字的BMES标签非B和M中的一个或右邻接字的BMES标签非B、S、N和F中的一个,则该字的BMES标签不合法;
第四检查子单元,用于当所述纠错处理后的句子中字的BMES标签为S、N或F时,左邻接字的BMES标签非E、S、F和N中的一个或右邻接字的BMES标签非B、S、N和F中的一个,则该字的BMES标签不合法。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.一种中文分词纠错方法,其特征在于,所述方法包括:
(1)给定原始语料库及其对应的正确的分词结果集,采用BMES标签将所述正确的分词结果集转换为BMES形式,获取正确的分词语料库C,所述BMES标签包括:B表示词的开头字,M表示词的中间字,E表示词的结尾字,S表示独立成词字,F表示英文单词,N表示数字串;
(2)采用原始分词器对所述原始语料库进行分词,并采用BMES标签将所述原始语料库的分词结果转换为BMES形式,获取分词结果集Ci,i的初始值为0;
(3)将所述分词结果集Ci与所述正确的分词语料库C进行比较,根据滑动窗口长度n获取纠错规则集Ri,n为正整数,纠错规则包括:纠错规则的触发条件和纠错规则的纠错动作;
(4)统计所述纠错规则集Ri中每个纠错规则的使用频次、正确率和效用值;
(5)分别设定使用频次、正确率和效用值的阈值,过滤所述纠错规则集Ri中小于该阈值的纠错规则,并将过滤后的纠错规则集Ri加入到纠错规则库R中,其中,所述使用频次的阈值至少大于5,正确率和效用值的阈值取0.5至1之间;
(6)根据过滤后的纠错规则集Ri对所述分词结果集Ci进行纠错处理,获取更新后的分词结果集Ci+1
(7)对所述更新后的分词结果集Ci+1迭代执行步骤(3)至步骤(6),直至所述更新后的分词结果集Ci+1中不存在纠错规则,训练完成,获取最终的纠错规则库R;
(8)在线获取原始分词器处理后的句子,并采用BMES标签将所述句子中的字转换为BMES形式;
(9)根据滑动窗口长度n依次获取所述句子中字以及字的左右邻接字,所述句子中字的左右邻接字共n-1个,并获取所述句子中字以及字的左右邻接字的BMES标签,将所述句子中字以及字的左右邻接字与所述句子中字以及字的左右邻接字的BMES标签进行组合,将组合形式作为所述纠错规则的触发条件匹配所述纠错规则库R中纠错规则,获取匹配后的纠错规则;
(10)选择效用值最高的匹配后的纠错规则对待处理句子中字进行纠错处理;
(11)对纠错处理后的句子中字的BMES标签进行合法性检查。
2.如权利要求1所述的方法,其特征在于,所述步骤(3)包括:
若字V在所述分词结果集Ci中和正确的分词语料库C中对应的BMES标签不同,则获取所述字V和所述字V的左右邻接字,并获取所述字V和所述字V的左右邻接字在所述分词结果集Ci中对应的BMES标签,将所述字V和所述字V的左右邻接字与所述字V和所述字V的左右邻接字在所述分词结果集Ci中的BMES标签进行组合,每条组合形式作为所述纠错规则的触发条件,每条组合形式对应的所述字V和所述字V修正后的BMES标签作为纠错规则的纠错动作,所述字V和所述字V的左右邻接字共n个。
3.如权利要求1所述的方法,其特征在于,所述步骤(4)包括:
计算所述纠错规则集Ri中每个纠错规则的正确率p(r),公式为:
p(r)=g(r)/(g(r)+b(r)) (1)
式(1)中,r为第r个纠错规则,g(r)为应用第r个纠错规则后产生的正例,b(r)为应用第r个纠错规则后产生的反例;
计算纠错规则集Ri中每个纠错规则的效用值u(r),公式为:
u(r)=g(r)-b(r) (2)
式(2)中,g(r)为应用第r个纠错规则后产生的正例,b(r)为应用第r个纠错规则后产生的反例。
4.如权利要求1所述的方法,其特征在于,所述步骤(11)包括:
(11-1)当所述纠错处理后的句子中字的BMES标签为B时,左邻接字的BMES标签非B、E、F和N中的一个或右邻接字的BMES标签非M和E中的一个,则该字的BMES标签不合法;
(11-2)当所述纠错处理后的句子中字的BMES标签为M时,左邻接字的BMES标签非B或右邻接字的BMES标签非E,则该字的BMES标签不合法;
(11-3)当所述纠错处理后的句子中字的BMES标签为E时,左邻接字的BMES标签非B和M中的一个或右邻接字的BMES标签非B、S、N和F中的一个,则该字的BMES标签不合法;
(11-4)当所述纠错处理后的句子中字的BMES标签为S、N或F时,左邻接字的BMES标签非E、S、F和N中的一个或右邻接字的BMES标签非B、S、N和F中的一个,则该字的BMES标签不合法。
5.一种中文分词纠错离线训练装置,其特征在于,所述装置包括:
第一获取单元,用于给定原始语料库及其对应的正确的分词结果集,采用BMES标签将所述正确的分词结果集转换为BMES形式,获取正确的分词语料库C;
第二获取单元,用于采用原始分词器对所述原始语料库进行分词,并采用BMES标签将所述原始语料库的分词结果转换为BMES形式,获取分词结果集Ci,i的初始值为0;
第三获取单元,用于将所述分词结果集Ci与所述正确的分词语料库C进行比较,根据滑动窗口长度n获取纠错规则集Ri,n为正整数,纠错规则包括:纠错规则的触发条件和纠错规则的纠错动作;
统计单元,用于统计所述纠错规则集Ri中每个纠错规则的使用频次、正确率和效用值;
过滤单元,用于分别设定使用频次、正确率和效用值的阈值,过滤所述纠错规则集Ri中小于该阈值的纠错规则,并将过滤后的纠错规则集Ri加入到纠错规则库R中;
处理单元,根据纠错规则集Ri对所述分词结果集Ci进行纠错处理,获取更新后的分词结果集Ci+1
所述第一获取单元、第二获取单元、第三获取单元、统计单元、过滤单元和处理单元依次连接。
6.如权利要求5所述的装置,其特征在于,所述BMES标签包括:B表示词的开头字,M表示词的中间字,E表示词的结尾字,S表示独立成词字,F表示英文单词,N表示数字串。
7.如权利要求5所述的装置,其特征在于,所述第三获取单元,包括:
第三获取子单元,用于若字V在所述分词结果集Ci中和正确的分词语料库C中对应的BMES标签不同,则获取所述字V和所述字V的左右邻接字,并获取所述字V和所述字V的左右邻接字在所述分词结果集Ci中对应的BMES标签,将所述字V和所述字V的左右邻接字与所述字V和所述字V的左右邻接字在所述分词结果集Ci中的BMES标签进行组合,每条组合形式作为所述纠错规则的触发条件,每条组合形式对应的所述字V和所述字V修正后的BMES标签作为纠错规则的纠错动作,所述字V和所述字V的左右邻接字共n个。
8.如权利要求5所述的装置,其特征在于,所述统计单元,包括:
第一统计子单元,用于计算所述纠错规则集Ri中每个纠错规则的正确率p(r),公式为:
p(r)=g(r)/(g(r)+b(r)) (1)
式(1)中,r为第r个纠错规则,g(r)为应用第r个纠错规则后产生的正例,b(r)为应用第r个纠错规则后产生的反例;
第二统计子单元,用于计算所述纠错规则集Ri中每个纠错规则的效用值u(r),公式为:
u(r)=g(r)-b(r) (2)
式(2)中,g(r)为应用第r个纠错规则后产生的正例,b(r)为应用第r个纠错规则后产生的反例。
9.一种与权利要求5所述的中文分词纠错离线训练装置配合使用的中文分词纠错在线处理装置,其特征在于,所述装置包括:
第四获取单元,用于在线获取原始分词器处理后的句子,并采用BMES标签将所述句子中的字转换为BMES形式;
第五获取单元,用于根据滑动窗口长度n依次获取所述句子中字以及字的左右邻接字,所述句子中字的左右邻接字共n-1个,并获取所述句子中字以及字的左右邻接字的BMES标签,将所述句子中字以及字的左右邻接字与所述句子中字以及字的左右邻接字的BMES标签进行组合,将组合形式作为所述纠错规则的触发条件匹配所述纠错规则库R中纠错规则,获取匹配后的纠错规则;
选择单元,用于选择效用值最高的匹配后的纠错规则对待处理句子中字进行纠错处理;
检查单元,用于对纠错处理后的句子中字的BMES标签进行合法性检查;
所述第四获取单元、第五获取单元、选择单元和检查单元依次连接。
10.如权利要求9所述的装置,其特征在于,所述检查单元,包括:
第一检查子单元,用于当所述纠错处理后的句子中字的BMES标签为B时,左邻接字的BMES标签非B、E、F和N中的一个或右邻接字的BMES标签非M和E中的一个,则该字的BMES标签不合法;
第二检查子单元,用于当所述纠错处理后的句子中字的BMES标签为M时,左邻接字的BMES标签非B或右邻接字的BMES标签非E,则该字的BMES标签不合法;
第三检查子单元,用于当所述纠错处理后的句子中字的BMES标签为E时,左邻接字的BMES标签非B和M中的一个或右邻接字的BMES标签非B、S、N和F中的一个,则该字的BMES标签不合法;
第四检查子单元,用于当所述纠错处理后的句子中字的BMES标签为S、N或F时,左邻接字的BMES标签非E、S、F和N中的一个或右邻接字的BMES标签非B、S、N和F中的一个,则该字的BMES标签不合法。
CN201510526686.2A 2015-08-25 2015-08-25 一种中文分词纠错方法、离线训练装置及在线处理装置 Active CN106484670B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510526686.2A CN106484670B (zh) 2015-08-25 2015-08-25 一种中文分词纠错方法、离线训练装置及在线处理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510526686.2A CN106484670B (zh) 2015-08-25 2015-08-25 一种中文分词纠错方法、离线训练装置及在线处理装置

Publications (2)

Publication Number Publication Date
CN106484670A CN106484670A (zh) 2017-03-08
CN106484670B true CN106484670B (zh) 2018-12-25

Family

ID=58233175

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510526686.2A Active CN106484670B (zh) 2015-08-25 2015-08-25 一种中文分词纠错方法、离线训练装置及在线处理装置

Country Status (1)

Country Link
CN (1) CN106484670B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291692B (zh) * 2017-06-14 2020-12-18 北京百度网讯科技有限公司 基于人工智能的分词模型的定制方法、装置、设备和介质
CN111368506B (zh) * 2018-12-24 2023-04-28 阿里巴巴集团控股有限公司 文本处理方法及装置
CN110222182B (zh) * 2019-06-06 2022-12-27 腾讯科技(深圳)有限公司 一种语句分类方法及相关设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101295295A (zh) * 2008-06-13 2008-10-29 中国科学院计算技术研究所 基于线性模型的汉语词法分析方法
CN103914444A (zh) * 2012-12-29 2014-07-09 高德软件有限公司 一种纠错方法及其装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101295295A (zh) * 2008-06-13 2008-10-29 中国科学院计算技术研究所 基于线性模型的汉语词法分析方法
CN103914444A (zh) * 2012-12-29 2014-07-09 高德软件有限公司 一种纠错方法及其装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Unified Character-Based Tagging Framework for Chinese Word Segmentation;HAI ZHAO et al.;《ACM Transactions on Asian Language Information Processing》;20100630;第9卷(第2期);全文 *
Deep Learning for ChineseWord Segmentation and POS Tagging;Xiaoqing Zheng et al.;《Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing》;20131021;全文 *
Improving Chinese Word Segmentation and POS Tagging with Semi-supervised Methods Using Large Auto-Analyzed Data;Yiou Wang et al.;《Proceedings of the 5th International Joint Conference on Natural Language Processing》;20111113;全文 *

Also Published As

Publication number Publication date
CN106484670A (zh) 2017-03-08

Similar Documents

Publication Publication Date Title
CN104572622B (zh) 一种术语的筛选方法
CN106257455B (zh) 一种基于依存关系模板抽取观点评价对象的Bootstrapping方法
CN104462057B (zh) 用于产生语言分析的词汇资源的方法和系统
CN110032649B (zh) 一种中医文献的实体间关系抽取方法及装置
CN104268160A (zh) 一种基于领域词典和语义角色的评价对象抽取方法
CN110276071A (zh) 一种文本匹配方法、装置、计算机设备及存储介质
CN106484670B (zh) 一种中文分词纠错方法、离线训练装置及在线处理装置
CN101685441A (zh) 一种基于非连续短语的泛化重排序统计翻译方法及装置
He et al. Multi-style adaptive training for robust cross-lingual spoken language understanding
CN110096705B (zh) 一种无监督的英文句子自动简化算法
JP6427466B2 (ja) 同義語ペア獲得装置、方法、及びプログラム
KR20160056983A (ko) 미등록어 자동 추출에 기반한 형태소 사전 구축 시스템 및 방법
CN112633012A (zh) 一种基于实体类型匹配的未登录词替换方法
Shrestha et al. Using a Variety of n-Grams for the Detection of Different Kinds of Plagiarism
Vilar et al. A statistical extension of byte-pair encoding
Alzahrani Arabic plagiarism detection using word correlation in N-Grams with K-overlapping approach
CN110929022A (zh) 一种文本摘要生成方法及系统
CN109614493A (zh) 一种基于监督词向量的文本缩写识别方法及系统
CN106484672A (zh) 词汇识别方法和词汇识别系统
KR102170844B1 (ko) 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템
Torunoglu-Selamet et al. Exploring spelling correction approaches for turkish
CN111488448B (zh) 一种机器阅读标注数据的生成方法和装置
Lepage et al. A measure of the number of true analogies between chunks in japanese
Ficek et al. How to tackle an emerging topic? Combining strong and weak labels for Covid news NER
CN111046665A (zh) 一种领域术语语义漂移抽取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20170428

Address after: 100086 Beijing, Haidian District, North Third Ring Road West, No. 43, building 5, floor 08-09, No. 2

Applicant after: BEIJING ZHONGSOU CLOUD BUSINESS NETWORK TECHNOLOGY CO., LTD.

Address before: Shou Heng Technology Building No. 51 Beijing 100191 Haidian District Xueyuan Road room 0902

Applicant before: Beijing Zhongsou Network Technology Co,Ltd

GR01 Patent grant
GR01 Patent grant