CN103324612A - 一种分词的方法及装置 - Google Patents

一种分词的方法及装置 Download PDF

Info

Publication number
CN103324612A
CN103324612A CN2012100776140A CN201210077614A CN103324612A CN 103324612 A CN103324612 A CN 103324612A CN 2012100776140 A CN2012100776140 A CN 2012100776140A CN 201210077614 A CN201210077614 A CN 201210077614A CN 103324612 A CN103324612 A CN 103324612A
Authority
CN
China
Prior art keywords
word
ambiguity
fragment
segmenting
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100776140A
Other languages
English (en)
Other versions
CN103324612B (zh
Inventor
何径舟
王丽杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201210077614.0A priority Critical patent/CN103324612B/zh
Publication of CN103324612A publication Critical patent/CN103324612A/zh
Application granted granted Critical
Publication of CN103324612B publication Critical patent/CN103324612B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了一种分词的方法及装置,其中分词的方法包括:A.将输入词串作为待切分词串;B.以最大正向匹配的方法对待切分词串进行切分,并使用条件随机场的方法对待切分词串中以最大正向匹配的方法进行切分时存在歧义的片段进行矫正,以得到分词结果。通过上述方式,本发明可以很好地融合基于字符串分词方法与基于统计模型分词方法两者的优点,提高分词结果的准确性,保证分词的效率,增强分词效果的稳定性。

Description

一种分词的方法及装置
【技术领域】
本发明涉及自然语言处理技术,特别涉及一种分词的方法及装置。
【背景技术】
分词是自然语言处理的基础技术之一,是搜索引擎应用中非常关键的一步。在现有技术中,通常有两种分词方法,一种是基于字符串匹配的分词,一种是基于统计模型的分词。
基于字符串匹配的分词方法包括:正向最大匹配法、逆向最大匹配法、双向最大匹配法等。基于字符串匹配的分词方法依赖机器词典,其特点是分词时的效率较高,但是歧义的解决能力较低,分词结果准确性较差。
基于统计模型的分词方法包括:条件随机场模型、隐马尔科夫模型等。基于统计模型的分词方法利用统计机器学习模型学习词语切分的规律(称为训练),从而实现对未知文本的切分,其特点是可以充分利用构词法的特征,并且能够考虑全局优化信息,因此在歧义切分效果上较好,但是由于不依据机器词典,仅仅依据训练语料的信息,分词结果在粒度和一致性上都不够稳定,并且切分的效率较低,特别是待切分词串的长度越长,切分效率降低得越快。
【发明内容】
本发明所要解决的技术问题是提供一种分词的方法及装置,以解决现有技术中单一的分词方法所带来的分词结果准确性差或分词结果不稳定的技术缺陷。
本发明为解决技术问题而采用的技术方案是提供一种分词的方法,包括:A.将输入词串作为待切分词串;B.以最大正向匹配的方法对待切分词串进行切分,并使用条件随机场的方法对待切分词串中以最大正向匹配的方法进行切分时存在歧义的片段进行矫正,以得到分词结果。
根据本发明之一优选实施例,所述步骤B包括:B1.采用最大正向匹配的方法确定待切分词串中的首个切分词X;B2.判断X是否存在歧义,如果是,则执行步骤B3,否则执行步骤B4;B3.确定待切分词串中与X相关的歧义片段,并对所述歧义片段采用条件随机场的方法进行切分,得到所述歧义片段的各个切分词,根据所述歧义片段的各切分词确定所述歧义片段除最后一个切分词以外部分的最终划分,将所述最终划分加入分词结果,并将所述输入词串中尚未加入到分词结果的部分作为待切分词串,返回步骤B1;B4.将X加入分词结果,并将所述输入词串中尚未加入到分词结果的部分作为待切分词串,返回步骤B1。
根据本发明之一优选实施例,判断X是否存在歧义的步骤包括:采用最大正向匹配的方法对X进行切分,确定首个切分词Y;采用最大正向匹配的方法对待切分词串除Y以外的部分进行切分,确定首个切分词Z;判断Y与Z的长度之和是否大于X,如果是,则确定X存在歧义,执行步骤B3,否则确定X没有歧义,执行步骤B4。
根据本发明之一优选实施例,确定待切分词串中与X相关的歧义片段的步骤包括:采用最大正向匹配的方法对待切分词串除X以外的部分进行切分,确定首个切分词K;确定X与K的长度之和,以及,Y与Z的长度之和中的较大值,将较大值对应的片段作为与X相关的歧义片段。
根据本发明之一优选实施例,根据所述歧义片段的各切分词确定所述歧义片段除最后一个切分词以外部分的最终划分的步骤包括:判断所述歧义片段除最后一个切分词以外的各切分词是否与采用最大正向匹配方法时使用的机器词典中的词匹配,如果是,则将该切分词作为最终划分,否则采用最大正向匹配方法对该切分词进行切分,将切分结果作为该切分词的最终划分。
本发明还提供了一种分词的装置,包括:接收单元,用于将输入词串作为待切分词串;切分矫正单元,用于以最大正向匹配的方法对待切分词串进行切分,并使用条件随机场的方法对待切分词串中以最大正向匹配的方法切分时存在歧义的片段进行矫正,以得到分词结果。
根据本发明之一优选实施例,所述切分矫正单元包括:第一切分单元,用于采用最大正向匹配的方法确定待切分词串中的首个切分词X;判断单元,用于判断X是否存在歧义,如果是,则触发片段确定单元运行,否则触发第一添加单元运行;第一添加单元,用于将X加入分词结果,并将所述输入词串中尚未加入到分词结果的部分作为待切分词串,触发所述第一切分单元运行;片段确定单元,用于确定待切分词串中与X相关的歧义片段;第二切分单元,用于对所述歧义片段采用条件随机场的方法进行切分,得到所述歧义片段的各个切分词;验证单元,用于根据所述歧义片段的各切分词确定所述歧义片段除最后一个切分词以外部分的最终划分;第二添加单元,用于将所述最终划分加入分词结果,并将所述输入词串中尚未加入到分词结果的部分作为待切分词串,触发所述第一切分单元运行。
根据本发明之一优选实施例,所述判断单元包括:第一子切分单元,用于采用最大正向匹配的方法对X进行切分,确定首个切分词Y;第二子切分单元,用于采用最大正向匹配的方法对待切分词串除Y以外的部分进行切分,确定首个切分词Z;歧义确定单元,用于判断Y与Z的长度之和是否大于X,如果是,则确定X存在歧义,触发所述片段确定单元运行,否则确定X没有歧义,触发所述第一添加单元运行。
根据本发明之一优选实施例,所述片段确定单元包括:第三子切分单元,用于采用最大正向匹配的方法对待切分词串除X以外的部分进行切分,确定首个切分词K;比较单元,用于确定X与K的长度之和,以及,Y与Z的长度之和中的较大值,并将较大值对应的片段作为与X相关的歧义片段。
根据本发明之一优选实施例,所述验证单元包括:匹配单元,用于判断所述歧义片段除最后一个切分词以外的各切分词是否与采用最大正向匹配方法时使用的机器词典中的词匹配,如果是,则将该切分词作为最终划分,否则触发第四子切分单元运行;第四子切分单元,用于采用最大正向匹配方法对该切分词进行切分,将切分结果作为该切分词的最终划分。
由以上技术方案可以看出,通过将最大正向匹配的分词方法与条件随机场的分词方法相结合,对最大正向匹配方法中存在歧义的部分使用条件随机场的方法进行歧义消解,可以很好地融合基于字符串分词方法与基于统计模型分词方法两者的优点,与单纯使用基于字符串分词的方法相比,本发明能够提高分词结果的准确性,而与单纯使用基于统计模型的分词方法相比,本发明能够保证分词的效率,增强分词效果的稳定性。
【附图说明】
图1为本发明中分词的方法的流程示意图;
图2为本发明中分词的方法的实施例一的流程示意图;
图3为本发明中分词的方法的实施例二的流程示意图;
图4为本发明中分词的装置的结构示意框图;
图5为本发明中切分矫正单元的实施例的结构示意框图;
图6为本发明中判断单元的实施例的结构示意框图;
图7为本发明中片段确定单元的实施例的结构示意框图;
图8为本发明中验证单元的实施例的结构示意框图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
请参考图1,图1为本发明中分词的方法的流程示意图。如图1所示,该方法包括:
S101:将输入词串作为待切分词串。
S102:以最大正向匹配(Forward Maximum Matching,简称FMM)的方法对待切分词串进行切分,并使用条件随机场(Conditional Random Fields,简称CRF)的方法对待切分词串中以FMM方法进行切分时存在歧义的片段进行矫正,以得到分词结果。
下面通过具体的实施例对上述方法进行说明。
实施例一:
请参考图2,图2为本发明中分词的方法的实施例一的流程示意图。如图2所示,该实施例包括:
步骤S201:将输入词串作为待切分词串。
步骤S202:采用FMM的方法确定待切分词串中的首个切分词X。
FMM是基于字符串匹配的分词方法中的一种。该方法从左至右扫描待切分词串,将待切分词串中与机器词典中的词匹配的最长部分切分为一个词。例如机器词典中有:“中华人民共和国”、“中华”、“人民共和国”、“人民”、“共和国”、“北京西”、“北京”、“西安”、“安国”、“国际机场”、“国际”、“机场”等词语,则对待切分词串“中华人民共和国北京西安国际机场”而言,采用FMM方法得到的首个切分词X就是“中华人民共和国”(因为在机器词典中能匹配到的最长词条为“中华人民共和国”)。
步骤S203:判断X是否存在歧义,如果不是,则执行步骤S204,否则执行步骤S205。
具体地,步骤S203包括:
步骤S2031:采用最大正向匹配的方法对X进行切分,确定首个切分词Y。
步骤S2032:采用最大正向匹配的方法对待切分词串除Y以外的部分进行切分,确定首个切分词Z。
步骤S2033:判断Y与Z的长度之和是否大于X,如果是,则确定X存在歧义,否则确定X没有歧义。
仍以上面所举的例子进行介绍。采用FMM方法对X(中华人民共和国)进行切分,得到首个切分词Y为“中华”。这时,对待切分词串“中华人民共和国北京西安国际机场”而言,除掉词条Y的部分就是“人民共和国北京西安国际机场”,在步骤S2032中采用FMM方法对“人民共和国北京西安国际机场”进行切分得到的首个切分词Z为“人民共和国”。在步骤S2033中,由于比较Y(中华)与Z(人民共和国)的长度之和等于(不大于)X(中华人民共和国),所以X(中华人民共和国)没有歧义。由于X(中华人民共和国)不存在歧义,因此执行步骤S204。
步骤S204:将X加入到分词结果,并将输入词串中尚未加入到分词结果的部分作为待切分词串,返回步骤S202。
上例中X(中华人民共和国)不存在歧义,将其作为一个整体切出,加入到分词结果中,而输入词串(中华人民共和国北京西安国际机场)尚未加入到分词结果的部分就剩下“北京西安国际机场”,这部分被作为待切分词串,返回步骤S202进行切分,得到首个切分词X为“北京西”,在步骤S2031中对X(北京西)进行切分,得到首个切分词Y为“北京”,步骤S2032中对待切分词条“北京西安国际机场”除Y(北京)之外的部分(西安国际机场)进行切分,得到的首个切分词Z为“西安”,由于Y(北京)与Z(西安)的长度之和大于X(北京西),因此确定X(北京西)出现了歧义。由于X(北京西)有歧义,所以转向执行步骤S205。
步骤S205:确定待切分词串中与X相关的歧义片段。
具体地,步骤S205包括:
步骤S2051:采用最大正向匹配的方法对待切分词串除X以外的部分进行切分,确定首个切分词K。
步骤S2052:确定X与K的长度之和,以及,Y与Z的长度之和中的较大值,将较大值对应的片段作为与X相关的歧义片段。
仍然以上述的例子进行说明。待切分词串(北京西安国际机场)除X(北京西)以外的部分为“安国际机场”,步骤S2051采用FMM方法对“安国际机场”进行切分得到首个切分词K为“安国”,则X(北京西)与K(安国)的长度之和(北京西安国)比Y(北京)与Z(西安)的长度之和(北京西安)大,因此片段“北京西安国”就是与X(北京西)相关的歧义片段。
步骤S206:对步骤S2052中得到的歧义片段采用CRF的方法进行切分,得到歧义片段的各个切分词。
CRF分词方法的基本思路是对汉字进行标注即由字构词(组词),不仅考虑了文字词语出现的频率信息,同时考虑上下文语境,具备较好的学习能力。CRF把分词当做字的词位分类问题,通常定义字的词位信息如下:
词首,常用B表示
词中,常用M表示
词尾,常用E表示
单子词,常用S表示
CRF分词的过程就是对词位标注后,将B和E之间的字,以及S单字构成分词,例如对下列词串:我爱北京天安门,进行词位标注得到:我/S爱/S北/B京/E天/B安/M门/E,则分词的结果就是:我/爱/北京/天安门。采用CRF方法进行分词前需要先训练一个CRF分词模型,利用该CRF模型,就可以对一个待切分词串进行分词,由于训练CRF分词模型属于现有技术,本说明书在此不再做进一步介绍。
仍以前面所举例子进行说明。假设采用CRF方法对歧义片段(北京西安国)进行切分后得到的结果为北京/西安/国,则歧义片段的各个切分词就是北京、西安、国。
步骤S207:根据步骤S206得到的歧义片段的各切分词确定歧义片段除最后一个切分词以外部分的最终划分。
在一个实施例中,具体地,步骤S207包括:
判断歧义片段除最后一个切分词以外的各切分词是否与采用FMM方法时使用的机器词典中的词匹配,如果是,则将该切分词作为最终划分,否则采用FMM方法对该切分词进行切分,将切分结果作为该切分词的最终划分。
例如上述的歧义片段(北京西安国)除最后一个切分词(国)以外的切分词有“北京”和“西安”,由于“北京”和“西安”都与采用FMM方法时使用的机器词典中的词相匹配,所以“北京”和“西安”就是歧义片段中除了最后一个切分词(国)以外的最终划分。但是,如果在一个例子中,对歧义片段“贵州茅台酒厂出品”采用CRF切分后得到的切分词分别为“贵州茅台酒厂”、“出品”,而机器词典中的词只有“贵州”、“茅台”、“酒厂”、“出品”,由于CRF得到的切分词“贵州茅台酒厂”在机器词典中找不到与之匹配的词条,因此,在步骤S207中将采用FMM的方法对“贵州茅台酒厂”进行切分,可以分别得到“贵州茅台酒厂”这个切分词的最终划分为“贵州”、“茅台”和“酒厂”。
在另外的实施例中,步骤S207中也可以直接信任CRF的切分结果而将歧义片段除最后一个切分词以外的各切分词作为最终划分。即上述的例子中,直接将“贵州茅台酒厂”作为一个整体作为最终划分。
步骤S208:将步骤S207中得到的最终划分加入分词结果,并将输入词串中尚未加入到分词结果的部分作为待切分词串,返回步骤S202。
仍以上述输入词条(中华人民共和国北京西安国际机场)为例,至此,可以看出,“中华人民共和国/北京/西安”已经被放入分词结果,尚未加入到分词结果的部分为“国际机场”,步骤S208中将把“国际机场”作为待切分词串,并返回步骤S202,重复上述流程,直到对输入词条的所有部分切分完成。根据上述的说明,可以看出输入词条(中华人民共和国北京西安国际机场)最终的切分结果为:中华人民共和国/北京/西安/国际/机场。
实施例二:
请参考图3,图3为本发明中分词的方法的实施例二的流程示意图。如图3所示,该实施例包括:
步骤S301:将输入词串作为待切分词串;
步骤S302:以FMM的方法和CRF的方法分别对待切分词串进行切分,分别得到以FMM的方法切分时的切分结果及以CRF的方法进行切分时的切分结果。
步骤S303:将FMM的切分结果与CRF的切分结果进行比较,找出待切分词串中的差异片段。
步骤S304:根据预设的策略,从差异片段中确定歧义片段,并选择CRF的切分结果为歧义片段的最终切分结果,并保留除歧义片段之外的其他差异片段的FMM切分结果为该差异片段的最终切分结果。
在该实施例中,不像实施例一中那样对待切分词串中FMM的切分结果进行动态调整,即用FMM方法每切一个词就判断是否用CRF方法消除可能存在的歧义,而是对待切分词串,分别采用FMM方法与CRF方法对其进行单独的切分,得到FMM的切分结果与CRF的切分结果。
例如下面这个输入词串:“全球通胀”导致二本文科学校的李晓明买不起朝北大悦城的nokian97了,只好上淘宝网。
假设采用FMM方法对上述输入词串进行切分,得到的切分结果为:
“全球通/胀/”导致/二/本文/科学/校/的/李晓明/买不起/朝北/大悦城/的/nokian/97/了,只好/上/淘宝网。
采用CRF方法对上述输入词串进行切分,得到的切分结果为:
“全球/通胀/”导致/二本/文科/学校/的/李晓明/买/不起/朝/北大/悦城/的/nokia/n97/了,只好/上/淘宝网。
在得到FMM与CRF的切分结果以后,步骤S303中找出两者的差异片段,可以看出,在片段“全球通胀”、“二本文科学校”、“买不起”、“朝北大悦城”、“nokian97”处,FMM的切分结果与CRF的切分结果均不同。
步骤S304中预设的策略包括但不限于:
1、CRF的切分结果中的各个切分词均与机器词典中的词匹配的差异片段为歧义片段。
2、包含数量词或人名的差异片段为歧义片段。
3、包含英文的差异片段为歧义片段。
假设机器词典中有“全球”及“通胀”两个词,则差异片段“全球通胀”就符合预设的策略1,应该属于歧义片段。差异片段“二本文科学校”符合预设的策略2,应该属于歧义片段。“nokian97”符合预设的策略3,应该属于歧义片段。因此对上述的歧义片段取CRF的切分结果,所以对于输入词串:“全球通胀”导致二本文科学校的李晓明买不起朝北大悦城的nokian97了,只好上淘宝网,最终的切分结果为:“全球/通胀”导致/二本/文科/学校/的/李晓明/买不起/朝北/大悦城/的/nokia/n97/了,只好/上/淘宝网。
请参考图4,图4为本发明中分词的装置的结构示意框图。如图4所示,该装置包括:接收单元401及切分矫正单元402。
其中接收单元401,用于将输入词串作为待切分词串。切分矫正单元402,用于以FMM的方法对待切分词串进行切分,并使用CRF的方法对待切分词串中以FMM的方法进行切分时存在歧义的片段进行矫正,以得到分词结果。
请参考图5,图5为切分矫正单元的实施例的结构示意框图。如图5所示,切分矫正单元402包括:第一切分单元4021、判断单元4022、第一添加单元4023、片段确定单元4024、第二切分单元4025、验证单元4026及第二添加单元4027。
其中第一切分单元4021,用于采用FMM的方法确定待切分词串中的首个切分词X。
判断单元4022,用于判断X是否存在歧义,如果是,则触发片段确定单元4024运行,否则触发第一添加单元4023运行。
第一添加单元4023,用于将X加入分词结果,并将输入词串中尚未加入到分词结果的部分作为待切分词串,触发第一切分单元4021运行。
片段确定单元4024,用于确定待切分词串中与X相关的歧义片段。
第二切分单元4025,用于对歧义确定单元4024得到的歧义片段采用CRF的方法进行切分,得到歧义片段的各个切分词。
验证单元4026,用于根据第二切分单元4025得到的歧义片段的各切分词确定歧义片段除最后一个切分词以外部分的最终划分。
第二添加单元4027,用于将验证单元4026得到的最终划分加入分词结果,并将输入词串中尚未加入到分词结果的部分作为待切分词串,触发第一切分单元4021运行。
请参考图6,图6是本发明中判断单元的实施例的结构示意框图。如图6所示,判断单元4022包括:第一子切分单元4022_1、第二子切分单元4022_2及歧义确定单元4022_3。
其中第一子切分单元4022_1,用于采用FMM的方法对X进行切分,确定首个切分词Y。
第二子切分单元4022_2,用于采用FMM的方法对待切分词串中除Y以外的部分进行切分,确定首个切分词Z。
歧义确定单元4022_3,用于判断Y与Z的长度之和是否大于X,如果是,则确定X存在歧义,触发片段确定单元4024运行,否则确定X没有歧义,触发第一添加单元4023运行。
请参考图7,图7为本发明中片段确定单元的实施例的结构示意框图。如图7所示,片段确定单元4024包括:第三子切分单元4024_1及比较单元4024_2。
其中第三子切分单元4024_1,用于采用FMM的方法对待切分词串中除X以外的部分进行切分,确定首个切分词K。
比较单元4024_2,用于确定X与K的长度之和,以及,Y与Z的长度之和中的较大值,并将较大值对应的片段作为与X相关的歧义片段。
请参考图8,图8为本发明中验证单元的实施例的结构示意框图。如图8所示,验证单元4026包括:匹配单元4026_1及第四子切分单元4026_2。
其中匹配单元4026_1,用于判断歧义片段除最后一个切分词以外的各切分词是否与采用FMM方法时使用的机器词典中的词匹配,如果是,则将该切分词作为最终划分,否则触发第四子切分单元4026_2运行。
第四子切分单元4026_2,用于采用FMM的方法对该切分词进行切分,将切分结果作为该切分词的最终划分。
下面通过一个具体的实例说明上述分词装置的运行过程。
假设机器词典中的词有“中华人民共和国”、“中华”、“人民共和国”、“人民”、“共和国”、“北京西”、“北京”、“西安”、“安国”、“国际机场”、“国际”、“机场”。
接收单元401将输入词串W:中华人民共和国北京西安国际机场作为待切分词串。
第一切分单元4021采用FMM对W进行切分,得到首个切分词X:中华人民共和国。
第一子切分单元4022_1采用FMM的方法对X(中华人民共和国)进行切分,得到首个切分词Y:中华。
第二子切分单元4022_2采用FMM的方法对待切分词串(中华人民共和国北京西安国际机场)除Y(中华)以外的部分(人民共和国北京西安国际机场)进行切分,得到首个切分词Z:人民共和国。
因为Y(中华)与Z(人民共和国)的长度之和不大于X(中华人民共和国),因此歧义确定单元4022_3确定X没有歧义,触发第一添加单元4023运行。
第一添加单元4023将X(中华人民共和国)加入分词结果,并将输入词串(中华人们共和国北京西安国际机场)中尚未加入到分词结果的部分(北京西安国际机场)作为待切分词串,触发第一切分单元4021运行。
第一切分单元4021采用FMM方法对待切分词串(北京西安国际机场)进行切分,得到首个切分词X:北京西。
第一子切分单元4022_1采用FMM方法对X(北京西)进行切分,确定首个切分词Y:北京。
第二子切分单元4022_2采用FMM方法对待切分词串(北京西安国际机场)除Y(北京)以外的部分(西安国际机场)进行切分,确定首个切分词Z:西安。
由于Y(北京)与Z(西安)的长度大于X(北京西),因此歧义确定单元4022_3确定X(北京西)存在歧义,触发第三子切分单元4024_1运行。
第三子切分单元4024_1采用FMM的方法对待切分词串(北京西安国际机场)除X(北京西)以外的部分进行切分,确定首个切分词K:安国。
比较单元4024_2确定X(北京西)与K(安国)的长度之和大于Y(北京)与Z(西安),因此将片段“北京西安国”作为与X(北京西)相关的歧义片段。
第二切分单元4025对歧义片段(北京西安国)采用CRF的方法进行切分,得到歧义片段的各切分词:北京、西安、国。
匹配单元4026_1确定“北京”、“西安”均与机器词典中的词匹配,因此将“北京”、“西安”作为最终划分,由第二添加单元4027加入到分词结果,第二添加单元4027再将“国际机场”作为待切分词串,触发第一切分单元4021运行。重复上述相似的过程,“国际机场”最终被切分为“国际”和“机场”。
因此最终的输入词串A将被切分为“中华人民共和国/北京/西安/国际/机场”。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种分词的方法,包括:
A.将输入词串作为待切分词串;
B.以最大正向匹配的方法对待切分词串进行切分,并使用条件随机场的方法对待切分词串中以最大正向匹配的方法进行切分时存在歧义的片段进行矫正,以得到分词结果。
2.根据权利要求1所述的方法,其特征在于,所述步骤B包括:
B1.采用最大正向匹配的方法确定待切分词串中的首个切分词X;
B2.判断X是否存在歧义,如果是,则执行步骤B3,否则执行步骤B4;
B3.确定待切分词串中与X相关的歧义片段,并对所述歧义片段采用条件随机场的方法进行切分,得到所述歧义片段的各个切分词,根据所述歧义片段的各切分词确定所述歧义片段除最后一个切分词以外部分的最终划分,将所述最终划分加入分词结果,并将所述输入词串中尚未加入到分词结果的部分作为待切分词串,返回步骤B1;
B4.将X加入分词结果,并将所述输入词串中尚未加入到分词结果的部分作为待切分词串,返回步骤B1。
3.根据权利要求2所述的方法,其特征在于,判断X是否存在歧义的步骤包括:
采用最大正向匹配的方法对X进行切分,确定首个切分词Y;
采用最大正向匹配的方法对待切分词串除Y以外的部分进行切分,确定首个切分词Z;
判断Y与Z的长度之和是否大于X,如果是,则确定X存在歧义,执行步骤B3,否则确定X没有歧义,执行步骤B4。
4.根据权利要求3所述的方法,其特征在于,确定待切分词串中与X相关的歧义片段的步骤包括:
采用最大正向匹配的方法对待切分词串除X以外的部分进行切分,确定首个切分词K;
确定X与K的长度之和,以及,Y与Z的长度之和中的较大值,将较大值对应的片段作为与X相关的歧义片段。
5.根据权利要求2所述的方法,其特征在于,根据所述歧义片段的各切分词确定所述歧义片段除最后一个切分词以外部分的最终划分的步骤包括:
判断所述歧义片段除最后一个切分词以外的各切分词是否与采用最大正向匹配方法时使用的机器词典中的词匹配,如果是,则将该切分词作为最终划分,否则采用最大正向匹配方法对该切分词进行切分,将切分结果作为该切分词的最终划分。
6.一种分词的装置,其特征在于,所述装置包括:
接收单元,用于将输入词串作为待切分词串;
切分矫正单元,用于以最大正向匹配的方法对待切分词串进行切分,并使用条件随机场的方法对待切分词串中以最大正向匹配的方法切分时存在歧义的片段进行矫正,以得到分词结果。
7.根据权利要求6所述的装置,其特征在于,所述切分矫正单元包括:
第一切分单元,用于采用最大正向匹配的方法确定待切分词串中的首个切分词X;
判断单元,用于判断X是否存在歧义,如果是,则触发片段确定单元运行,否则触发第一添加单元运行;
第一添加单元,用于将X加入分词结果,并将所述输入词串中尚未加入到分词结果的部分作为待切分词串,触发所述第一切分单元运行;
片段确定单元,用于确定待切分词串中与X相关的歧义片段;
第二切分单元,用于对所述歧义片段采用条件随机场的方法进行切分,得到所述歧义片段的各个切分词;
验证单元,用于根据所述歧义片段的各切分词确定所述歧义片段除最后一个切分词以外部分的最终划分;
第二添加单元,用于将所述最终划分加入分词结果,并将所述输入词串中尚未加入到分词结果的部分作为待切分词串,触发所述第一切分单元运行。
8.根据权利要求7所述的装置,其特征在于,所述判断单元包括:
第一子切分单元,用于采用最大正向匹配的方法对X进行切分,确定首个切分词Y;
第二子切分单元,用于采用最大正向匹配的方法对待切分词串除Y以外的部分进行切分,确定首个切分词Z;
歧义确定单元,用于判断Y与Z的长度之和是否大于X,如果是,则确定X存在歧义,触发所述片段确定单元运行,否则确定X没有歧义,触发所述第一添加单元运行。
9.根据权利要求8所述的方法,其特征在于,所述片段确定单元包括:
第三子切分单元,用于采用最大正向匹配的方法对待切分词串除X以外的部分进行切分,确定首个切分词K;
比较单元,用于确定X与K的长度之和,以及,Y与Z的长度之和中的较大值,并将较大值对应的片段作为与X相关的歧义片段。
10.根据权利要求7所述的装置,其特征在于,所述验证单元包括:
匹配单元,用于判断所述歧义片段除最后一个切分词以外的各切分词是否与采用最大正向匹配方法时使用的机器词典中的词匹配,如果是,则将该切分词作为最终划分,否则触发第四子切分单元运行;
第四子切分单元,用于采用最大正向匹配方法对该切分词进行切分,将切分结果作为该切分词的最终划分。
CN201210077614.0A 2012-03-22 2012-03-22 一种分词的方法及装置 Active CN103324612B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210077614.0A CN103324612B (zh) 2012-03-22 2012-03-22 一种分词的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210077614.0A CN103324612B (zh) 2012-03-22 2012-03-22 一种分词的方法及装置

Publications (2)

Publication Number Publication Date
CN103324612A true CN103324612A (zh) 2013-09-25
CN103324612B CN103324612B (zh) 2016-06-29

Family

ID=49193362

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210077614.0A Active CN103324612B (zh) 2012-03-22 2012-03-22 一种分词的方法及装置

Country Status (1)

Country Link
CN (1) CN103324612B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105243055A (zh) * 2015-09-28 2016-01-13 北京橙鑫数据科技有限公司 基于多语言的分词方法和装置
CN105446955A (zh) * 2015-11-27 2016-03-30 贺惠新 一种自适应的分词方法
CN106250372A (zh) * 2016-08-17 2016-12-21 国网上海市电力公司 一种用于电力系统的中文电力数据文本挖掘方法
CN107608953A (zh) * 2017-07-25 2018-01-19 同济大学 一种基于不定长上下文的词向量生成方法
CN109284763A (zh) * 2017-07-19 2019-01-29 阿里巴巴集团控股有限公司 一种生成分词训练数据的方法和服务器
CN109859813A (zh) * 2019-01-30 2019-06-07 新华三大数据技术有限公司 一种实体修饰词识别方法及装置
CN110502630A (zh) * 2019-07-31 2019-11-26 北京字节跳动网络技术有限公司 信息处理方法及设备
US10691890B2 (en) 2016-04-12 2020-06-23 Huawei Technologies Co., Ltd. Word segmentation method and system for language text

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002269133A (ja) * 2001-03-08 2002-09-20 Just Syst Corp 検索語選択装置、検索語選択方法およびその方法をコンピュータに実行させるプログラム
CN101499058A (zh) * 2009-03-05 2009-08-05 北京理工大学 一种基于类型论的汉语分词方法
CN102063423A (zh) * 2009-11-16 2011-05-18 高德软件有限公司 一种消歧的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002269133A (ja) * 2001-03-08 2002-09-20 Just Syst Corp 検索語選択装置、検索語選択方法およびその方法をコンピュータに実行させるプログラム
CN101499058A (zh) * 2009-03-05 2009-08-05 北京理工大学 一种基于类型论的汉语分词方法
CN102063423A (zh) * 2009-11-16 2011-05-18 高德软件有限公司 一种消歧的方法和装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
JOHN LAFFERTY等: "Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data", 《PROC THE EIGHTEENTH INTERNATIONAL CONFERENCE ON MACHINE LEARNING》 *
刘健等: "一种快速的交集型歧义检测方法", 《计算机应用研究》 *
张硕果: "基于条件随机场模型的文本分类研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
张硕果: "基于条件随机场模型的文本分类研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 03, 15 March 2011 (2011-03-15), pages 11 - 31 *
王显芳等: "一种能够检测所有交叉歧义的汉语分词算法", 《电子学报》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105243055A (zh) * 2015-09-28 2016-01-13 北京橙鑫数据科技有限公司 基于多语言的分词方法和装置
CN105243055B (zh) * 2015-09-28 2018-07-31 北京橙鑫数据科技有限公司 基于多语言的分词方法和装置
CN105446955A (zh) * 2015-11-27 2016-03-30 贺惠新 一种自适应的分词方法
US10691890B2 (en) 2016-04-12 2020-06-23 Huawei Technologies Co., Ltd. Word segmentation method and system for language text
CN106250372A (zh) * 2016-08-17 2016-12-21 国网上海市电力公司 一种用于电力系统的中文电力数据文本挖掘方法
CN109284763A (zh) * 2017-07-19 2019-01-29 阿里巴巴集团控股有限公司 一种生成分词训练数据的方法和服务器
CN107608953A (zh) * 2017-07-25 2018-01-19 同济大学 一种基于不定长上下文的词向量生成方法
CN109859813A (zh) * 2019-01-30 2019-06-07 新华三大数据技术有限公司 一种实体修饰词识别方法及装置
CN109859813B (zh) * 2019-01-30 2020-11-10 新华三大数据技术有限公司 一种实体修饰词识别方法及装置
CN110502630A (zh) * 2019-07-31 2019-11-26 北京字节跳动网络技术有限公司 信息处理方法及设备
CN110502630B (zh) * 2019-07-31 2022-04-15 北京字节跳动网络技术有限公司 信息处理方法及设备

Also Published As

Publication number Publication date
CN103324612B (zh) 2016-06-29

Similar Documents

Publication Publication Date Title
CN103324612A (zh) 一种分词的方法及装置
US20200349175A1 (en) Address Search Method and Device
CN107193921B (zh) 面向搜索引擎的中英混合查询纠错的方法及系统
CN102360383B (zh) 一种面向文本的领域术语与术语关系抽取方法
CN102693279B (zh) 一种快速计算评论相似度的方法、装置及系统
CN106610951A (zh) 改进的基于语义分析的文本相似度求解算法
CN105224640A (zh) 一种提取观点的方法和设备
CN104143331B (zh) 一种添加标点的方法和系统
CN104750687A (zh) 改进双语语料库的方法及装置、机器翻译方法及装置
CN104951469B (zh) 优化语料库的方法和装置
CN102779135B (zh) 跨语言获取搜索资源的方法和装置及对应搜索方法和装置
CN109635297A (zh) 一种实体消歧方法、装置、计算机装置及计算机存储介质
CN101082909A (zh) 一种识别衍生词的中文分词方法及系统
CN103324626A (zh) 一种建立多粒度词典的方法、分词的方法及其装置
CN104360993A (zh) 一种从文本提取所需内容的方法
CN106528726A (zh) 基于关键词优化实现搜索引擎优化技术
CN103076894A (zh) 一种用于根据对象标识信息构建输入词条的方法与设备
CN105512109A (zh) 新词汇的发现方法及装置
CN105119910A (zh) 基于模板的在线社交网络垃圾信息实时检测方法
CN103092838B (zh) 一种获取英文词的方法及装置
CN107480128A (zh) 中文文本的分词方法及装置
CN102737017B (zh) 一种提取页面主题的方法和装置
CN102253983A (zh) 一种汉语高危词识别方法和系统
CN102521357A (zh) 一种利用自动机实现文本精确匹配的系统和方法
CN102999520B (zh) 一种搜索需求识别的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant