CN108062305A

CN108062305A - 一种基于迭代的三步式无监督中文分词方法

Info

Publication number: CN108062305A
Application number: CN201711477226.0A
Authority: CN
Inventors: 袁武; 袁文
Original assignee: Beijing Space-Time Rapid Technology Co Ltd
Current assignee: Beijing Space-Time Rapid Technology Co Ltd
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2018-05-22
Anticipated expiration: 2037-12-29
Also published as: CN108062305B

Abstract

一种基于迭代的三步式无监督中文分词方法，属于自然语言处理技术领域。基本思想是：是一种由局部切分、全局选词、语料消减迭代执行的无监督分词框架；每轮迭代中，先利用基于切分‑上下文相互独立度的成词概率模型，对文本语料进行局部最优的无监督切分，形式简单而有效；针对长尾现象，采用文档级脉冲式加权方法；再根据全局支持度，筛选新词，增量生成词典；最后基于词典最长匹配和概率最大原则分割文本，滤除成词切分，把连续的非词切分拼接起来，重构为规模消减的训练语料，对剩余语料进行类似的迭代处理，直至无新词产生。本发明优于现存性能最好的中文无监督分词算法。

Description

一种基于迭代的三步式无监督中文分词方法

技术领域

本发明涉及一种基于迭代的三步式无监督中文分词方法，属于人工智能、机器学习以及自然语言处理技术领域。

背景技术

各种自然语言处理任务，包括信息检索、机器翻译、文本理解与挖掘等，都是以词语为基本单位进行的。中文文本由连续字符序列组成，句内词语之间无界符分隔。因此，对中文的自然语言处理，首先要分词，即把连续字符序列分割成词序列，然后进行语法解析、语义理解和语用分析等处理。

现存的分词算法大体可分为有监督方法和无监督方法。有监督分词，是对标注语料进行有监督学习，训练出各种语言学及领域先验知识，用于指导文本的切分。词典是先验知识的载体，在有监督方法中居于核心地位。而无监督方法根据待切分文本自身特性进行分词处理，无需额外的其他先验知识。

一般而言，有监督方法的分词准确度要高于无监督方法。但是，有监督方法依赖于人工标注的语料。而人工标注是一个劳动密集型的知识处理过程，构建一份高质量的训练语料，需要标注人员掌握足够丰富的语言学及领域知识。现实中，由于高水平专家的匮乏，加之人力成本高，人工标注的规模一般较小，在筛选语料时，通常以满足应用领域的特定需求为要，难于兼顾其他领域。如此构建出的词典，领域适应性较差，不同的应用领域需要使用不同的词典；词典的可扩展性也较差，难于检测和识别训练语料中未曾出现的未登录词或新词。

虽然，无监督分词的准确性远逊于有监督方法，但是，无监督方法不依赖于标注语料，可以快速适应各种缺乏先验知识的应用场景，从无标注的陌生语料学习各种先验知识。在工程实践中，常常把无监督方法和有监督方法结合起来，利用无监督方法学习先验知识，以减少有监督方法构建词典时人工标注的工作量，提高词典生成效率，从而改善有监督方法的领域适应性和可扩展性。无监督分词的这个特点，在千金难觅一份堪用、够用的标注语料，更遑论高质量的现实条件下，弥为珍贵。特别是在泛在网络，数据规模巨大，更新频繁，人工标注完全无能为力的情况下，利用无监督分词方法，以海量的开放文本为训练集，构建自适应的通用型词典，是大数据条件下自然语言处理的必由之路。

经过相关领域学者的长期努力，无监督分词技术研究已经取得很大的进展。无监督分词的基本方法，是根据字符之间、词与字符上下文之间、词之间的分布规律，进行文本切分。根据切分方法的不同，现存的无监督分词算法，大致可分为：基于字符离合度的方法，基于词与上下文离合度的方法，基于词n-gram的方法，以及各种混合算法。基于字符离合度的方法，基于词与上下文离合度的方法，统归于构造离合度特征函数的方法。

基于字符离合度的方法，使用互信息(Mutual Information，MI)等统计指标，评估相邻字符之间的分离/聚合度。基于词与上下文离合度的基本方法，使用邻接变位数(Accessor Variety,AV)或边界熵(Boundary Entropy,BE)等统计指标，评估候选词相对于字符上下文的分离/聚合度。在计算词边界时，可以根据离合度局部统计值与经验阈值的比较结果，直接判断是否为词边界，这种方式比较简单，但是没有考虑全局信息；也可以引入最小描述长度(Minimum Description Length)、排名机制或归一化等，根据候选词的全局统计特征，进行全局优化。

基于词n-gram的方法，主要利用Dirichlet Process(DP)、HierarchicalDirichlet Process(HDP)以及Nested Hierarchical Pitman-Yor Process(NPY)等非参贝叶斯方法，把语言学先验知识引入到词n-gram概率模型中，通过概率最大化实现文本切分。Mochitashi等在Bayesian unsupervised word segmentation with nested Pitman-Yorlanguage modeling(in Proceedings of the Joint Conference of the 47th AnnualMeeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP,page 100-108,2009)中把字符级n-gram模型嵌入到词级n-gram概率模型，利用词内部字符结构信息，改善分词效果。

基于单一方法改进分词效率的空间比较有限。多种方法混合使用，是改进无监督分词效率的另一条途径。典型的方法是先利用边界熵切分文本，再按照最小描述长度准则，对初分结果进行筛选。此外，Johnson等在Improving nonparametric Bayesianinference:experiments on unsupervised word segmentation with adaptorgrammars(in Proceedings of Human Language Technologies:The 2009 Annual Conference ofthe North American Chapter of the Association for Computational Linguistics,pages 317–325,2009)中把语言相关的适配器文法(Adaptor Grammars, AG)，引入到层次化贝叶斯学习框架中，在针对英语发音数据的分词中取得较好效果。但是，该方法依赖于文法的先验知识，需要针对不同的语言设计不同的文法规则，采样过程较慢，收敛时间较长。Berg-Kirkpatrick等在Painless Unsupervised Learning with Features(inProceeding HLT'10 Human Language Technologies:The 2010 Annual Conference ofthe North American Chapter of the Association for Computational Linguistics,pages 582-590.2010)中提出局部归一化的判别式模型，利用期望最大化算法加以求解，实现无监督分词。该方法可以像有监督判别式模型一样融入各种特征，在针对英语发音数据的分词中取得较好效果。然而，该方法训练周期较长，对于中文等自然文本数据的效果还有待验证。 Chen等在A Joint Model for Unsupervised Chinese Word Segmentation(inConference on Empirical Methods in Natural Language Processing,pages 854-863,2014)中利用HMN刻画词内部字符结构信息，引入到HDP贝叶斯学习框架，提出所谓的联合模型，利用归一化边界熵切分文本，根据初分结果对联合模型初始化，通过Gibbs采样实现无监督的文本切分。Wang等在A new unsupervised approach to word segmentation(inComputational Linguistics,vol 37,no.3,pages 421- 454,2011)中建立Goodness模型，综合利用候选词频率、边界熵及长度等信息，评估切分的成词可能性，通过评估、选择和调整，实现迭代式的无监督分词。Tang 等在Unsupervised Joint Monolingual CharacterAlignment and Word Segmentation (in Chinese Computational Linguistics andNatural Language Processing Based on Naturally Annotated Big Data,pages 1-12,2014)中，利用单语字对齐学习词内字对共现和位置特征，建立字关联模型，位置模型、繁衍模型，及转移模型，集成到层次化Pitman-Yor学习框架中，建立了基于单语字对齐的联合模型(MCA)。

在业已提出的中文无监督分词算法中，MCA的分词效果为最佳。但是，MCA 由五个复杂的子模型组成，而且还需要对语料进行字对齐的预处理，复杂度高，分词准确性也存在较大改进空间。

发明内容

本发明的目的在于提升现有无监督中文分词的分词效果、降低复杂度，提出了一种基于迭代的三步式无监督中文分词方法。

本发明的基本思想是：针对无监督中文分词，提出一种由局部切分、全局选词、语料消减(Corpus Reduction)迭代执行的无监督分词框架；每轮迭代中，第一步利用基于切分-上下文相互独立度(Mutual Independency between Segmentation and its Context，MISC)的成词概率模型，对文本语料进行局部最优的无监督切分；MISC模型不需要引入关于切分长度的统计假设，且兼顾全局和局部特征，形式简单而有效；针对长尾现象，采用篇章级脉冲式加权方法，改善具有全局低频局部高频特性的切分成词概率计算，提高局部切分的准确性。第二步，根据全局支持度，筛选新词，增量生成词典；第三步，基于词典最长匹配和概率最大原则分割文本，滤除成词切分，把连续的非词切分拼接起来，重构为规模消减的训练语料，对剩余语料进行类似的迭代处理，直至无新词产生。

本发明的目的是通过以下技术方案实现的：

一种基于迭代的三步式无监督中文分词方法，通过以下步骤实现：

步骤1初始化，具体为：数据结构初始化，统计信息初始化；

步骤1.1数据结构初始化，具体为：初始化Occur_S、Occur_S→l→r、Occur_S→r、 Occur_l→S、Words和TopCharWord；

其中，Occur_S记录候选词S的发生频率，Occur_S→l→r记录S在上下文为 l,r时(l,r分别为左右侧邻接字符)的发生频率，Occur_S→r记录S在右侧上下文为r(r为右侧邻接字符)时的发生频率，Occur_l→s记录左侧上下文为 l(l为左侧邻接字符)时，S的发生频率；Words是记录多字词，TopCharWord 记录单字词，二者共同构成词典；

步骤1.2统计信息初始化，具体为：对文本语料按等概率全切分，统计候选词与上下文的统计信息；

扫描全切分序列，对切分S与上下文的共现l·S·r，执行Occur_S++、 Occur_S→l→r++、Occur_S→r++、Occur_l→S++操作；如左侧或右侧上下文不存在，用特殊符号表示；

注意，本发明区别使用术语“切分”和“候选词”，切分是指一个具体的文本切分片段，候选词是对内容相同的切分的统指；

步骤2迭代处理，具体为：迭代执行局部切分、全局选词、语料消减，直至无新词产生；

步骤2，又包括如下步骤：

步骤2.1局部切分，具体为：利用基于切分-上下文相互独立度的成词概率模型，对文本语料进行局部最优的无监督切分；

步骤2.1，又包括如下步骤：

步骤2.1.1基于MISC的局部成词概率计算；

在切分文本语料时，是否接受一个候选词为词，不是简单地取决于其在语料中的发生频率；如果一个高频候选词的上下文尽不相同，可以认为，候选词的存在显著独立于上下文，这种候选词很大可能是一个词；反之，如果一个高频候选词，相对固定地伴随出现在特定上下文中，很可能不是作为一个完整的词，而是作为词的组成部分存在；对于一个低频候选词，则很难根据发生频率，直接判断是否是词，但是，它可能与其他切分共享某个上下文，如果该上下文的发生显著独立于切分，这种候选词也有可能构成一个词；

根据上述分析可推知，无监督切分与上下文相互独立，则切分所对应候选词的成词概率比较高；具体基于上下文与切分之间的相互独立度模型进行无监督切分，如下公式(1)所示：

其中，MISC表示切分-上下文的相互独立度；表示训练文本L中第i个字符，表示起止于i，j的切分，表示非的切分；表示和切分s对应的候选词；表示首字符为但后随字符串非的候选词，利用评估左侧上下文相对于的独立度；在全切分条件下，左侧上下文相对于的独立度可以用公式(2) 计算：

在Occur_S中根据查找在Occurl_→S中根据查找按照公式(2)计算

同理，利用评估右侧上下文相对于的独立度，按照公式(3)计算

公式(3)在Occur_S中根据查找在Occur_S→r中根据查找

利用评估相对于上下文和的独立度，按照公式(4)计算

公式(4)在Occur_S中根据查找在Occur_l→S中根据查找在Occur_S→r中根据查找在Occur_S→l→r中根据查找

在行首或行末位置计算时，不能按样本语句数取值，该值过大致使切分过长，采用当前样本的字符中Occur最大值估算

如果Occur＝0,则置为>0的阈值；

显而易见，高频词相对于局部上下文的独立度比较高，反之亦然。对于低频词而言，语料中的出现频率本身就低，相对于局部上下文的独立度也就更低。但是，如果它的左右侧邻接字符多次作为其他切分的上下文，也就是说，上下文是独立于切分而存在的，间接地表明该切分的成词可能性较高；

在全切分中，一个字符位置可能属于多个不同的切分；但是，切分最终确定后，任一字符位置属于且仅属于一个切分；可以认为，在字符位置c相关的所有可能切分中，的局部成词可能性与MISC所占比例成正比；

定义：切分关于字符位置c的局部成词可能性，记为

其中，i≤c≤j，j-i<MAXLEN，MAXLEN表示词最大长度；表示位置c相关的所有可能切分的MISC累计和；

若为多字切分，基于单个字符位置的局部成词可能性，就无法表示作为一个整体的成词可能性；定义的局部成词概率如公式(5)：

基于MISC的局部成词概率模型与切分长度无关，形式较为简单，同时兼顾全局和局部特征，实验效果表明该模型的有效性；

训练语料由多个篇章组成；很多词是主题相关的，在相关主题的篇章中出现频率较高，但在整个训练语料出现次数并不多；对于这种长尾现象，对切分进行篇章整体的频率加权提升，可以改善全局低频局部高频的处理效果；为此，引入篇章级脉冲式加权机制，在计算MISC时，根据权重weight对当前篇章进行整体加权：

对切分S，按照Occur_S+＝weight、Occur_S→l→r+＝weight、Occur_S→r+＝ weight，Occur_l→S+＝weight进行更新，改善全局低频局部高频的切分的成词概率prob的计算；之后复原：

对切分S，Occur_S-＝weight、Occur_S→l→r-＝weight、OccurS_→r-＝weight，Occur_l→S-＝weight；

步骤2.1.2局部最优的无监督分词；

利用公式(5)，得到无监督分词的局部优化方案如(6)式：

其中，N表示待切分文本的长度，s_i表示切分位置；

利用Viterbi算法，对公式(6)加以求解，实现局部最优的无监督文本切分；

步骤2.1.3碎片重组

Words是在先前迭代中生成的增量词典；针对切分过碎的情况，进行基于 Words最长匹配的碎片重组处理，如公式(7)：

利用Viterbi算法，对公式(7)加以求解；

如存在非唯一解，利用Viterbi算法，对公式(8)加以求解，实现概率最大的碎片重组处理，如公式(8)：

通过步骤2.1.1、步骤2.1.2及步骤2.1.3，实现了局部最优的无监督文本切分；

步骤2.2全局选词，具体为：根据候选词的全局支持度，筛选新词，增量生成词典；

完成所有语料的无监督切分后，所得到的切分都作为候选词；扫描切分序列，针对任一候选词s，统计全局支持度suport(s)；LeastSupport是新词筛选阈值，把suport>LeastSupport的候选词，作为新词加入到Words；

单字的出现频率明显高于多字词；为了避免多字词被过细切分，在增量生成词典时，优先接受多字词；只有在没有新的多字词产生时，才接受高频单字词，按照增量方式加入到TopCharWord；

如果没有新词加入Words和TopCharWord，退出迭代，跳至步骤3，进行调整；否则继续执行步骤2.3；

步骤2.3语料消减，具体为：基于词典最长匹配和概率最大原则分割文本语料，滤除成词切分，把连续的非词切分拼接起来，重构为规模消减的训练语料；全切分，更新统计信息；

增量更新词典后，扫描切分序列，把连续的非词切分以及Occur_S<Quota (Quota为经验阈值)的词切分连接起来，基于词典最长匹配切分文本，具体利用Viterbi算法，通过求解公式(9)实现：

如存在非唯一解，利用Viterbi算法，对公式(8)加以求解；

扫描切分序列，在词切分(属于Words或TopCharWord)处，分割文本语料，滤除成词切分，把剩余的连续非词切分拼接起来，作为下次迭代的训练语料；

重置Occur_S、Occur_S→l→r、Occur_S→r和Occur_l→s；

对规模消减的训练语料全切分；扫描全切分序列，根据切分与上下文执行更新统计信息；

返回步骤2.1，继续迭代处理；

步骤3调整处理，具体为：逐文、逐段、逐句扫描切分序列，针对不包含于TopCharWord的切分，统计连续切分的共现频率；对共现频率>阈值的连续切分，进行合并；

至此，经过步骤1到步骤3，完成了一种基于迭代的三步式无监督中文分词方法。

有益效果

一种基于迭代的三步式无监督中文分词方法，与现有的中文无监督分词方法相比，具有如下有益效果：

1.提出一种由局部切分、全局选词、语料消减迭代执行的无监督分词框架，把文本切分与词汇发现、词典生成分开，在相对独立的过程中分别实现，在局部最优的无监督切分基础上，根据全局支持度，筛选新词，避免了传统算法根据局部信息判断切分是否成词，导致非词切分误判为词发生率较高的缺点；

2.和其他成词概率评估方法相比，基于切分-上下文相互独立度(MISC)的成词概率模型，不需要引入关于长度的统计假设，形式较为简单，同时兼顾全局和局部特征，实验效果表明该模型的有效性；

3.针对长尾现象，采用篇章级脉冲式加权方法，改善具有全局低频局部高频特性的切分成词概率计算，提高切分准确性；

4.实验表明，本发明优于现存性能最好的中文无监督分词算法，和MCA相比，F₁-Score改进最高达1.5个百分点，平均提升0.675个百分点。

附图说明

图1为本发明一种基于迭代的三步式无监督中文分词方法及实施例中的流程示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明和详细描述。

实施例1

本发明叙述了一种基于迭代的三步式无监督中文分词方法的具体实施。

从图1可以看出，一种基于迭代的三步式无监督中文分词方法包括初始化、迭代处理、调整处理三个过程，其中迭代处理包括局部切分、全局选词、语料消减三个步骤。

本发明所述的无监督分词框架在具体实现的每轮迭代中，第一步利用基于切分-上下文相互独立度(MISC)的成词概率模型，对文本语料进行局部最优的无监督切分；MISC模型不需要引入关于切分长度的统计假设，且兼顾全局和局部特征，形式简单而有效；针对长尾现象，采用篇章级脉冲式加权方法，改善具有全局低频局部高频特性的切分成词概率计算，提高局部切分的准确性。第二步，根据全局支持度，筛选新词，增量生成词典；第三步，基于词典最长匹配和概率最大原则分割文本，滤除成词切分，把连续的非词切分拼接起来，重构为规模消减的训练语料，对剩余语料进行类似的迭代处理，直至无新词产生。

通过以下具体步骤实现：

步骤1初始化，具体为：数据结构初始化，统计信息初始化；

其中，Occur_S记录候选词S的发生频率，使用HashMap实现，Occur_S→l→r记录S在上下文为l,r时(l,r分别为左右侧邻接字符)的发生频率， Occur_S→r记录S在右侧上下文为r(r为右侧邻接字符)时的发生频率， Occur_l→S记录左侧上下文为l(l为左侧邻接字符)时，S的发生频率， Occur_S→r和Occur_S→l→r可结合在Occur_S，分别用HashMap和二层HashMap实现，Occur_l→S使用二层HashMap实现；Words是记录多字词的线性表， TopCharWord是记录单字词的线性表，二者共同构成词典。

步骤2，又包括如下步骤：

步骤2.1局部切分，具体为：利用基于切分-上下文相互独立度的成词概率模型，对文本语料进行局部最优的无监督切分；利用基于切分-上下文相互独立度 (MISC)的成词概率模型，对文本语料进行局部最优的无监督切分，对过碎切分，基于词典最长匹配和概率最大进行碎片重组。

步骤2.1，又包括如下步骤：

步骤2.1.1基于MISC的局部成词概率计算

逐篇扫描训练语料，利用脉冲式加权机制调整当前篇章Doc的统计信息，计算切分的局部成词概率prob。

步骤2.1.1，又包括如下步骤：

步骤2.1.1.1加权更新

计算weight＝loop/10，weight≤15。其中loop为迭代次数。

对切分S∈Doc，按照Occur_S+＝weight、Occur_S→l→r+＝weight、 Occur_S→r+＝weight，Occur_l→S+＝weight进行更新。

步骤2.1.1.2 MISC计算

根据公式(1)、(2)、(3)、(4)计算切分的切分-上下文相互独立度

如果Occur＝0,则置为>0的阈值，实验取值为1e-6。

步骤2.1.1.3局部成词概率计算：

针对字符位置c，计算相关切分的MISC累计和，其中，MAXLEN表示词最大长度，实验取值为10。

按照公式(5)计算切分的局部成词概率

步骤2.1.1.4加权复原

对切分S∈Doc，按照Occur_S-＝weight、Occur_S→l→r-＝weight、 Occur_S→r-＝weight，Occur_l→S-＝weight进行复原。

步骤2.1.2局部最优的无监督分词

在所有语料的局部成词概率计算后，利用Viterbi算法，对公式(6)加以求解，实现局部最优的无监督文本切分。

步骤2.1.3碎片重组

针对切分过碎的情况，利用Viterbi算法，对公式(7)加以求解，实现基于Words最长匹配的碎片重组处理。如存在非唯一解，利用Viterbi算法，对公式 (8)加以求解，实现概率最大的碎片重组处理。

通过步骤2.1.1、步骤2.1.2及步骤2.1.3，实现局部优化的无监督文本切分。

步骤2.2全局选词

完成所有语料的无监督切分后，所得到的切分都作为候选词。扫描切分序列，针对任一候选词s，统计全局支持度suport(s)。把suport>LeastSupport 的候选词，作为新词加入到Words。

LeastSupport的实验配置为：

1.loop<10，LeastSupport设为10；

2.loop<20，LeastSupport设为5；

3.loop<30，LeastSupport设为3；

4.loop<40，LeastSupport设为2；

5.其他情况，LeastSupport设为1。

为了避免多字词被过细切分，在增量生成词典时，优先接受多字词。只有在没有新的多字词产生时，才接受高频单字词，并加入到TopCharWord。实验的单字词量上限设为85，并按照大小为5的增量方式接受高频单字词。

如果没有新词加入Words和TopCharWord，退出迭代，跳至步骤3，执行调整处理。

步骤2.3语料消减

增量更新词典后，扫描切分序列，把连续的非词切分以及Occur<Quota的词切分连接起来(Quota是成词度阈值，实验取值为10)，利用Viterbi算法，对公式(9)加以求解，实现基于词典最长匹配的文本切分。如存在非唯一解，利用Viterbi算法，对公式(8)加以求解，实现概率最大的文本切分。

扫描切分序列，在词切分(属于Words或TopCharWord)处，分割文本语料，滤除成词切分，把剩余语料的连续非词切分拼接起来，重构为规模消减的训练语料，对规模消减的训练语料进行全切分，更新各种统计信息。

重置Occur_S、Occur_S→l→r、Occur_S→r和Occur_l→S等数据结构。

对规模消减的训练语料全切分，根据切分与上下文执行等更新操作。

跳至步骤2.1，继续迭代处理。

步骤3，调整处理

扫描切分序列，针对不包含于TopCharWord的切分，统计连续切分的共现频率。对共现频率>5的连续切分，进行合并。

至此，经过步骤1到步骤3，完成了基于迭代的三步式无监督中文分词。

为验证本方法的有效性和通用性，在SIGHAN Bakeoff 2005公开的中文分词评测数据集进行测试。该数据集为计算语言协会(Association for ComputationalLinguistics，ACL)的官方分词评估语料，是大多数中文无监督分词方法常用的实验数据。SIGHAN Bakeoff 2005数据集共有4组语料，分别由北京大学(PKU)、微软亚洲研究院(MSR)、香港城市大学(CITYU)和中国台湾科学院(AS)提供，前2者为简体语料，后2者为繁体语料。每一组语料都包括训练语料和测试语料，其中，训练语料都已标注，且规模较大；而测试语料规模较小。

无监督的文本切分不需要训练集。因此只对4组测试语料进行实验，直接对未分割的文本进行切分。在测试中，忽略语料中的词间分隔符，即空格。此外的字符都视为有效的字符。

采用分词领域通用的评价标准衡量算法性能。评价指标包括：准确率P,召回率R以及F值。分别定义如下：

一般来说，F值越大，分词算法的性能越好。

预处理把测试语料分割为篇章序列。测试语料包含英文、标点、数字等信息。对于这些非中文字符信息，通过预处理，根据标点进行语料分割，并将连续的非中文字符(如英文字母，阿拉伯数字等)编码为单字，不参与分割。处理方式同于Wang等在A newunsupervised approach to word segmentation(in Computational Linguistics,vol37,no.3,pages 421-454,2011)所提出的参数配置方案4。

表1示出各种无监督分词方法性能比较。

表1.无监督分词方法性能比较

nVBE是Magistry等在Unsupervized word segmentation:the case formandarin chinese(in Proceedings of the 50th Annual Meeting of the Associationfor Computational Linguistics:Short Papers-Volume 2.Association forComputational Linguistics,page 383-387,2012)中提出的无监督分词方法。

HDP是Goldwater等在A bayesian framework for word segmentation:Exploring the effects of context(in Cognition,vol.112,no.1,pages 21–54,2009)中提出的无监督分词方法。

HDP+HMM、HDP+nVBE、HDP+HMM+nVBE是Chen等在A Joint Model for UnsupervisedChinese Word Segmentation(in Conference on Empirical Methods in NaturalLanguage Processing,pages:854-863,2014)中提出的无监督分词方法。

ESA是Wang等在A new unsupervised approach to word segmentation(inComputational Linguistics,vol.37,no.3,pages 421-454,2011)所提出的无监督分词方法。

NPY(2)和NPY(3)是Mochitashi等在Bayesian unsupervised word segmentationwith nested Pitman-Yor language modeling(in Proceedings of the JointConference of the 47th Annual Meeting of the ACL and the 4th InternationalJoint Conference on Natural Language Processing of the AFNLP,page 100-108,2009)所提出的无监督分词方法。

MCA是Tang等在Unsupervised Joint Monolingual Character Alignment andWord Segmentation(in Chinese Computational Linguistics and Natural LanguageProcessing Based on Naturally Annotated Big Data,pages 1-12,2014)所提出的无监督分词方法。

可以看出，在业已提出的中文无监督分词方法中，MCA是分词性能最好的系统(HDP+HMM、HDP+nVBE、HDP+HMM+nVBE和NPY，在测试数据+部分训练数据上进行实验，其测试结果不宜作为比较基准)。与MCA相比，MISC的 F值提高了0.1到1.5个百分点，平均提升0.675个百分点。与HDP+HMM+nVBE 相比，MISC的F值提升了0.1到0.8个百分点。与NPY相比，在MSR数据集上也获得了1.8个百分点的提升。

Claims

1.一种基于迭代的三步式无监督中文分词方法，其特征在于：基本思想是：针对无监督中文分词，提出一种由局部切分、全局选词、语料消减(Corpus Reduction)迭代执行的无监督分词框架；每轮迭代中，第一步利用基于切分-上下文相互独立度(Mutual Independencybetween Segmentation and its Context，MISC)的成词概率模型，对文本语料进行局部最优的无监督切分；MISC模型不需要引入关于切分长度的统计假设，且兼顾全局和局部特征，形式简单而有效；针对长尾现象，采用篇章级脉冲式加权方法，改善具有全局低频局部高频特性的切分成词概率计算，提高局部切分的准确性；第二步，根据全局支持度，筛选新词，增量生成词典；第三步，基于词典最长匹配和概率最大原则分割文本，滤除成词切分，把连续的非词切分拼接起来，重构为规模消减的训练语料，对剩余语料进行类似的迭代处理，直至无新词产生。

2.根据权利要求1所述的一种基于迭代的三步式无监督中文分词方法，其特征在于：训练语料由多个篇章组成；很多词是主题相关的，在相关主题的篇章中出现频率较高，但在整个训练语料出现次数并不多；对于这种长尾现象，对切分进行篇章整体的频率加权提升，可以改善全局低频局部高频的处理效果；为此，引入篇章级脉冲式加权机制。

3.根据权利要求1所述的一种基于迭代的三步式无监督中文分词方法，其特征在于：通过以下步骤实现：

步骤1初始化，具体为：数据结构初始化，统计信息初始化；

4.根据权利要求3所述的一种基于迭代的三步式无监督中文分词方法，其特征在于：步骤1，具体为：步骤1.1数据结构初始化，具体为：初始化Occur_S、Occur_S→l→r、Occur_S→r、Occur_l→S、Words和TopCharWord；

其中，Occur_S记录候选词S的发生频率，Occur_S→l→r记录S在上下文为l，r时(l，r分别为左右侧邻接字符)的发生频率，Occur_S→r记录S在右侧上下文为r(r为右侧邻接字符)时的发生频率，Occur_l→S记录左侧上下文为l(l为左侧邻接字符)时，S的发生频率；Words是记录多字词，TopCharWord记录单字词，二者共同构成词典；

扫描全切分序列，对切分S与上下文的共现l·S·r，执行Occur_S++、Occur_S→l→r++、Occur_S→r++、Occur_l→S++操作；如左侧或右侧上下文不存在，用特殊符号表示；

注意，本发明区别使用术语“切分”和“候选词”，切分是指一个具体的文本切分片段，候选词是对内容相同的切分的统指。

5.根据权利要求3所述的一种基于迭代的三步式无监督中文分词方法，其特征在于：步骤2，又包括如下步骤：

步骤2.3语料消减，具体为：基于词典最长匹配和概率最大原则分割文本语料，滤除成词切分，把连续的非词切分拼接起来，重构为规模消减的训练语料；全切分，更新统计信息。

6.根据权利要求5所述的一种基于迭代的三步式无监督中文分词方法，其特征在于：步骤2.1，又包括如下步骤：

步骤2.1.1基于MISC的局部成词概率计算；

其中，MISC表示切分-上下文的相互独立度；表示训练文本L中第i个字符，表示起止于i，j的切分，表示非的切分；表示和切分s对应的候选词；表示首字符为但后随字符串非的候选词，利用评估左侧上下文相对于的独立度；在全切分条件下，左侧上下文相对于的独立度可以用公式(2)计算：

在Occur_S中根据查找在Occur_l→S中根据查找按照公式(2)计算

公式(3)在Occur_S中根据查找在Occur_S→r中根据查找

利用评估相对于上下文和的独立度，按照公式(4)计算

如果Occur＝0,则置为＞0的阈值；

显而易见，高频词相对于局部上下文的独立度比较高，反之亦然；对于低频词而言，语料中的出现频率本身就低，相对于局部上下文的独立度也就更低；但是，如果它的左右侧邻接字符多次作为其他切分的上下文，也就是说，上下文是独立于切分而存在的，间接地表明该切分的成词可能性较高；

定义：切分关于字符位置c的局部成词可能性，记为

其中，i≤c≤j，j-i＜MAXLEN，MAXLEN表示词最大长度；

表示位置c相关的所有可能切分的MISC累计和；

在计算MISC时，根据权重weight对当前篇章进行整体加权：

对切分S，按照Occur_S+＝weight、Occur_S→l→r+＝weight、Occur_S→r+＝weight，Occur_l→S+＝weight进行更新，改善全局低频局部高频的切分的成词概率prob的计算；之后复原：

对切分S，Occur_S-＝weight、Occur_S→l→r-＝weight、Occur_S→r-＝weight，Occur_l→S-＝weight；

步骤2.1.2局部最优的无监督分词；

利用公式(5)，得到无监督分词的局部优化方案如(6)式：

其中，N表示待切分文本的长度，s_i表示切分位置；

步骤2.1.3碎片重组；

Words是在先前迭代中生成的增量词典；针对切分过碎的情况，进行基于Words最长匹配的碎片重组处理，如公式(7)：

利用Viterbi算法，对公式(7)加以求解；

通过步骤2.1.1、步骤2.1.2及步骤2.1.3，实现了局部最优的无监督文本切分。

7.根据权利要求5所述的一种基于迭代的三步式无监督中文分词方法，其特征在于：步骤2.2，具体为：完成所有语料的无监督切分后，所得到的切分都作为候选词；扫描切分序列，针对任一候选词s，统计全局支持度suport(s)；LeastSupport是新词筛选阈值，把suport＞LeastSupport的候选词，作为新词加入到Words；

如果没有新词加入Words和TopCharWord，退出迭代，跳至步骤3，进行调整；否则继续执行步骤2.3。

8.根据权利要求5所述的一种基于迭代的三步式无监督中文分词方法，其特征在于：步骤2.3，具体为：

增量更新词典后，扫描切分序列，把连续的非词切分以及Occur_S＜Quota(Quota为经验阈值)的词切分连接起来，基于词典最长匹配切分文本，具体利用Viterbi算法，通过求解公式(9)实现：

如存在非唯一解，利用Viterbi算法，对公式(8)加以求解；

重置Occur_S、Occur_S→l→r、Occur_S→r和Occur_l→S；

返回步骤2.1，继续迭代处理。