CN108062305B - 一种基于迭代的三步式无监督中文分词方法 - Google Patents

一种基于迭代的三步式无监督中文分词方法 Download PDF

Info

Publication number
CN108062305B
CN108062305B CN201711477226.0A CN201711477226A CN108062305B CN 108062305 B CN108062305 B CN 108062305B CN 201711477226 A CN201711477226 A CN 201711477226A CN 108062305 B CN108062305 B CN 108062305B
Authority
CN
China
Prior art keywords
segmentation
word
occur
words
unsupervised
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201711477226.0A
Other languages
English (en)
Other versions
CN108062305A (zh
Inventor
袁武
袁文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shikong Xunzhi Technology Co ltd
Original Assignee
Beijing Shikong Xunzhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shikong Xunzhi Technology Co ltd filed Critical Beijing Shikong Xunzhi Technology Co ltd
Priority to CN201711477226.0A priority Critical patent/CN108062305B/zh
Publication of CN108062305A publication Critical patent/CN108062305A/zh
Application granted granted Critical
Publication of CN108062305B publication Critical patent/CN108062305B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Abstract

一种基于迭代的三步式无监督中文分词方法,属于自然语言处理技术领域。基本思想是:是一种由局部切分、全局选词、语料消减迭代执行的无监督分词框架;每轮迭代中,先利用基于切分‑上下文相互独立度的成词概率模型,对文本语料进行局部最优的无监督切分,形式简单而有效;针对长尾现象,采用文档级脉冲式加权方法;再根据全局支持度,筛选新词,增量生成词典;最后基于词典最长匹配和概率最大原则分割文本,滤除成词切分,把连续的非词切分拼接起来,重构为规模消减的训练语料,对剩余语料进行类似的迭代处理,直至无新词产生。本发明优于现存性能最好的中文无监督分词算法。

Description

一种基于迭代的三步式无监督中文分词方法
技术领域
本发明涉及一种基于迭代的三步式无监督中文分词方法,属于人工智能、机器学习以及自然语言处理技术领域。
背景技术
各种自然语言处理任务,包括信息检索、机器翻译、文本理解与挖掘等,都是以词语为基本单位进行的。中文文本由连续字符序列组成,句内词语之间无界符分隔。因此,对中文的自然语言处理,首先要分词,即把连续字符序列分割成词序列,然后进行语法解析、语义理解和语用分析等处理。
现存的分词算法大体可分为有监督方法和无监督方法。有监督分词,是对标注语料进行有监督学习,训练出各种语言学及领域先验知识,用于指导文本的切分。词典是先验知识的载体,在有监督方法中居于核心地位。而无监督方法根据待切分文本自身特性进行分词处理,无需额外的其他先验知识。
一般而言,有监督方法的分词准确度要高于无监督方法。但是,有监督方法依赖于人工标注的语料。而人工标注是一个劳动密集型的知识处理过程,构建一份高质量的训练语料,需要标注人员掌握足够丰富的语言学及领域知识。现实中,由于高水平专家的匮乏,加之人力成本高,人工标注的规模一般较小,在筛选语料时,通常以满足应用领域的特定需求为要,难于兼顾其他领域。如此构建出的词典,领域适应性较差,不同的应用领域需要使用不同的词典;词典的可扩展性也较差,难于检测和识别训练语料中未曾出现的未登录词或新词。
虽然,无监督分词的准确性远逊于有监督方法,但是,无监督方法不依赖于标注语料,可以快速适应各种缺乏先验知识的应用场景,从无标注的陌生语料学习各种先验知识。在工程实践中,常常把无监督方法和有监督方法结合起来,利用无监督方法学习先验知识,以减少有监督方法构建词典时人工标注的工作量,提高词典生成效率,从而改善有监督方法的领域适应性和可扩展性。无监督分词的这个特点,在千金难觅一份堪用、够用的标注语料,更遑论高质量的现实条件下,弥为珍贵。特别是在泛在网络,数据规模巨大,更新频繁,人工标注完全无能为力的情况下,利用无监督分词方法,以海量的开放文本为训练集,构建自适应的通用型词典,是大数据条件下自然语言处理的必由之路。
经过相关领域学者的长期努力,无监督分词技术研究已经取得很大的进展。无监督分词的基本方法,是根据字符之间、词与字符上下文之间、词之间的分布规律,进行文本切分。根据切分方法的不同,现存的无监督分词算法,大致可分为:基于字符离合度的方法,基于词与上下文离合度的方法,基于词n-gram的方法,以及各种混合算法。基于字符离合度的方法,基于词与上下文离合度的方法,统归于构造离合度特征函数的方法。
基于字符离合度的方法,使用互信息(Mutual Information,MI)等统计指标,评估相邻字符之间的分离/聚合度。基于词与上下文离合度的基本方法,使用邻接变位数(Accessor Variety,AV)或边界熵(Boundary Entropy,BE)等统计指标,评估候选词相对于字符上下文的分离/聚合度。在计算词边界时,可以根据离合度局部统计值与经验阈值的比较结果,直接判断是否为词边界,这种方式比较简单,但是没有考虑全局信息;也可以引入最小描述长度(Minimum Description Length)、排名机制或归一化等,根据候选词的全局统计特征,进行全局优化。
基于词n-gram的方法,主要利用Dirichlet Process(DP)、HierarchicalDirichlet Process(HDP)以及Nested Hierarchical Pitman-Yor Process(NPY)等非参贝叶斯方法,把语言学先验知识引入到词n-gram概率模型中,通过概率最大化实现文本切分。Mochitashi等在Bayesian unsupervised word segmentation with nested Pitman-Yorlanguage modeling(in Proceedings of the Joint Conference of the 47th AnnualMeeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP,page 100-108,2009)中把字符级n-gram模型嵌入到词级n-gram概率模型,利用词内部字符结构信息,改善分词效果。
基于单一方法改进分词效率的空间比较有限。多种方法混合使用,是改进无监督分词效率的另一条途径。典型的方法是先利用边界熵切分文本,再按照最小描述长度准则,对初分结果进行筛选。此外,Johnson等在Improving nonparametric Bayesianinference:experiments on unsupervised word segmentation with adaptor grammars(in Proceedings of Human Language Technologies:The 2009 Annual Conference ofthe North American Chapter of the Association for Computational Linguistics,pages 317–325,2009)中把语言相关的适配器文法(Adaptor Grammars, AG),引入到层次化贝叶斯学习框架中,在针对英语发音数据的分词中取得较好效果。但是,该方法依赖于文法的先验知识,需要针对不同的语言设计不同的文法规则,采样过程较慢,收敛时间较长。Berg-Kirkpatrick等在Painless Unsupervised Learning with Features(inProceeding HLT'10 Human Language Technologies:The 2010 Annual Conference ofthe North American Chapter of the Association for Computational Linguistics,pages 582-590.2010)中提出局部归一化的判别式模型,利用期望最大化算法加以求解,实现无监督分词。该方法可以像有监督判别式模型一样融入各种特征,在针对英语发音数据的分词中取得较好效果。然而,该方法训练周期较长,对于中文等自然文本数据的效果还有待验证。 Chen等在A Joint Model for Unsupervised Chinese Word Segmentation(inConference on Empirical Methods in Natural Language Processing,pages 854-863,2014)中利用HMN刻画词内部字符结构信息,引入到HDP贝叶斯学习框架,提出所谓的联合模型,利用归一化边界熵切分文本,根据初分结果对联合模型初始化,通过Gibbs采样实现无监督的文本切分。Wang等在A new unsupervised approach to word segmentation(inComputational Linguistics,vol 37,no.3,pages 421- 454,2011)中建立Goodness模型,综合利用候选词频率、边界熵及长度等信息,评估切分的成词可能性,通过评估、选择和调整,实现迭代式的无监督分词。Tang 等在Unsupervised Joint Monolingual CharacterAlignment and Word Segmentation (in Chinese Computational Linguistics andNatural Language Processing Based on Naturally Annotated Big Data,pages 1-12,2014)中,利用单语字对齐学习词内字对共现和位置特征,建立字关联模型,位置模型、繁衍模型,及转移模型,集成到层次化Pitman-Yor学习框架中,建立了基于单语字对齐的联合模型(MCA)。
在业已提出的中文无监督分词算法中,MCA的分词效果为最佳。但是,MCA 由五个复杂的子模型组成,而且还需要对语料进行字对齐的预处理,复杂度高,分词准确性也存在较大改进空间。
发明内容
本发明的目的在于提升现有无监督中文分词的分词效果、降低复杂度,提出了一种基于迭代的三步式无监督中文分词方法。
本发明的基本思想是:针对无监督中文分词,提出一种由局部切分、全局选词、语料消减(Corpus Reduction)迭代执行的无监督分词框架;每轮迭代中,第一步利用基于切分-上下文相互独立度(Mutual Independency between Segmentation and its Context,MISC)的成词概率模型,对文本语料进行局部最优的无监督切分;MISC模型不需要引入关于切分长度的统计假设,且兼顾全局和局部特征,形式简单而有效;针对长尾现象,采用篇章级脉冲式加权方法,改善具有全局低频局部高频特性的切分成词概率计算,提高局部切分的准确性。第二步,根据全局支持度,筛选新词,增量生成词典;第三步,基于词典最长匹配和概率最大原则分割文本,滤除成词切分,把连续的非词切分拼接起来,重构为规模消减的训练语料,对剩余语料进行类似的迭代处理,直至无新词产生。
本发明的目的是通过以下技术方案实现的:
一种基于迭代的三步式无监督中文分词方法,通过以下步骤实现:
步骤1初始化,具体为:数据结构初始化,统计信息初始化;
步骤1.1数据结构初始化,具体为:初始化OccurS、OccurS→l→r、OccurS→r、 Occurl→S、Words和TopCharWord;
其中,OccurS记录候选词S的发生频率,OccurS→l→r记录S在上下文为 l,r时(l,r分别为左右侧邻接字符)的发生频率,OccurS→r记录S在右侧上下文为r(r为右侧邻接字符)时的发生频率,Occurl→s记录左侧上下文为 l(l为左侧邻接字符)时,S的发生频率;Words是记录多字词,TopCharWord 记录单字词,二者共同构成词典;
步骤1.2统计信息初始化,具体为:对文本语料按等概率全切分,统计候选词与上下文的统计信息;
扫描全切分序列,对切分S与上下文的共现l·S·r,执行OccurS++、 OccurS→l→r++、OccurS→r++、Occurl→S++操作;如左侧或右侧上下文不存在,用特殊符号
Figure BDA0001533080360000051
表示;
注意,本发明区别使用术语“切分”和“候选词”,切分是指一个具体的文本切分片段,候选词是对内容相同的切分的统指;
步骤2迭代处理,具体为:迭代执行局部切分、全局选词、语料消减,直至无新词产生;
步骤2,又包括如下步骤:
步骤2.1局部切分,具体为:利用基于切分-上下文相互独立度的成词概率模型,对文本语料进行局部最优的无监督切分;
步骤2.1,又包括如下步骤:
步骤2.1.1基于MISC的局部成词概率计算;
在切分文本语料时,是否接受一个候选词为词,不是简单地取决于其在语料中的发生频率;如果一个高频候选词的上下文尽不相同,可以认为,候选词的存在显著独立于上下文,这种候选词很大可能是一个词;反之,如果一个高频候选词,相对固定地伴随出现在特定上下文中,很可能不是作为一个完整的词,而是作为词的组成部分存在;对于一个低频候选词,则很难根据发生频率,直接判断是否是词,但是,它可能与其他切分共享某个上下文,如果该上下文的发生显著独立于切分,这种候选词也有可能构成一个词;
根据上述分析可推知,无监督切分与上下文相互独立,则切分所对应候选词的成词概率比较高;具体基于上下文与切分之间的相互独立度模型进行无监督切分,如下公式(1)所示:
Figure BDA0001533080360000061
其中,MISC表示切分-上下文的相互独立度;
Figure BDA0001533080360000062
表示训练文本L中第i个字符,
Figure BDA0001533080360000063
表示起止于i,j的切分,
Figure BDA0001533080360000064
表示非
Figure BDA0001533080360000065
的切分;
Figure BDA0001533080360000066
表示和切分s对应的候选词;
Figure BDA0001533080360000067
表示首字符为
Figure BDA0001533080360000068
但后随字符串非
Figure BDA0001533080360000069
的候选词,利用
Figure BDA00015330803600000610
评估左侧上下文
Figure BDA00015330803600000611
相对于
Figure BDA00015330803600000612
的独立度;在全切分条件下,左侧上下文
Figure BDA00015330803600000613
相对于
Figure BDA00015330803600000614
的独立度可以用公式(2) 计算:
Figure BDA00015330803600000615
在OccurS中根据
Figure BDA00015330803600000616
查找
Figure BDA00015330803600000617
在Occurl→S中根据
Figure BDA00015330803600000618
查找
Figure BDA0001533080360000071
按照公式(2)计算
Figure BDA0001533080360000072
同理,利用
Figure BDA0001533080360000073
评估右侧上下文
Figure BDA0001533080360000074
相对于
Figure BDA0001533080360000075
的独立度,按照公式(3)计算
Figure BDA0001533080360000076
Figure BDA0001533080360000077
公式(3)在OccurS中根据
Figure BDA0001533080360000078
查找
Figure BDA0001533080360000079
在OccurS→r中根据
Figure BDA00015330803600000710
查找
Figure BDA00015330803600000711
利用
Figure BDA00015330803600000712
评估
Figure BDA00015330803600000713
相对于上下文
Figure BDA00015330803600000714
Figure BDA00015330803600000715
的独立度,按照公式(4)计算
Figure BDA00015330803600000716
Figure BDA00015330803600000717
公式(4)在OccurS中根据
Figure BDA00015330803600000718
查找
Figure BDA00015330803600000719
在Occurl→S中根据
Figure BDA00015330803600000720
查找
Figure BDA00015330803600000721
在OccurS→r中根据
Figure BDA00015330803600000722
查找
Figure BDA00015330803600000723
在OccurS→l→r中根据
Figure BDA00015330803600000724
查找
Figure BDA00015330803600000725
在行首或行末位置计算
Figure BDA00015330803600000726
时,不能按样本语句数取值,该值过大致使切分过长,采用当前样本的字符中Occur最大值估算
Figure BDA00015330803600000727
如果Occur=0,则置为>0的阈值;
显而易见,高频词相对于局部上下文的独立度比较高,反之亦然。对于低频词而言,语料中的出现频率本身就低,相对于局部上下文的独立度也就更低。但是,如果它的左右侧邻接字符多次作为其他切分的上下文,也就是说,上下文是独立于切分而存在的,间接地表明该切分的成词可能性较高;
在全切分中,一个字符位置可能属于多个不同的切分;但是,切分最终确定后,任一字符位置属于且仅属于一个切分;可以认为,在字符位置c相关的所有可能切分中,
Figure BDA0001533080360000081
的局部成词可能性与MISC所占比例成正比;
定义:切分
Figure BDA0001533080360000082
关于字符位置c的局部成词可能性,记为
Figure BDA0001533080360000083
其中,i≤c≤j,j-i<MAXLEN,MAXLEN表示词最大长度;
Figure BDA0001533080360000084
Figure BDA0001533080360000085
表示位置c相关的所有可能切分的MISC累计和;
Figure BDA0001533080360000086
为多字切分,基于单个字符位置的局部成词可能性,就无法表示
Figure BDA0001533080360000087
作为一个整体的成词可能性;定义
Figure BDA0001533080360000088
的局部成词概率如公式(5):
Figure BDA0001533080360000089
基于MISC的局部成词概率模型与切分长度无关,形式较为简单,同时兼顾全局和局部特征,实验效果表明该模型的有效性;
训练语料由多个篇章组成;很多词是主题相关的,在相关主题的篇章中出现频率较高,但在整个训练语料出现次数并不多;对于这种长尾现象,对切分进行篇章整体的频率加权提升,可以改善全局低频局部高频的处理效果;为此,引入篇章级脉冲式加权机制,在计算MISC时,根据权重weight对当前篇章进行整体加权:
对切分S,按照OccurS+=weight、OccurS→l→r+=weight、OccurS→r+= weight,Occurl→S+=weight进行更新,改善全局低频局部高频的切分的成词概率prob的计算;之后复原:
对切分S,OccurS-=weight、OccurS→l→r-=weight、OccurS→r-=weight,Occurl→S-=weight;
步骤2.1.2局部最优的无监督分词;
利用公式(5),得到无监督分词的局部优化方案如(6)式:
Figure BDA0001533080360000091
其中,N表示待切分文本的长度,si表示切分位置;
利用Viterbi算法,对公式(6)加以求解,实现局部最优的无监督文本切分;
步骤2.1.3碎片重组
Words是在先前迭代中生成的增量词典;针对切分过碎的情况,进行基于 Words最长匹配的碎片重组处理,如公式(7):
Figure BDA0001533080360000092
利用Viterbi算法,对公式(7)加以求解;
如存在非唯一解,利用Viterbi算法,对公式(8)加以求解,实现概率最大的碎片重组处理,如公式(8):
Figure BDA0001533080360000093
通过步骤2.1.1、步骤2.1.2及步骤2.1.3,实现了局部最优的无监督文本切分;
步骤2.2全局选词,具体为:根据候选词的全局支持度,筛选新词,增量生成词典;
完成所有语料的无监督切分后,所得到的切分都作为候选词;扫描切分序列,针对任一候选词s,统计全局支持度suport(s);LeastSupport是新词筛选阈值,把suport>LeastSupport的候选词,作为新词加入到Words;
单字的出现频率明显高于多字词;为了避免多字词被过细切分,在增量生成词典时,优先接受多字词;只有在没有新的多字词产生时,才接受高频单字词,按照增量方式加入到TopCharWord;
如果没有新词加入Words和TopCharWord,退出迭代,跳至步骤3,进行调整;否则继续执行步骤2.3;
步骤2.3语料消减,具体为:基于词典最长匹配和概率最大原则分割文本语料,滤除成词切分,把连续的非词切分拼接起来,重构为规模消减的训练语料;全切分,更新统计信息;
增量更新词典后,扫描切分序列,把连续的非词切分以及OccurS<Quota (Quota为经验阈值)的词切分连接起来,基于词典最长匹配切分文本,具体利用Viterbi算法,通过求解公式(9)实现:
Figure BDA0001533080360000101
如存在非唯一解,利用Viterbi算法,对公式(8)加以求解;
扫描切分序列,在词切分(属于Words或TopCharWord)处,分割文本语料,滤除成词切分,把剩余的连续非词切分拼接起来,作为下次迭代的训练语料;
重置OccurS、OccurS→l→r、OccurS→r和Occurl→s
对规模消减的训练语料全切分;扫描全切分序列,根据切分
Figure BDA0001533080360000102
与上下文
Figure BDA0001533080360000103
执行
Figure BDA0001533080360000104
Figure BDA0001533080360000105
更新统计信息;
返回步骤2.1,继续迭代处理;
步骤3调整处理,具体为:逐文、逐段、逐句扫描切分序列,针对不包含于TopCharWord的切分,统计连续切分的共现频率;对共现频率>阈值的连续切分,进行合并;
至此,经过步骤1到步骤3,完成了一种基于迭代的三步式无监督中文分词方法。
有益效果
一种基于迭代的三步式无监督中文分词方法,与现有的中文无监督分词方法相比,具有如下有益效果:
1.提出一种由局部切分、全局选词、语料消减迭代执行的无监督分词框架,把文本切分与词汇发现、词典生成分开,在相对独立的过程中分别实现,在局部最优的无监督切分基础上,根据全局支持度,筛选新词,避免了传统算法根据局部信息判断切分是否成词,导致非词切分误判为词发生率较高的缺点;
2.和其他成词概率评估方法相比,基于切分-上下文相互独立度(MISC)的成词概率模型,不需要引入关于长度的统计假设,形式较为简单,同时兼顾全局和局部特征,实验效果表明该模型的有效性;
3.针对长尾现象,采用篇章级脉冲式加权方法,改善具有全局低频局部高频特性的切分成词概率计算,提高切分准确性;
4.实验表明,本发明优于现存性能最好的中文无监督分词算法,和MCA相比,F1-Score改进最高达1.5个百分点,平均提升0.675个百分点。
附图说明
图1为本发明一种基于迭代的三步式无监督中文分词方法及实施例中的流程示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明和详细描述。
实施例1
本发明叙述了一种基于迭代的三步式无监督中文分词方法的具体实施。
从图1可以看出,一种基于迭代的三步式无监督中文分词方法包括初始化、迭代处理、调整处理三个过程,其中迭代处理包括局部切分、全局选词、语料消减三个步骤。
本发明所述的无监督分词框架在具体实现的每轮迭代中,第一步利用基于切分-上下文相互独立度(MISC)的成词概率模型,对文本语料进行局部最优的无监督切分;MISC模型不需要引入关于切分长度的统计假设,且兼顾全局和局部特征,形式简单而有效;针对长尾现象,采用篇章级脉冲式加权方法,改善具有全局低频局部高频特性的切分成词概率计算,提高局部切分的准确性。第二步,根据全局支持度,筛选新词,增量生成词典;第三步,基于词典最长匹配和概率最大原则分割文本,滤除成词切分,把连续的非词切分拼接起来,重构为规模消减的训练语料,对剩余语料进行类似的迭代处理,直至无新词产生。
通过以下具体步骤实现:
步骤1初始化,具体为:数据结构初始化,统计信息初始化;
步骤1.1数据结构初始化,具体为:初始化OccurS、OccurS→l→r、OccurS→r、 Occurl→S、Words和TopCharWord;
其中,OccurS记录候选词S的发生频率,使用HashMap实现,OccurS→l→r记录S在上下文为l,r时(l,r分别为左右侧邻接字符)的发生频率, OccurS→r记录S在右侧上下文为r(r为右侧邻接字符)时的发生频率, Occurl→S记录左侧上下文为l(l为左侧邻接字符)时,S的发生频率, OccurS→r和OccurS→l→r可结合在OccurS,分别用HashMap和二层HashMap实现,Occurl→S使用二层HashMap实现;Words是记录多字词的线性表, TopCharWord是记录单字词的线性表,二者共同构成词典。
步骤1.2统计信息初始化,具体为:对文本语料按等概率全切分,统计候选词与上下文的统计信息;
扫描全切分序列,对切分S与上下文的共现l·S·r,执行OccurS++、 OccurS→l→r++、OccurS→r++、Occurl→S++操作;如左侧或右侧上下文不存在,用特殊符号
Figure BDA0001533080360000121
表示;
步骤2迭代处理,具体为:迭代执行局部切分、全局选词、语料消减,直至无新词产生;
步骤2,又包括如下步骤:
步骤2.1局部切分,具体为:利用基于切分-上下文相互独立度的成词概率模型,对文本语料进行局部最优的无监督切分;利用基于切分-上下文相互独立度 (MISC)的成词概率模型,对文本语料进行局部最优的无监督切分,对过碎切分,基于词典最长匹配和概率最大进行碎片重组。
步骤2.1,又包括如下步骤:
步骤2.1.1基于MISC的局部成词概率计算
逐篇扫描训练语料,利用脉冲式加权机制调整当前篇章Doc的统计信息,计算切分的局部成词概率prob。
步骤2.1.1,又包括如下步骤:
步骤2.1.1.1加权更新
计算weight=loop/10,weight≤15。其中loop为迭代次数。
Figure BDA0001533080360000137
切分S∈Doc,按照OccurS+=weight、OccurS→l→r+=weight、 OccurS→r+=weight,Occurl→S+=weight进行更新。
步骤2.1.1.2 MISC计算
根据公式(1)、(2)、(3)、(4)计算切分
Figure BDA0001533080360000131
的切分-上下文相互独立度
Figure BDA0001533080360000132
在行首或行末位置计算
Figure BDA0001533080360000133
时,不能按样本语句数取值,该值过大致使切分过长,采用当前样本的字符中Occur最大值估算
Figure BDA0001533080360000134
如果Occur=0,则置为>0的阈值,实验取值为1e-6。
步骤2.1.1.3局部成词概率计算:
针对字符位置c,计算相关切分的MISC累计和,
Figure BDA0001533080360000135
Figure BDA0001533080360000136
其中,MAXLEN表示词最大长度,实验取值为10。
按照公式(5)计算切分
Figure BDA0001533080360000141
的局部成词概率
Figure BDA0001533080360000142
步骤2.1.1.4加权复原
Figure BDA0001533080360000143
切分S∈Doc,按照OccurS-=weight、OccurS→l→r-=weight、 OccurS→r-=weight,Occurl→S-=weight进行复原。
步骤2.1.2局部最优的无监督分词
在所有语料的局部成词概率计算后,利用Viterbi算法,对公式(6)加以求解,实现局部最优的无监督文本切分。
步骤2.1.3碎片重组
针对切分过碎的情况,利用Viterbi算法,对公式(7)加以求解,实现基于Words最长匹配的碎片重组处理。如存在非唯一解,利用Viterbi算法,对公式 (8)加以求解,实现概率最大的碎片重组处理。
通过步骤2.1.1、步骤2.1.2及步骤2.1.3,实现局部优化的无监督文本切分。
步骤2.2全局选词
完成所有语料的无监督切分后,所得到的切分都作为候选词。扫描切分序列,针对任一候选词s,统计全局支持度suport(s)。把suport>LeastSupport 的候选词,作为新词加入到Words。
LeastSupport的实验配置为:
1.loop<10,LeastSupport设为10;
2.loop<20,LeastSupport设为5;
3.loop<30,LeastSupport设为3;
4.loop<40,LeastSupport设为2;
5.其他情况,LeastSupport设为1。
为了避免多字词被过细切分,在增量生成词典时,优先接受多字词。只有在没有新的多字词产生时,才接受高频单字词,并加入到TopCharWord。实验的单字词量上限设为85,并按照大小为5的增量方式接受高频单字词。
如果没有新词加入Words和TopCharWord,退出迭代,跳至步骤3,执行调整处理。
步骤2.3语料消减
增量更新词典后,扫描切分序列,把连续的非词切分以及Occur<Quota的词切分连接起来(Quota是成词度阈值,实验取值为10),利用Viterbi算法,对公式(9)加以求解,实现基于词典最长匹配的文本切分。如存在非唯一解,利用Viterbi算法,对公式(8)加以求解,实现概率最大的文本切分。
扫描切分序列,在词切分(属于Words或TopCharWord)处,分割文本语料,滤除成词切分,把剩余语料的连续非词切分拼接起来,重构为规模消减的训练语料,对规模消减的训练语料进行全切分,更新各种统计信息。
重置OccurS、OccurS→l→r、OccurS→r和Occurl→S等数据结构。
对规模消减的训练语料全切分,根据切分
Figure BDA0001533080360000151
与上下文
Figure BDA0001533080360000152
执行
Figure BDA0001533080360000153
Figure BDA0001533080360000154
等更新操作。
跳至步骤2.1,继续迭代处理。
步骤3,调整处理
扫描切分序列,针对不包含于TopCharWord的切分,统计连续切分的共现频率。对共现频率>5的连续切分,进行合并。
至此,经过步骤1到步骤3,完成了基于迭代的三步式无监督中文分词。
为验证本方法的有效性和通用性,在SIGHAN Bakeoff 2005公开的中文分词评测数据集进行测试。该数据集为计算语言协会(Association for ComputationalLinguistics,ACL)的官方分词评估语料,是大多数中文无监督分词方法常用的实验数据。SIGHAN Bakeoff 2005数据集共有4组语料,分别由北京大学(PKU)、微软亚洲研究院(MSR)、香港城市大学(CITYU)和中国台湾科学院(AS)提供,前2者为简体语料,后2者为繁体语料。每一组语料都包括训练语料和测试语料,其中,训练语料都已标注,且规模较大;而测试语料规模较小。
无监督的文本切分不需要训练集。因此只对4组测试语料进行实验,直接对未分割的文本进行切分。在测试中,忽略语料中的词间分隔符,即空格。此外的字符都视为有效的字符。
采用分词领域通用的评价标准衡量算法性能。评价指标包括:准确率P,召回率R以及F值。分别定义如下:
Figure BDA0001533080360000161
Figure BDA0001533080360000162
Figure BDA0001533080360000163
一般来说,F值越大,分词算法的性能越好。
预处理把测试语料分割为篇章序列。测试语料包含英文、标点、数字等信息。对于这些非中文字符信息,通过预处理,根据标点进行语料分割,并将连续的非中文字符(如英文字母,阿拉伯数字等)编码为单字,不参与分割。处理方式同于Wang等在A newunsupervised approach to word segmentation(in Computational Linguistics,vol37,no.3,pages 421-454,2011)所提出的参数配置方案4。
表1示出各种无监督分词方法性能比较。
表1.无监督分词方法性能比较
Figure DEST_PATH_IMAGE001
nVBE是Magistry等在Unsupervized word segmentation:the case formandarin chinese(in Proceedings of the 50th Annual Meeting of the Associationfor Computational Linguistics:Short Papers-Volume 2.Association forComputational Linguistics,page 383-387,2012)中提出的无监督分词方法。
HDP是Goldwater等在A bayesian framework for word segmentation:Exploring the effects of context(in Cognition,vol.112,no.1,pages 21–54,2009)中提出的无监督分词方法。
HDP+HMM、HDP+nVBE、HDP+HMM+nVBE是Chen等在A Joint Model for UnsupervisedChinese Word Segmentation(in Conference on Empirical Methods in NaturalLanguage Processing,pages:854-863,2014)中提出的无监督分词方法。
ESA是Wang等在A new unsupervised approach to word segmentation(inComputational Linguistics,vol.37,no.3,pages 421-454,2011)所提出的无监督分词方法。
NPY(2)和NPY(3)是Mochitashi等在Bayesian unsupervised word segmentationwith nested Pitman-Yor language modeling(in Proceedings of the JointConference of the 47th Annual Meeting of the ACL and the 4th InternationalJoint Conference on Natural Language Processing of the AFNLP,page 100-108,2009)所提出的无监督分词方法。
MCA是Tang等在Unsupervised Joint Monolingual Character Alignment andWord Segmentation(in Chinese Computational Linguistics and Natural LanguageProcessing Based on Naturally Annotated Big Data,pages 1-12,2014)所提出的无监督分词方法。
可以看出,在业已提出的中文无监督分词方法中,MCA是分词性能最好的系统(HDP+HMM、HDP+nVBE、HDP+HMM+nVBE和NPY,在测试数据+部分训练数据上进行实验,其测试结果不宜作为比较基准)。与MCA相比,MISC的 F值提高了0.1到1.5个百分点,平均提升0.675个百分点。与HDP+HMM+nVBE 相比,MISC的F值提升了0.1到0.8个百分点。与NPY相比,在MSR数据集上也获得了1.8个百分点的提升。

Claims (3)

1.一种基于迭代的三步式无监督中文分词方法,其特征在于:包括:
步骤1、初始化,具体为:数据结构初始化,统计信息初始化,具体为:步骤1.1数据结构初始化,具体为:初始化OccurS、OccurS→l→r、OccurS→r、Occurl→S、Words和TopCharWord;
其中,OccurS表示记录切分S得到的候选词s的发生频率,OccurS→l→r表示记录切分S表示在上下文为l,r时的发生频率,OccurS→r表示记录切分S在右侧上下文为r时的发生频率,Occurl→S表示记录左侧上下文为l时,切分S的发生频率;Words表示记录多字词,TopCharWord表示记录单字词,二者共同构成词典;
其中,l为左侧邻接字符,r为右侧邻接字符;
步骤1.2统计信息初始化,具体为:对文本语料按等概率全切分,统计候选词与上下文的统计信息;
扫描全切分序列,对切分S与上下文的共现l·S·r,执行OccurS++、OccurS→l→r++、OccurS→r++、Occurl→S++操作;如果左侧或右侧上下文不存在,用特殊符号
Figure FDA0003225734460000011
表示;
步骤2迭代处理,具体为迭代执行局部切分、全局选词、语料消减迭代执行的无监督分词框架;
每轮迭代中,第一步利用基于切分-上下文相互独立度(Mutual Independencybetween Segmentation and its Context,MISC)的成词概率模型,即MISC模型,该MISC模型的训练语料由多个篇章组成;对文本语料进行局部最优的无监督切分;MISC模型不需要引入关于切分长度的统计假设,且兼顾全局和局部特征,形式简单而有效;存在主题相关的词具备长尾现象;针对该长尾现象,对切分进行篇章整体的频率加权提升引入篇章级脉冲式加权方法,根据全局支持度,筛选新词,增量生成词典;基于词典最长匹配和概率最大原则分割文本,滤除成词切分,拼接连续的非词切分,重构为规模消减的训练语料,对剩余语料进行上述的迭代处理,直至无新词产生;
其中,迭代处理的具体步骤包括:
步骤2.1局部切分,具体为:利用MISC模型对文本语料进行局部最优的无监督切分,具体为:扫描切分序列,针对任一候选词s,统计全局支持度suport(s);LeastSupport是新词筛选阈值,把suport>LeastSupport的候选词,作为新词加入到Words,得到的切分都作为候选词;
其中,切分是指一个具体的文本切分片段,候选词是对内容相同的切分的统指,具体指:候选词的存在显著独立于上下文,包括高频候选词和低频候选词;很大可能是一个词;则切分所对应候选词的成词概率比较高;具体基于MISC模型进行无监督切分;
步骤2.1.1基于MISC模型的局部成词概率计算;
若无监督切分与上下文相互独立,则切分所对应候选词的成词概率比较高,具体基于MISC模型进行无监督切分,如下公式(1)所示:
Figure FDA0003225734460000031
其中,MISC表示切分-上下文的相互独立度;
Figure FDA0003225734460000032
表示训练文本L中第i个字符,
Figure FDA0003225734460000033
表示起止于i,j的切分,
Figure FDA0003225734460000034
表示非
Figure FDA0003225734460000035
的切分;
Figure FDA0003225734460000036
表示和切分S对应的候选词;
Figure FDA0003225734460000037
表示首字符为
Figure FDA0003225734460000038
但后随字符串非
Figure FDA0003225734460000039
的候选词,利用
Figure FDA00032257344600000310
评估左侧上下文
Figure FDA00032257344600000311
相对于
Figure FDA00032257344600000312
的独立度;在全切分条件下,左侧上下文
Figure FDA00032257344600000313
相对于
Figure FDA00032257344600000314
的独立度可以用公式(2)计算:
Figure FDA00032257344600000315
在OccurS中根据
Figure FDA00032257344600000316
查找
Figure FDA00032257344600000317
在Occurl→S中根据
Figure FDA00032257344600000318
查找
Figure FDA00032257344600000319
按照公式(2)计算
Figure FDA00032257344600000320
同理,利用
Figure FDA00032257344600000321
评估右侧上下文
Figure FDA00032257344600000322
相对于
Figure FDA00032257344600000323
的独立度,按照公式(3)计算
Figure FDA00032257344600000324
Figure FDA00032257344600000325
公式(3)在OccurS中根据
Figure FDA00032257344600000326
查找
Figure FDA00032257344600000327
在OccurS→r中根据
Figure FDA00032257344600000328
查找
Figure FDA00032257344600000329
利用
Figure FDA0003225734460000041
评估
Figure FDA0003225734460000042
相对于上下文
Figure FDA0003225734460000043
Figure FDA0003225734460000044
的独立度,按照公式(4)计算
Figure FDA0003225734460000045
Figure FDA0003225734460000046
公式(4)在OccurS中根据
Figure FDA0003225734460000047
查找
Figure FDA0003225734460000048
在Occurl→S中根据
Figure FDA0003225734460000049
查找
Figure FDA00032257344600000410
在OccurS→r中根据
Figure FDA00032257344600000411
查找
Figure FDA00032257344600000412
在OccurS→l→r中根据
Figure FDA00032257344600000413
查找
Figure FDA00032257344600000414
在行首或行末位置计算
Figure FDA00032257344600000415
时,不能按样本语句数取值,该值过大致使切分过长,采用当前样本的字符中Occur最大值估算
Figure FDA00032257344600000416
如果Occur=0,则设置为大于0的阈值;
其中,高频词相对于局部上下文的独立度比较高;对于低频词,如果它的左右侧邻接字符多次作为其他切分的上下文,也就是说,上下文是独立于切分而存在的,该切分的成词可能性较高;
在全切分中,一个字符位置可能属于多个不同的切分;但是,切分最终确定后,任一字符位置属于且仅属于一个切分;可以认为,在字符位置c相关的所有可能切分中,
Figure FDA00032257344600000417
的局部成词可能性与MISC所占比例成正比;
定义:切分
Figure FDA0003225734460000051
关于字符位置c的局部成词可能性,记为
Figure FDA0003225734460000052
其中,i≤c≤j,j-i<MAXLEN,MAXLEN表示词最大长度;
Figure FDA0003225734460000053
表示位置c相关的所有可能切分的MISC累计和;
Figure FDA0003225734460000054
为多字切分,基于单个字符位置的局部成词可能性,就无法表示
Figure FDA0003225734460000055
作为一个整体的成词可能性;定义
Figure FDA0003225734460000056
的局部成词概率如公式(5):
Figure FDA0003225734460000057
其中,基于MISC模型的局部成词概率模型与切分长度无关,形式较为简单,同时兼顾全局和局部特征;
在计算MISC时,根据权重weight对当前篇章进行整体加权:
对切分S,按照OccurS+=weight、OccurS→l→r+=weight、Occur S→r+=weight,Occurl→S+=weight进行更新,改善全局低频局部高频的切分的成词概率prob的计算;之后复原:
对切分S,OccurS-=weight、OccurS→l→r-=weight、OccurS→r-=weight,Occurl→S-=weight;
步骤2.1.2局部最优的无监督分词;
利用公式(5),得到无监督分词的局部优化方案如(6)式:
Figure FDA0003225734460000061
其中,N表示待切分文本的长度,si表示切分位置;
利用Viterbi算法,对公式(6)加以求解,实现局部最优的无监督文本切分;
步骤2.1.3碎片重组;
针对切分过碎的情况,进行基于Words最长匹配的碎片重组处理,如公式(7):
Figure FDA0003225734460000062
利用Viterbi算法,对公式(7)加以求解;
如存在非唯一解,利用Viterbi算法,对公式(8)加以求解,实现概率最大的碎片重组处理,如公式(8):
Figure FDA0003225734460000063
通过步骤2.1.1、步骤2.1.2及步骤2.1.3,实现了局部最优的无监督文本切分;
步骤2.2全局选词,具体为:根据候选词的全局支持度,筛选新词,增量生成词典,具体为:完成所有语料的无监督切分后,所得到的切分都作为候选词;扫描切分序列,针对任一候选词s,统计全局支持度suport(s);LeastSupport是新词筛选阈值,把suport>LeastSupport的候选词,作为新词加入到Words;
单字的出现频率明显高于多字词;为了避免多字词被过细切分,在增量生成词典时,优先接受多字词;只有在没有新的多字词产生时,才接受高频单字词按照增量方式加入到TopCharWord;
如果没有新词加入Words和TopCharWord,退出迭代,跳至步骤3,进行调整;否则继续执行步骤2.3;
步骤2.3语料消减,具体为:基于词典最长匹配和概率最大原则分割文本语料,滤除成词切分,把连续的非词切分拼接起来,重构为规模消减的训练语料;全切分,更新统计信息;
步骤3调整处理,具体为:逐文、逐段、逐句扫描切分序列,针对不包含于TopCharWord的切分,统计连续切分的共现频率;对共现频率大于阈值的连续切分,进行合并。
2.根据权利要求1所述的一种基于迭代的三步式无监督中文分词方法,其特征在于:步骤2.2,具体为:完成所有语料的无监督切分后,所得到的切分都作为候选词;扫描切分序列,针对任一候选词s,统计全局支持度suport(s);LeastSupport是新词筛选阈值,把suport>LeastSupport的候选词,作为新词加入到Words;
单字的出现频率明显高于多字词;为了避免多字词被过细切分,在增量生成词典时,优先接受多字词;只有在没有新的多字词产生时,才接受高频单字词,按照增量方式加入到TopCharWord;
如果没有新词加入Words和TopCharWord,退出迭代,跳至步骤3,进行调整;否则继续执行步骤2.3。
3.根据权利要求2所述的一种基于迭代的三步式无监督中文分词方法,其特征在于:步骤2.3,具体为:
增量更新词典后,扫描切分序列,把连续的非词切分以及OccurS<Quota的词切分连接起来,基于词典最长匹配切分文本,具体利用Viterbi算法,通过求解公式(9)实现:
Figure FDA0003225734460000081
如存在非唯一解,利用Viterbi算法,对公式(8)加以求解;其中,Quota为经验阈值;
扫描切分序列,在属于Words或TopCharWord的词切分处,分割文本语料,滤除成词切分,把剩余的连续非词切分拼接起来,作为下次迭代的训练语料;
重置OccurS、OccurS→l→r、OccurS→r和Occurl→S
对规模消减的训练语料全切分;扫描全切分序列,根据切分
Figure FDA0003225734460000082
与上下文
Figure FDA0003225734460000083
执行
Figure FDA0003225734460000084
Figure FDA0003225734460000085
更新统计信息;
返回步骤2.1,继续迭代处理。
CN201711477226.0A 2017-12-29 2017-12-29 一种基于迭代的三步式无监督中文分词方法 Expired - Fee Related CN108062305B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711477226.0A CN108062305B (zh) 2017-12-29 2017-12-29 一种基于迭代的三步式无监督中文分词方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711477226.0A CN108062305B (zh) 2017-12-29 2017-12-29 一种基于迭代的三步式无监督中文分词方法

Publications (2)

Publication Number Publication Date
CN108062305A CN108062305A (zh) 2018-05-22
CN108062305B true CN108062305B (zh) 2021-12-17

Family

ID=62140837

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711477226.0A Expired - Fee Related CN108062305B (zh) 2017-12-29 2017-12-29 一种基于迭代的三步式无监督中文分词方法

Country Status (1)

Country Link
CN (1) CN108062305B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101480B (zh) * 2018-06-14 2022-09-06 华东理工大学 一种企业名称的切分方法、装置及计算机可读存储介质
CN108874781A (zh) * 2018-06-29 2018-11-23 北京千松科技发展有限公司 一种用于全媒体科普视窗的分词方法及系统
CN109033085B (zh) * 2018-08-02 2022-09-30 鼎富智能科技有限公司 中文分词系统及中文文本的分词方法
CN112542160B (zh) * 2019-09-05 2022-10-28 刘秀敏 声学模型的建模单元的编码方法、声学模型的训练方法
CN111881678B (zh) * 2020-07-30 2023-11-10 哈尔滨工业大学(威海) 一种基于无监督学习的领域词发现方法
CN112445912B (zh) * 2020-11-06 2022-06-07 苏州浪潮智能科技有限公司 一种故障日志分类方法、系统、设备以及介质
CN113591475B (zh) * 2021-08-03 2023-07-21 美的集团(上海)有限公司 无监督可解释分词的方法、装置和电子设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101149739A (zh) * 2007-08-24 2008-03-26 中国科学院计算技术研究所 一种面向互联网的有意义串的挖掘方法和系统
CN104156349B (zh) * 2014-03-19 2017-08-15 邓柯 基于统计词典模型的未登录词发现和分词系统及方法
CN107193921B (zh) * 2017-05-15 2020-02-07 中山大学 面向搜索引擎的中英混合查询纠错的方法及系统
CN107168955B (zh) * 2017-05-23 2019-06-04 南京大学 利用基于词上下文的字嵌入与神经网络的中文分词方法

Also Published As

Publication number Publication date
CN108062305A (zh) 2018-05-22

Similar Documents

Publication Publication Date Title
CN108062305B (zh) 一种基于迭代的三步式无监督中文分词方法
Cotterell et al. Labeled morphological segmentation with semi-Markov models
CN105068997B (zh) 平行语料的构建方法及装置
CN108984526A (zh) 一种基于深度学习的文档主题向量抽取方法
US20060015326A1 (en) Word boundary probability estimating, probabilistic language model building, kana-kanji converting, and unknown word model building
CN108804423B (zh) 医疗文本特征提取与自动匹配方法和系统
Kann et al. Neural morphological analysis: Encoding-decoding canonical segments
CN106598940A (zh) 基于全局优化关键词质量的文本相似度求解算法
CN108073570A (zh) 一种基于隐马尔可夫模型的词义消歧方法
Bertaglia et al. Exploring word embeddings for unsupervised textual user-generated content normalization
CN106611041A (zh) 一种新的文本相似度求解方法
CN112527981B (zh) 开放式信息抽取方法、装置、电子设备及存储介质
CN112966525B (zh) 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
Zitouni et al. Arabic diacritic restoration approach based on maximum entropy models
CN106156013B (zh) 一种固定搭配型短语优先的两段式机器翻译方法
CN113705237A (zh) 融合关系短语知识的关系抽取方法、装置和电子设备
Ye et al. Improving cross-domain Chinese word segmentation with word embeddings
CN115510863A (zh) 一种面向问句匹配任务的数据增强方法
Bölücü et al. Unsupervised joint PoS tagging and stemming for agglutinative languages
CN111178009B (zh) 一种基于特征词加权的文本多语种识别方法
JP5565827B2 (ja) 統計的機械翻訳のための言語独立な単語セグメント化のための文分離器トレーニング装置、そのためのコンピュータプログラム及びコンピュータ可読媒体。
Luo et al. Unsupervised learning of morphological forests
CN110929022A (zh) 一种文本摘要生成方法及系统
CN110610006B (zh) 基于笔画和字形的形态学双通道中文词嵌入方法
CN113392629B (zh) 基于预训练模型的人称代词消解方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20211217

CF01 Termination of patent right due to non-payment of annual fee