CN108509425B

CN108509425B - 一种基于新颖度的中文新词发现方法

Info

Publication number: CN108509425B
Application number: CN201810319616.3A
Authority: CN
Inventors: 贺伟雄; 凌海风; 王清; 陈海松; 苏正炼; 骆华东
Original assignee: Army Engineering University of PLA
Current assignee: Army Engineering University of PLA
Priority date: 2018-04-10
Filing date: 2018-04-10
Publication date: 2021-08-24
Anticipated expiration: 2038-04-10
Also published as: CN108509425A

Abstract

本发明涉及一种基于新颖度的中文新词发现方法，包括将所有候选新词的新颖度从大到小排序，取中间值作为阈值，过滤掉小于阈值的所有词后形成新词库并进行新词输出。本发明是基于N‑gram算法建立了二元语料模型，并在二元互信息基础上，结合词语特征，给出了三元到N元互信息的表示方式，并采用互信息与邻接熵阈值过滤。针对互信息只能表现词语出现概率大小，而不能体现是否新词的特点，以旧语料为筛选来源，引入了新颖度来优化和过滤新词候选集合。基于现有准确率和召回率等新词发现评价指标计算复杂、不确定性大的不足，提出了新的t‑MP评价指标替换原来的准确率、召回率和F‑value说明新词发现的结果有效性。使用户可以根据所需发现新词的数量和置信程度来从排序的候选新词中获取最佳新词。

Description

一种基于新颖度的中文新词发现方法

技术领域

本发明属于自然语言处理技术领域，涉及一种基于本发明提出的新颖度与新评价指标的中文新词发现方法。

背景技术

随着智能社会的到来，自然语言的处理成为学者研究的热点，词作为自然语言处理的基本单位，代表了一个语义单元，词划分的正确与否直接决定了自然语言处理系统的性能好坏。社会网络的不断扩大使得新词产生数量大、周期短、传播迅速，推动了新词发现在中文分词、词性标注、文本归类等方面的广泛运用。

目前“新词”定义尚不统一，一般认为具有固定搭配，尚未出现过(包括旧词新用)较大范围内使用的词语。新词发现是指从文本中以自动或半自动的方式获得未登录词，其中，半自动是指需要适度的进行人工干预。对于新词发现的方法，目前广泛采用的有基于规则、基于统计量、规则和统计融合三种。

基于统计的方法是通过多种统计策略，从语料库中提取出候选新词，找出最相关的字串组合。这种方法的可移植性较好，适应力强，但是必须提供较大的语料进行训练，当数据稀疏时易出现准确率较低的情况。

基于规则的方法需要借用领域专家的知识构造词语来学习词性、语义信息，形成规则模板，使用实验数据和这些模板或规则进行匹配，最终实现新词的发现。基于规则方法一般是针对特定的领域，因此可移植性不佳，通过消耗大量的人力、物力来获得特定的规则。

而基于统计和规则过滤的方法是将新词发现过程作为一个通过新词规则和统计结果不断对候选新词集进行筛选的过程。将统计与规则相结合来进行新词发现有利于融合两者的优点，提高新词发现的效果，成为了众多学者研究的方向。

发明内容

本发明所要解决的技术问题是，克服现有技术的缺点，提供一种综合多元互信息、邻接熵与相对旧语料库的新颖度值来进行中文新词发现的方法，并提出了新的新词发现效果评价指标。

为了解决以上技术问题，本发明提供一种基于新颖度的中文新词发现方法，其主要包括几下步骤：

步骤1，建立初始分词库

对获取的新语料采用二元模型，基于常用停用词、停用符号进行中文分词，建立初始分词库；分词工具推荐使用基于python的jieba分词模块。

步骤2，过滤初始分词库

根据预定的词频数阈值和最大字符长度过滤初始分词库；

步骤3，计算互信息

由二元互信息表达式拓展到三元和n元互信息计算，并引入最小互信息和平均互信息；

步骤3.1，二元互信息MI(x,y)计算公式

其中，N为新加入语料中所有词出现的频数和，f(x)代表新语料库中x出现的频次，f(x,y)表示以x在前，y在后形式出现的频次，p(x)、p(x,y)则表示对应的概率；

步骤3.2，三元互信息计算公式

若新词由三个词C＝(w₁,w₂,w₃)构成，将其分成A、B两部分则有两种分隔方法，A＝(w₁,w₂)且B＝w₃和A＝w₁且B＝(w₂,w₃)，两者互信息表示方法为：

三元互信息综合考虑上面两种情况，形成最小和平均两种表达形式：

MI-Min(w₁,w₂,w₃)＝Min(MI₁,MI₂)

步骤3.3，最小与平均两种计算方式可拓展到n元；

MI-Min(w₁,w₂,...,w_n)＝Min(MI₁,MI₂,...,MI_n-1)

步骤4，初始候选新词库的建立

将所有初始分词库的互信息从大到小排序，取中间值作为阈值，过滤掉小于阈值的所有词，形成初始候选新词库；

步骤5，通过旧词语料库，计算候选新词的新颖度

选择一个已有的语料库作为旧词语料库，将其分词之后统计其中每个词的频数，由(w₁,w₂,…,w_n)组成的n元候选新词W的新颖度NP，公式设定为：

其中f’(w_i)是w_i在旧语料库中出现的频数，f’(w_i,w_i+1)是(w_i,w_i+1)作为一个整体在旧语料库中出现的频数；

步骤6，候选新词的过滤及输出

将所有候选新词的新颖度从大到小排序，取中间值作为阈值，过滤掉小于阈值的所有词之后形成新词库并进行新词输出；

步骤7，提出了t-MP指标，用于替代准确率(Precision)、召回率(Recall)和F-value对新词发现结果进行评价。t-MP的计算公式为：

t为拟选定出来的新词数量，m为新词概率从高到低排序前t个词中采用人工或搜索引擎判定出的新词正确数量。可见，用判定t个新词准确率来替换计算所有发现新词的准确率，将会大大降低人工干预的程度，特别是当新词发现数量较多，准确率较低时，计算量会大大减少。

另外，t-MP指标还可以设定置信水平α，当用户希望输出的m个词具有α可信度时，则

显然，当α值较高时，可以认为所有t个新词以高可信度直接输出，这在一些权威报道上对新词准确性要求较高时具有很好的实用性。

本发明进一步限定的技术方案为：在步骤4和步骤5之间还包括计算所有初始候选新词的左右邻接熵计算、对候选新词进行拓展并设定阈值进行过滤的步骤；所述左右邻接熵的计算公式为：

左邻接熵：

右邻接熵：

其中，p(a|x)表示a为候选词x的左邻接字符的概率，p(b|x)表示b为候选词x的右邻接字符的概率；先统计左右连接词及其频数；当某词频数小于步骤1中设定的词频阈值时，过滤该词，不计算其邻接熵；所有计算出的词邻接熵并按照从大到小排序，设定中间值为阈值，低于阈值的不进入候选新词库。

进一步的，所述中文分词的步骤中所述的停用符号包括标点符号、数字以及大小写英文字母。

进一步的，步骤2中的词频数阈值不大于10，最大字符长度范围为10～20。

本发明的有益效果是：本发明是基于N-gram算法建立了二元语料模型，并在二元互信息基础上，结合词语特征，给出了三元到n元互信息的表示方式，并采用互信息与邻接熵阈值过滤。针对互信息只能表现词语出现概率大小，而不能体现新的特点，以旧语料为筛选来源，引入了新颖度来优化和过滤新词候选集合。基于现有准确率和召回率等新词发现评价指标计算复杂、不确定性大等不足，提出了新的t-MP评价指标替换原来的准确率、召回率和F-value说明新词发现的结果有效性。使用户可以根据所需发现新词的数量和置信程度来从排序的候选新词中获取最佳新词。

附图说明

图1为实施例1提供的中文新词发现方法流程图。

图2为实施例1涉及到的语料分类。

图3(a)、图3(b)为实施例1与改进互信息和邻接熵的新词发现方法(简称MBN-Gram)、点互信息新词发现方法(简称PMI^k)的对比试验数据图。

具体实施方式

实施例1

本实施例提出一种基于新颖度与新评价指标的中文新词发现方法，算法流程如图1所示，对新词发现方法和评价指标进行了验证。本实施例将以《解放军报》2017年9月份文章作为新词语料进行新词发现。首先，进行预先准备工作：

对旧语料分词，构成过滤词典。本实施例中涉及到的旧语料文本内容有多种，由方法使用者提供，主要包含：通用旧语料与专用旧语料两种。通用旧语料采用的是维基百科的中文词条，它的作用是对用户提供的新语料进行通用词语的过滤。而专用语料则针对不同用户的具体领域，如用户主要需求为经济方面的新词发现，则构建针对经济方面的专有旧语料库，用以过滤用户提供的新语料中过多的专用名词，属于特定目标的语料。而针对专用语料还需分为书面语和口头语，书面语具有正规性、权威性，主要用于各大主流媒体、报纸等官方报道用词，是新词的主要来源。口头语则相对更加随意，新词产生和传播速度较快，主要通过微博、微信等多种网络社交软件上产生，虽没有书面语正式，但已经成为新词的另一重要来源。旧语料的文本时间应当距离用户提供的新语料生成的文本时间较近，否则过滤效果将降低，所有语料分类如图2。

在图1所示的流程开始之前，方法使用者已经对旧语料进行了获取和相应处理，主要包括基于常见停用词和停用字符表1,结合Bi-gram二元模型对其分词，统计各词的频数，针对通用、专用(书面或口头语)形成旧语料过滤词典。

其具体实施步骤如下：

步骤1，中文分词

对新语料进行中文分词。主要采用与对旧语料处理类似的方法，如停用词、停用字符过滤，二元模型分词方法得到用户提供语料的分词词库，并统计其词频，设定词频阈值为5和词语长度限制10，当新语料中的词语低于5次或总字符长度大于10时，认为该词语的出现存在偶然性或缺乏广泛性，过滤该词。

本实施例中文分词采用二元分词模型，指定词的出现只与其前面1个词相关，具体表达式为：

其中，f(w_i)代表语料库中w_i出现的频次，f(w_i,w_i+1)表示以w_i在前，w_i+1在后形式出现的频次，P(w_i)、P(w_i,w_i+1)则表示对应的概率，P(w_i+1|w_i)表示条件概率。例如，在本实施例中，专用旧语料中的“中国”出现的次数是29485次，“中国海警”出现次数为29次，“中国”后面接“海警”的概率为p(海警|中国)＝0.0983％

步骤2，初始分词库的建立

参考设定的词频数阈值和最大字符长度限制过滤初始分词库；词频数阈值不大于10，最大字符长度范围为10～20。

步骤3，互信息的计算

根据二元或者发明的三元互信息计算方法，来获取新语料中每个词的互信息。

步骤3.1，二元互信息MI(x,y)计算；

当词为二元词时，采用计算表达式为：

例如，在本实施例的新语料中，词总数N＝408700，“种植”出现的频次f(种植)＝13，“牙”出现的频次f(牙)＝6，“种植牙”出现频次f(种植，牙)＝5，那么“种植/牙”的互信息为4.418。

步骤3.2，三元互信息MI(x,y)计算；

当词为三元词时，需要将其划分为两种形式，分别计算两种情况下的互信息，具体计算表达式为：

在本实施例中，以计算“暖/心/礼包”三元互信息为例，其中w₁＝暖，w₂＝心，w₃＝礼包。统计得到f(w₁,w₂,w₃)＝4，f(w₁)＝36，f(w₃)＝4，f(w₁,w₂)＝19，f(w₂,w₃)＝4，N＝408700，那么按公式计算可得互信息：MI₁＝14.39，MI₂＝13.47。

步骤3.3，拓展到n元互信息的最小与平均计算；其公式分别为：

采用最小或者平均值方法输出最后的互信息值。最小或者平均值方法计算方式为,以三元互信息为例，其计算公式为：

MI-Min(w₁,w₂,w₃)＝Min(MI₁,MI₂)

针对“暖心礼包”的三元互信息，其MI-Min＝13.47，MI-Avg＝13.93。

步骤4，初始候选新词库的建立

根据所有词的互信息进行从大到小排序，取中间值作为阈值，过滤掉小于阈值的所有词，形成初始候选新词库；

步骤5，构建每个可能候选新词的邻接列表后，记录每个可能邻接词的出现次数，当低于频数阈值时，不计算该词的邻接熵。对于通过频数阈值的词而言，邻接熵计算方式为：

左邻接熵：

右邻接熵：

其中，p(a|x)表示a为候选词x的左邻接字符的概率，p(b|x)表示b为候选词x的右邻接字符的概率，根据所有词的邻接熵进行从大到小排序，取中间值作为阈值，过滤掉小于阈值的所有词，形成候选新词库。

步骤5，候选新词的新颖度NP计算

本发明引入词新颖度，依靠旧语料库形成的过滤词典，计算新词在旧语料中的成词概率，概率越低说明词的新颖度越高。

词新颖度定义为：假设有一个旧语料的二元语言模型M，可以计算由(w₁,w₂,…,w_n)组成的n元新词W出现的概率p(W)为：

p(W)＝p(w₁)p(w₂|w₁)p(w₃|w₂)…p(w_n|w_n-1)

其中，式中的第一项p(w₁)的意义是w₁的出现概率，如果仅考量(w₁,w₂,…,w_n)的成词概率时，可以忽略掉该项。此时，W的成词概率p′(W)为：

忽略p(w₁)的好处在于可以减少计算量，同时提高各个词在计算p(w)中的区分度。在求p(w_i)时需要除以所有词出现的总频数f，在一般的语料库中，f的值较大，这会导致计算所有词的p(w_i)都变得很小，相互间的区分度太低，若不考虑p(w₁)将会增大比值，提高区分度。此时，新颖度NP的计算公式如下：

其中f’(w_i)是w_i在旧语料库中出现的频数，f’(w_i,w_i+1)是(w_i,w_i+1)作为一个整体在旧语料库中出现的频数。一般来说，NP越大，说明新词在旧语料库中成词的概率越低，那么新颖度就越高。考虑到有部分新词的组合是不会出现在旧语料中的，此时某一项f’(w_i,w_i+1)，会导致NP的值不存在。为了使计算过程更为平滑，在统计频次时对于所有的频数f加1，变为下面的形式：

由于中文的词汇太多，对于任意的w_i，当w_i在旧语料库中出现过，此时NP>0，NP越大说明词汇新颖度越高；当w_i在旧语料库中没有出现过时，f’(w_i)与f’(w_i,w_i+1)都为0，使得NP＝0，此时也能说明词汇的新颖度很高。

在本实施例中，部分词的新颖度计算如下表所示：

w<sub>1</sub>	w<sub>2</sub>	NP
			时间	节点	6.52
综合	文化	9.29
			国家	战略	6.47
群众	纪律	7.41
			北斗	导航	2.96

步骤6，候选新词的过滤及输出

将所有候选新词的新颖度从大到小排序，取中间值作为阈值，过滤掉小于阈值的所有词后形成新词库并进行新词输出；

步骤7，t-MP指标的计算

设置t-MP指标用以替代准确率(Precision)、召回率(Recall)和F-value对新词发现结果进行评价。t-MP的计算公式为：

另外，在步骤4和步骤5之间还包括计算所有初始候选新词的左右邻接熵计算、对候选新词进行拓展并设定阈值进行过滤的步骤；所述左右邻接熵的计算公式为：

左邻接熵：

右邻接熵：

当t＝20时，本实施例分别在通用旧语料和专用旧语料条件下找到的新词如下表所示：

从实验结果来看，本发明提出的方法在不同的旧词语料中性能有一定差别。在口语中进行新词发现，采用专用旧词模型和通用旧词模型差别不大，均能得到相似的结果，如图3(a)所示。但词语量上，通用旧词模型的规模远远大于专用模型，内存消耗大，因此在口语环境中进行新词发现，例如微博、贴吧、论坛等数据中，采用专用旧词模型更好。不仅如此，可以预料到的是随着口语专用旧词模型的增大，性能应具有一定的提升空间。而书面语进行新词发现时，采用通用旧词模型的性能明显优于专用模型。对比图3中的图a、b可看出，相对书面语而言，口语新词发现准确率相对低一些，但本发明算法t-MP值仍远远高于另外两种方法。

除上述实施例外，本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案，均落在本发明要求的保护范围。