CN103970733B

CN103970733B - 一种基于图结构的中文新词识别方法

Info

Publication number: CN103970733B
Application number: CN201410143875.7A
Authority: CN
Inventors: 陈海强; 程军军; 周欣; 武嘉怡; 陈薇; 王腾蛟
Original assignee: Peking University; China Information Technology Security Evaluation Center
Current assignee: Peking University; China Information Technology Security Evaluation Center
Priority date: 2014-04-10
Filing date: 2014-04-10
Publication date: 2017-07-14
Anticipated expiration: 2034-04-10
Also published as: CN103970733A

Abstract

本发明涉及一种基于图结构的中文新词识别方法，其步骤包括：1）根据词之间的邻接关系将文档集抽象成有权有向图；2）遍历所述有权有向图的所有点，基于共现率选出每一个点的备选新词；3）对所述备选新词进行路径拓展，找到共现率始终大于阈值的最大权值路径，从而得到完整的备选新词；4）根据信息熵对所述完整的备选新词进行过滤，得到最终的备选新词集合。本发明首次提出了将文档集抽象为图结构进行新词发现和识别的方法，将新词发现问题转化为在有向有权图上的最大权重路径寻找问题，很好地利用了图的特点，是一种时间复杂度较低、召回率和准确率都较高的新词发现和识别方法。

Description

一种基于图结构的中文新词识别方法

技术领域

本发明与自然语言处理相关，涉及中文信息处理领域，是一种利用共现率和信息熵的基于图的新词识别方法，能够对新的长词进行精确识别。

背景技术

根据商务印书馆出版的《现代汉语常用词表》，当今社会经常使用的词共有5万多个。但是随着社会的不断发展，尤其是互联网的快速发展，不断创造出现新的词语。一方面，这些词都伴随特殊事件的发生而诞生并爆发式流行，是大众讨论的热点词语，往往包含了大众对时事的态度，使得这些新词本身具有很重要的分析价值；另一方面，在中文信息处理领域，由于中文自身的特点，它不像英文那样在词与词之间有空格间隔，因此，中文自动分词是一项很重要的基础工作。但是这些新词无法被已有的中文分词系统应用，导致不准确的分词结果，进一步影响到基于分词结果的其他分析结果。这些原因使得新词发现和识别技术具有重要的意义。

新词发现方法主要有基于规则和基于统计两种方法。基于规则的方法主要根据新词的构词特征或外型特点建立规则库、专业词库或模式库，然后通过规则匹配发现新词。基于统计的方法则是利用统计策略提取出候选串，然后再利用其他语言信息排除不是新词的垃圾串。

目前与新词发现算法的相关成果较多。郑家恒,李文花在“基于构词法的网络新词自动识别初探”（山西大学学报:自然科学版,2002,25(2):115-119）中完全采用规则的方式识别新词。使用n元递增模型扫描文档提取候选字串，然后使用通用构词规则、特殊构词规则以及互斥字串规则对候选字串进行过滤与召回来获得新词。但是规则构造代价复杂并且受领域限制。Chen A在其文章“Chinese word segmentation using minimal linguisticknowledge”（Proceedings of the second SIGHAN workshop on Chinese languageprocessing-Volume17.Association for Computational Linguistics,2003:148-151）中使用构词规则来提取词头、词缀以及特殊字符的集合，用来识别专有名词和数字，但该方法只对简单命名实体识别有效。Peng F的“Chinese segmentation and new word detectionusing conditional random fields”（Proceedings of The20th InternationalConference on Computational Linguistics COLING2004）完全采用统计的方法，基于字符位置的标记方法训练CRF模型，将可信度高于阈值的词作为新词。这种方法过度依赖于训练集的标注，不适用于语言结构多变的网络数据。以上文献均是具有代表性的新词发现/识别算法，都从一定的角度完成了对新词发现的需求，但他们都不适合结构多变的网络数据，并且因为需要确定词的长度，所以无法识别长词。

发明内容

本发明针对新词发现和识别问题，克服上述现有相应方法存在的不足，提出一种时间复杂度较低、召回率和准确率都较高的新词发现方法，以辅助优化中文分词结果。

本方法将文档集抽象为有权有向图结构，通过遍历寻找图结构上的路径作为候选词，然后根据信息熵对候选词进行过滤得到新词。这种方法能够在词个数的近线性时间复杂度内识别出文档新词，而且能够准确识别新长词。本发明首次提出这种新词发现方法。

本发明的技术方案为：

一种基于图结构的中文新词识别方法，其步骤包括：

1）根据词之间的邻接关系将文档集抽象成有权有向图；

2）遍历所述有权有向图的所有点，基于共现率选出每一个点的备选新词；

3）对所述备选新词进行路径拓展，找到共现率始终大于阈值的最大权值路径，从而得到完整的备选新词；

4）根据信息熵对所述完整的备选新词进行过滤，得到最终的备选新词集合。

进一步地，在步骤1）之前对所述文档集进行分词预处理，如果有分词程序，则直接进行分词，否则默认将每一个字划分为一个词。

进一步地，在步骤3）之后调整图权重，根据生成的最大权重路径，将两个图中所有包含的点和边减去路径上的最小边权重，使已挖掘的新词权重降低，避免高频词掩盖低频新词的情况。

进一步地，在步骤3）之后进行备选新词词频过滤，过滤备选新词中词频小于阈值的新词，然后进行步骤4）所述根据信息熵进行的过滤。

进一步地，步骤4）在得到最终的备选新词集合后，按照词频对备选新词进行排序。

下面具体说明上述各步骤的实施方法：

a）将文档集抽象成有权有向图

构建两个空图：顺序图Glr和逆序图Grl；

遍历文档集，将文档集中每一个词抽象成词图中所有的点，然后根据词的出现频次对点进行赋值；

根据词的邻接关系构建词图中所有的边，根据自左向右的邻接关系构建顺序图，根据自右向左的邻接关系构建了逆序图，并根据关系出现的频次为边赋权。

b）遍历图的所有点，选出备选新词

对于每个点，尝试将其对应词作为新词起点，在Glr里找到该点，遍历它的所有出度，从中找到权重最大的一条边，计算最大顺序共现率：共现率=边权重/点权重。如果最大顺序共现率大于阈值Q，则将该边记录为顺序备选新词，并进行步骤4）的新词拓展。阈值Q的值根据用户需求设定，较大的Q表示更严格的筛选条件，拥有更高的准确率但召回率较低，反之亦然。Q的优选取值是0.5，即保证两个词连续出现的概率超过50%以上。

同样的，在Grl里找到该点，遍历它的所有入度，找到权重最大的一条边，计算最大逆序共现率。如果最大逆序共现率超过阈值Q，则将对应的边记录为逆序备选新词，并对该备选新词进行步骤4）的新词拓展。

c）新词拓展

对于备选新词，如果为顺序备选新词，则循环向前遍历Glr，计算该备选新词起始词的入度，找到权重最大的边，计算最大顺序共现率。如果最大顺序共现率超过阈值Q，则将新的到边加入备选新词，构成一条更长的路径，将整个路径作为备选新词，重复向前拓展，直到最大顺序共现率小于Q。然后循环向后遍历，找到该备选新词结束词的出度，计算最大顺序共现率，不断拓展直到共现率小于Q。最终得到的路径为完整的备选词，记录该备选词并执行步骤5）调整逆序图Grl和顺序图Glr的图权重。

同样的，对于逆序备选词，向前向后循环遍历Grl，直到最大逆向共现率低于Q，得到完整的逆序备选词，记录并执行步骤5）调整逆序图Grl和顺序图Glr的权重。

d）调整图权重。根据生成的最大权重路径，即备选新词，我们寻找并记录这条路径上的最小权重Wmin，将两个图中所有该路径包含的点和边减去该权重Wmin。调整权重后，已挖掘的新词权重降低，使得使用同一个词创造的不同新词能够被发现，避免出现高频新词被发现而低频新词不被发现的情况。

e）备选新词词频过滤。在对所有点都进行分析之后，过滤备选新词中词频小于阈值Qc的新词。Qc的值根据文档集大小及内容设定，对于内容近似的文档集可设定较高的阈值，优选取值在5到20之间。

f）遍历文档集，计算备选新词的信息熵，过滤所有信息熵小于预期Qe的备选新词。Qe的值根据文档集内容设定。

g）得到最终过滤后的备选新词集合，并按照词频对结果进行排序。

本发明首次提出了将文档集抽象为图结构进行新词发现和识别的方法，将新词发现问题转化为在有向有权图上的最大权重路径寻找问题，很好地利用了图的特点，能够准确的发现和识别长词。上述方法通过实验验证了其有效性。

附图说明

图1是本发明的中文新词识别方法的流程图；

图2是词图构建的流程图；

图3是备选词发现过程的流程图。

具体实施方式

下面通过具体实施例和附图，对本发明做进一步说明。

图1是本发明的基于图的新词识别方法的步骤流程图，具体包括如下步骤：

102是对文档集进行分词预处理，如果有分词程序，则直接进行分词，否则默认将每一个字划分为一个词；

104是对文档集进行词图抽象的过程，具体实施方法见图2；

106是对图的遍历，对每一个点进行备选新词的发现分析；

108是对每个点的备选新词发现过程，具体实施方法见图3；

110是对阶段性结果的汇总，将所有备选词进行整理。

112是根据统计值（指词频，通过判断是否小于Qc来进行过滤）和信息熵对备选新词进行过滤操作。

114得到新词发现列表，并对结果排序。

图2是词图构建的流程图，包括如下步骤：

202首先构建两个空图，顺序图和逆序图；

204遍历文档集中的每一个词；

206是判断是否已经完成遍历，如果完成则返回结束。

208是符号过滤，如果是符号则跳过，直接遍历下一个词。

210、212和214将每个词都抽象成了词图中所有的点，然后根据出现频次对点进行赋值。

216、218、220和222根据词的邻接关系构建了词图中所有的边，自左向右的邻接关系构建了顺序图，自右向左的邻接关系构建了逆序图，并根据关系出现的频次为边赋权。

具体的构建词图方法可以是：首先建立两个空图：顺序图Glr和逆序图Grl。然后，遍历文档集，遇到未出现过的词则对两个图Glr，Grl各生成一个点并记录权重为1，出现过的词则对应的点权重加1；如果该词B有左邻接词A，则在Glr生成一条A指向B的边E（A,B）并记录权重为1，若已经存在A指向B的边E（A,B），则直接将边E（A,B）的权重加1。同理在Grl生成一条权重为1的边E（B,A）或更新权重。

图3是对具体的点进行新词发现的流程图，包括如下步骤：

302、304和306是根据相邻词之间的顺序关系计算共现率，通过共现率判断两个词的结合是否紧密，如果共现率大于阈值，那么说明这两个词经常被连在一起使用，很有可能属于同一个词；

308和310是对已经认可的边进行路径拓展，包括向前拓展和向后拓展，找到共现率始终大于阈值的最长路径，保证新词的完整性，使得方法能够发现长词。

312至320是在逆序图上进行的相似工作，计算两个词的逆序共现率，最后生成一条最大权值路径作为备选新词。

322是对原图的权重进行更新，对于新词路径上的所有点和边，减去备选新词路径的最小权重，使得在备选新词发现之后能够再次发现包含同一个词的新词，避免高频词掩盖了低频新词的情况。

表1是在微博影评数据集上的各类新词发现/识别算法对比结果。该数据集包括网络评论新词（如伤不起、坑爹、给力等），人名（如黄渤、赵薇等），电影名（如致我们终将逝去的青春、厨子戏子痞子、中国合伙人等）等各种新词。基于规则的方法能够保证很高的准确率，但是召回率非常低，无法应用于构词多变的网络数据；基于统计的方法能够保证短词（四个字以内）的召回率与准确率，但无法挖掘到长词。本发明的方法利用图的特性，能够准确识别新长词，并保持短词的准确率与召回率在较高水平。

表1.各类新词识别方法的结果对比

	基于规则	基于统计	基于图
				短词准确率	95%	82%	85%
短词召回率	7%	86%	88%
				长词准确率	0%	0%	100%
长词召回率	0%	0%	95%

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求所述为准。

Claims

1.一种基于图结构的中文新词识别方法，其步骤包括：

1)根据词之间的邻接关系将文档集抽象成有权有向图；

2)遍历所述有权有向图的所有点，基于共现率选出每一个点的备选新词；其中，共现率＝边权重/点权重；所述选出每一个点的备选新词的方法为：

对于每个点，在顺序图里找到该点，遍历其所有出度，从中找到权重最大的一条边，计算最大顺序共现率，如果最大顺序共现率大于阈值Q，则将对应的边记录为顺序备选新词；

同样的，在逆序图里找到该点，遍历其所有入度，从中找到权重最大的一条边，计算最大逆序共现率，如果最大逆序共现率超过阈值Q，则将对应的边记录为逆序备选新词；

3)对所述备选新词进行路径拓展，找到共现率始终大于阈值的最大权值路径，从而得到完整的备选新词；

4)根据信息熵对所述完整的备选新词进行过滤，得到最终的备选新词集合。

2.如权利要求1所述的方法，其特征在于：在步骤1)之前对所述文档集进行分词预处理，如果有分词程序，则直接进行分词，否则默认将每一个字划分为一个词。

3.如权利要求1或2所述的方法，其特征在于，步骤1)将文档集抽象成有权有向图的方法为：

1.1)构建两个空图：顺序图和逆序图；

1.2)遍历文档集，将文档集中每一个词抽象成词图中所有的点，然后根据词的出现频次对点进行赋值；

1.3)根据词的邻接关系构建词图中所有的边，根据自左向右的邻接关系构建顺序图，根据自右向左的邻接关系构建了逆序图，并根据关系出现的频次为边赋权。

4.如权利要求1所述的方法，其特征在于，步骤3)进行路径拓展的方法为：

对于顺序备选新词，循环向前遍历顺序图，计算该备选新词起始词的入度，找到权重最大的边，计算最大顺序共现率；如果最大顺序共现率超过阈值Q，则将对应的边加入备选新词，构成一条更长的路径，将整个路径作为备选新词；重复向前拓展，直到最大顺序共现率小于Q；然后循环向后遍历，找到该备选新词结束词的出度，计算最大顺序共现率，不断拓展直到共现率小于Q；最终得到的路径为完整的顺序备选新词；

同样的，对于逆序备选新词，向前向后循环遍历逆序图，直到逆向共现率低于Q，得到完整的逆序备选词。

5.如权利要求1所述的方法，其特征在于：在步骤3)之后调整图权重，根据生成的最大权重路径，将两个图中所有包含的点和边减去路径上的最小边权重，使已挖掘的新词权重降低，避免高频词掩盖低频新词的情况。

6.如权利要求1所述的方法，其特征在于：在步骤3)之后进行备选新词词频过滤，过滤备选新词中词频小于设定的词频阈值的新词，然后进行步骤4)所述根据信息熵进行的过滤。

7.如权利要求1所述的方法，其特征在于：步骤4)在得到最终的备选新词集合后，按照词频对备选新词进行排序。