CN105760366A

CN105760366A - 针对特定领域的新词发现方法

Info

Publication number: CN105760366A
Application number: CN201610150038.6A
Authority: CN
Inventors: 王卿; 吴琼; 程工; 杜漫; 庞琳; 李雄; 刘春阳; 张旭
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2015-03-16
Filing date: 2016-03-16
Publication date: 2016-07-13
Anticipated expiration: 2036-03-16
Also published as: CN105760366B

Abstract

本发明提供一种针对特定领域的新词发现方法，包括以下步骤：步骤1，文档预处理；步骤2，构建候选新词集；其中，每个候选新词由词语、该词语距离所述中心词语的距离向量值以及所述中心词语均采用新词表述方式表达。步骤3，候选新词挖掘；优点为：针对特定领域的新词发现方法，采用更灵活的新词表达方式，将数据挖掘领域的关联规则方法引入新词发现过程，并创新地提出将词汇与指定关键词的距离向量作为关联规则挖掘的重要特征，由此可快速准确全面的识别出文档包含的所有新词。

Description

针对特定领域的新词发现方法

技术领域

本发明属于新词发现以及文本挖掘技术领域，具体涉及一种针对特定领域的新词发现方法。

背景技术

随着信息技术和互联网技术的飞速发展，网络上充斥着各种各样的信息，并呈现出指数增长的趋势。在各个专业领域，互联网信息也爆炸式地产生和增长。

在上述网络信息增长过程中，新词不断涌现，对于中文新词的发现，尤其是特定领域的中文新词发现，具有重要意义：一方面，新词的大量而快速地涌现，严重影响中文分词结果的质量，致使分词结果中出现较多的不可识别的“单字”，大大降低了分词结果的准确率，最近的研究还显示，60％的分词错误是由新词导致的，因此，有效地识别新词，将为观察研究分析语言现象的动态变化、规范语言文字以及提高中文自动分词的总体效果起到重要的作用。另一方面，新词发现对于舆情监控、话题检测等挖掘技术的应用也十分关键，可以说，新词发现是这些应用的基础和前提。

由此可见，准确高效的发现新词，具有重要意义。现有技术中虽然出现了少量的新词发现算法，但是，现有的新词发现算法，普遍具有算法复杂度高的问题，难以快速准确的识别出新词；还具有新词识别不全面的问题，难以全面识别出被分析文档包含的所有新词。

发明内容

针对现有技术存在的缺陷，本发明提供一种针对特定领域的新词发现方法，可有效解决上述问题。

本发明采用的技术方案如下：

本发明提供一种针对特定领域的新词发现方法，包括以下步骤：

步骤1，文档预处理：基于中文词库，采用中文分词算法对所述原始文档集进行中文分词处理，将所述原始文档集转化为词语序列；

步骤2，构建候选新词集，包括：

步骤2.1，指定所述词语序列中的某个词语作为中心词语，并设定扫描窗口区间；其中，设所述扫描窗口区间为[-a,+b]；a和b为正整数或0，并且，a等于或不等于b；

步骤2.2，对于步骤1得到的所述词语序列，以所述中心词语为中心，并从所述中心词语开始，分别向前逆向扫描和向后正向扫描；

其中，向前逆向扫描方法为：在逆向扫描过程中，只要扫描到文档开始位置，即停止扫描；否则，向前逆向逐个扫描每个词语，并判断扫描到的词语距离所述中心词语的距离是否大于a，如果不大于，则记录扫描到的每个词语以及该词语距离所述中心词语的距离向量值；如果大于，则停止扫描；

向后正向扫描方法为：在正向扫描过程中，只要扫描到文档结束位置，即停止扫描；否则，向后正向逐个扫描每个词语，并判断扫描到的词语距离所述中心词语的距离是否大于b，如果不大于，则记录扫描到的每个词语以及该词语距离所述中心词语的距离向量值；如果大于，则停止扫描；

由此得到扫描窗口内的每个词语以及该词语距离所述中心词语的距离向量值；

步骤2.3，步骤2.2扫描得到的每个词语、该词语距离所述中心词语的距离向量值以及所述中心词语均采用新词表述方式表达，形成候选新词；将所有的候选新词所构成的集合，称为候选新词集；

步骤3，候选新词挖掘：对所述候选新词集中的每个所述候选新词进行进一步的挖掘分析，判断每个所述候选新词是否满足新词构成要求，如果满足，则该候选新词即作为最终挖掘到的新词，并输出所述挖掘到的新词；否则，丢弃该候选新词。

优选的，步骤1中，所述中文分词算法为中国科学院计算技术研究所的ICT-CLAS中文分词算法。

优选的，步骤1中，还包括：

在采用中文分词算法对所述原始文档集进行中文分词处理，得到词语序列后，去除所述词语序列中包括的停用词，得到处理后的词语序列。

优选的，步骤3具体为：

设定置信度，并采用关联规则挖掘算法，对所述候选新词集中的每个所述候选新词进行进一步的挖掘分析，得到满足置信度的新词。

优选的，所述关联规则挖掘算法为Apriori算法。

优选的，步骤3之后，还包括：

步骤4，对于步骤3挖掘到的新词，将该新词录入步骤1所使用的所述中文词库，进而可优化后续中文分词效果。

本发明提供的针对特定领域的新词发现方法具有以下优点：

针对特定领域的新词发现方法，采用更灵活的新词表达方式，将数据挖掘领域的关联规则方法引入新词发现过程，并创新地提出将词汇与指定关键词的距离向量作为关联规则挖掘的重要特征，由此可快速准确全面的识别出文档包含的所有新词。

附图说明

图1为本发明提供的针对特定领域的新词发现方法的简要流程图；

图2为本发明提供的针对特定领域的新词发现方法的详细流程图。

具体实施方式

以下结合附图对本发明进行详细说明：

随着中文分词领域地不断发展，出现了两个概念：新词和未登录词。虽然二者有所区分，未登录词是指未收录到词典中的词语，新词则是具有新的形式、含义和用法的词语，新词也是在词典中未出现的词语，也属于未登录词，但新词的含义更广。经统计整理，可将新词分为以下五种类别：

(1)缩略词，指用一个较长词汇中的某几个字代替整个词汇的词，分为中文缩略词和英文缩略词。如“中国石油天然气股份有限公司”缩略为“中石油”，“GeneralManager”缩略为“GM”；

(2)专有名词，主要包括人名、地名、机构名。如“张三”、“中关村”、“百度”。

(3)派生词，主要指含有前缀或后缀词素的词，如“信息化”。

(4)复合词，由动词或名词等组合而成，如“计算机网络”。

(5)数字类复合词，即组成成分中含有数字，包括时间、日期、电话号码、地址、数字等，如“2015年”、“八千万”。

新词作为词组，即为字词的组合搭配，传统的词汇指的是紧密相连的两个或多个字词的排列，即组成词汇的元素之间的距离间隔为0。然而在某些特殊领域，词汇与词汇之间有较为确定的非0的距离关系，如词汇A和词汇B之间间隔3个汉字。而这种词汇A和词汇B的这种固定组合方式，在本发明中也视作新词。也就是说，本发明所指的新词，是广义上的新词，不止包含新的词语，还包含特定距离间隔的词组搭配，例如，“红色xxx月亮”，其中“xxx”表示三个任意字符。此处的“红色”、“月亮”及其中间间隔的三个任意字符即为一个词组搭配，属于本发明创新提出的新词表达方式，而且，本发明主要针对该类由词组搭配构成的新词进行发现。

因此，在本发明广义的新词定义情况下，新词的表达方式除了构成词的元素外，还包括各个元素之间的距离位置信息。

对于上述由词组搭配构成的新词，本发明提供一种针对特定领域的新词发现方法，采用更灵活的新词表达方式，将数据挖掘领域的关联规则方法引入新词发现过程，并创新地提出将词汇与指定关键词的距离向量作为关联规则挖掘的重要特征，由此可快速准确全面的识别出文档包含的所有新词。

本发明提供的针对特定领域的新词发现方法，如图1所示，可大致描述为三个步骤：

步骤a，文档预处理：将原始文档集作为输入，通过中文分词等方法将其转化为词语序列。

步骤b，构建候选新词集：根据步骤1输出的词语序列和指定的中心词，利用本发明介绍的新词表述方式，将位于中心词窗口范围内的词汇组合构建成候选新词集。

步骤c，新词挖掘：通过将步骤b中构建的候选新词的各项特征作为数据挖掘特征，采用关联规则挖掘算法(如Apriori算法)对频繁项集进行挖掘，得到满足一定置信度的新词。

下面结合图2，对本发明方法进行详细介绍：

本步骤中，所处理的原始文档集可以由任意数量的原始文档组成，当然，也可以仅由一个原始文档组成，本发明对此并不限制。

此处所采用的中文分词算法可以为中国科学院计算技术研究所的ICT-CLAS中文分词算法，当然，也可以在此基础上进行针对特定领域的新词扩展，提供了导入特定领域专业词汇的接口。同时，为保证分词质量，可以去除分词结果中的停用词，包括传统停用词、以及针对特殊领域的专业停用词，尽可能地过滤掉噪音词汇。

步骤2，构建候选新词集，包括：

步骤2.1，指定所述词语序列中的某个词语作为中心词语；其中，中心词为所要关注的核心词汇，可根据实际需求任意指定；

设定扫描窗口区间；其中，设所述扫描窗口区间为[-a,+b]；a和b为正整数或0，并且，a等于或不等于b；例如，扫描窗口区间可以为[0,+10]、[-11,0]或[-11,+10]等。当a或b为0时，只需要进行单方向扫描即可。

例如，将词语A作为中心词，其在文档中位置为n，假设设定窗口大小为[-20,+20]。对于向前逆向扫描，则分别扫描位于n-1，n-2，…，n-20的词语，若遇到文档开始位置则停止扫描；对于向后正向扫描，则分别扫描位于n+1，n+2，…，n+20的词语，若遇到文档结束位置则停止扫描。此时，即可将在窗口内的词语表述为词语本身以及其距离中心词的距离向量。

此处需要强调的是，窗口内的词语表述为词语本身以及其距离中心词的距离向量，距离向量的含义为：不仅为词语与中心词的距离值，还与距离在中心词前面或后面出现的方向有关，例如，对于词语序列“ABCD”，假设B为中心词，则A距B的距离向量为-1；而C距B的距离向量为+1。也就是说，方向体现的为词语和中心词的前后顺序关系。

本发明中，通过扫描窗口范围内的词汇，将其与中心词组合，连同其与中心词之间的距离向量构成候选新词。

假设文档内容为“ABCDE”，分词结果为“ABCDE”，即：分词后，得到5个词语。如果指定中心词为C，窗口大小设定为[-2,+2]。则构成的候选新词集为(A，C，-2)，(B，C，-1)，(D，C，+1)，(E，C，+2)。

本步骤具体为：设定置信度，并采用关联规则挖掘算法，例如，Apriori算法，对所述候选新词集中的每个所述候选新词进行进一步的挖掘分析，得到满足置信度的新词。

具体的，在指定中心词后，根据前述方法可以构成很多的候选新词。而这些候选新词需要进行进一步的检验，本发明运用数据挖掘算法中的关联规则挖掘算法，例如，可采用最常用的Apriori算法，关于Apriori算法的原理和实现在此处不做展开。同时设定置信度，通过对所述候选新词集中的每个所述候选新词进行进一步的挖掘分析，得到满足置信度的新词。

步骤3之后，还包括：

本发明主要包括三个关键点：

关键点1，创新的新词定义方法，更灵活的新词表达方式。

在某些特殊领域，某些新词常会在距离中心词一定距离的范围内出现，而现有的新词发现方法，难以发现该类新词。而本发明中，在设定中心词和扫描窗口后，以中心词为起始点，分别从前后两个方向，正向和逆向扫描文档中的字词，经过统计分析，即可有效地发现该类新词。

关键点2，指定中心词的新词发现方法。指定中心词，以该中心词为中心，给定左右窗口长度，计算窗口内的词汇离中心词的距离向量，并以此作为特征，统计和挖掘出新的词汇搭配。

关键点3，基于距离信息的新词挖掘方法。将文档中的词语用词语本身及其位置信息来表述，采用数据挖掘方法中的关联规则的挖掘方法来发现搭配方式较为固定的词汇组合，在满足一定置信度的前提下，将其作为新词。

综上所述，本发明提供的针对特定领域的新词发现方法具有以下优点：

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种针对特定领域的新词发现方法，其特征在于，包括以下步骤：

步骤2，构建候选新词集，包括：

2.根据权利要求1所述的针对特定领域的新词发现方法，其特征在于，步骤1中，所述中文分词算法为中国科学院计算技术研究所的ICT-CLAS中文分词算法。

3.根据权利要求1所述的针对特定领域的新词发现方法，其特征在于，步骤1中，还包括：

4.根据权利要求1所述的针对特定领域的新词发现方法，其特征在于，步骤3具体为：

5.根据权利要求4所述的针对特定领域的新词发现方法，其特征在于，所述关联规则挖掘算法为Apriori算法。

6.根据权利要求1所述的针对特定领域的新词发现方法，其特征在于，步骤3之后，还包括：