CN107180025A

CN107180025A - 一种新词的识别方法及装置

Info

Publication number: CN107180025A
Application number: CN201710210572.6A
Authority: CN
Inventors: 胡海青; 苗艳军
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2017-03-31
Filing date: 2017-03-31
Publication date: 2017-09-19
Anticipated expiration: 2037-03-31
Also published as: CN107180025B

Abstract

本发明实施例提供了一种新词的识别方法及装置，所述方法包括：获取待处理语料库中当前时间点之前的第一预设时间段内的语料，和待处理语料库中除第一预设时间段内的语料之外的剩余语料；根据N‑gram语言模型获取第一预设时间段内的语料的候选新词，N‑gram语言模型表征组成候选新词的字的个数；计算候选新词在第一预设时间段内的语料中的成词特征，得到候选新词的第一成词程度；计算候选新词在剩余语料中的成词特征，得到候选新词的第二成词程度；根据第一成词程度和第二成词程度，计算候选新词的新颖程度；根据第一成词程度和新颖程度，计算候选新词的衡量度，并对衡量度进行排序，识别候选新词中的新词。应用本发明实施例，有效提高新词识别的准确率。

Description

一种新词的识别方法及装置

技术领域

本发明涉及信息挖掘技术领域，特别是涉及一种新词的识别方法及装置。

背景技术

随着时代的发展与技术的进步，新词大量出现已经成为不可避免的语言现象，新词在一定程度上是指最近特别流行并兴起的词，如“老九门”、“蓝瘦”、“香菇”、“怒路症”等。新词识别是自然语言处理、自动分词、信息检索、词典编纂以及机器翻译等领域的一项基础研究，从特定领域的语料库中发现的新词可以丰富人类语言知识，帮助解决一些歧义切分的问题。

现有的基于统计的新词识别的方法，先通过统计特征提取候选新词，然后利用语言知识排除不是新词的词。具体的，先对文本进行分词提取语料库中所有的候选新词，然后通过对分词后的词每个候选新词进行统计分析，根据统计成词特征(比如，词性、词的互信息、词的信息熵等)计算每个候选新词的成词程度，再根据提取符合该统计成词特征的词作为候选新词，并对每个候选新词的成词程度对这些候选新词进行排序，再最后利用语言知识排除这些候选新词排序中不是新词的词，得到新词的排序，并提取新词。

但是，现有的基于统计的新词识别方法，需要对语料库中的每个候选新词进行成词特征计算，并根据成词特征计算到的成词程度来识别新词，但利用所有语料的数据进行计算，笼统的识别语料进行提取，导致新词识别的准确率不高。

发明内容

本发明实施例的目的在于提供一种新词的识别方法及装置，提高新词识别的准确率。具体技术方案如下：

本发明实施例公开了一种新词的识别方法，所述方法包括：

获取待处理语料库中当前时间点之前的第一预设时间段内的语料，和所述待处理语料库中除所述第一预设时间段内的语料之外的剩余语料；

根据N-gram语言模型获取所述第一预设时间段内的语料的候选新词，所述N-gram语言模型表征组成所述候选新词的字的个数；

计算所述候选新词在所述第一预设时间段内的语料中的成词特征，得到所述候选新词的第一成词程度；

计算所述候选新词在所述剩余语料中的成词特征，得到所述候选新词的第二成词程度；

根据所述第一成词程度和所述第二成词程度，计算所述候选新词的新颖程度；

根据所述第一成词程度和所述新颖程度，计算所述候选新词的衡量度，并对所述衡量度进行排序，识别所述候选新词中的新词。

可选的，所述成词特征包括：互信息，信息熵，孤立度中的一种或多种，

所述计算所述候选新词在所述第一预设时间段内的语料中的成词特征，得到所述候选新词的第一成词程度，包括：

根据所述第一预设时间段内的互信息、信息熵和孤立度，得到所述候选新词的第一成词程度；

所述计算所述候选新词在所述剩余语料中的成词特征，得到所述候选新词的第二成词程度，包括：

根据所述剩余语料中的互信息、信息熵和孤立度，得到所述候选新词的第二成词程度。

可选的，所述根据所述第一预设时间段内互信息、信息熵和孤立度，得到所述候选新词的第一成词程度，包括：

根据公式：

D₁＝I₁*H₁*log C₁

得到所述候选新词的第一成词程度，其中，D₁表示所述候选新词的第一成词程度，I₁表示所述候选新词的在所述第一预设时间段内的语料中的互信息，且I₁为除0以外的自然数，H₁表示所述候选新词在所述第一预设时间段内的语料中的信息熵，且H₁为除0以外的自然数，C₁表示所述候选新词在所述第一预设时间段内的语料中的孤立度，且C₁为除0以外的自然数；

相应的，所述根据所述剩余语料中的互信息、信息熵和孤立度，得到所述候选新词的第二成词程度，包括：

根据公式：

D₂＝I₂*H₂*log C₂

得到所述候选新词的第二成词程度，其中，D₂表示所述候选新词的第二成词程度，I₂表示所述候选新词在所述剩余语料中的互信息，且I₂为除0以外的自然数，H₂表示所述候选新词在所述剩余语料中的信息熵，且H₂为除0以外的自然数，C₂表示所述候选新词在所述剩余语料中的孤立度，且C₂为除0以外的自然数。

可选的，所述根据所述第一成词程度和所述第二成词程度，计算所述候选新词的新颖程度，包括：

计算所述第一成词程度和所述第二成词程度的比值，得到所述候选新词的新颖程度。

可选的，所述计算所述第一成词程度和所述第二成词程度的比值，得到所述候选新词的新颖程度，包括：

根据公式：

得到所述候选新词的新颖程度，其中，N表示所述候选新词的新颖程度，D₁表示所述候选新词在所述第一预设时间段内的语料中的第一成词程度，D₂表示所述候选新词在所述剩余语料中的第二成词程度。

可选的，所述根据所述第一成词程度和所述新颖程度，计算所述候选新词的衡量度，包括：

根据公式：

T＝D₁N

计算所述候选新词的衡量度，其中，T表示所述候选新词的衡量度，D₁表示所述候选新词的第一成词程度，N表示所述候选新词的新颖程度；

对所述衡量度进行排序，得到所述候选新词的重要程度；

根据所述重要程度识别所述候选新词中的新词。

本发明实施例还公开了一种新词的识别装置，所述装置包括：

第一获取模块，用于获取待处理语料库中当前时间点之前的第一预设时间段内的语料，和所述待处理语料库中除所述第一预设时间段内的语料之外的剩余语料；

第二获取模块，用于根据N-gram语言模型获取所述第一预设时间段内的语料的候选新词，所述N-gram语言模型表征组成所述候选新词的字的个数；

第一计算模块，用于计算所述候选新词在所述第一预设时间段内的语料中的成词特征，得到所述候选新词的第一成词程度；

第二计算模块，用于计算所述候选新词在所述剩余语料中的成词特征，得到所述候选新词的第二成词程度；

第三计算模块，用于根据所述第一成词程度和所述第二成词程度，计算所述候选新词的新颖程度；

提取模块，用于根据所述第一成词程度和所述新颖程度，计算所述候选新词的衡量度，并对所述衡量度进行排序，识别所述候选新词中的新词。

所述第一计算模块，包括：

第一计算子模块，用于根据所述第一预设时间段内的互信息、信息熵和孤立度，得到所述候选新词的第一成词程度；

所述第二计算模块，包括：

第二计算子模块，用于根据所述剩余语料中的互信息、信息熵和孤立度，得到所述候选新词的第二成词程度。

可选的，所述第一计算子模块，包括：

第一计算单元，用于根据公式：

D₁＝I₁*H₁*log C₁

相应的，所述第二计算子模块，包括：

第二计算单元，用于根据公式：

D₂＝I₂*H₂*log C₂

可选的，所述第三计算模块，包括：

第三计算子模块，用于计算所述第一成词程度和所述第二成词程度的比值，得到所述候选新词的新颖程度。

可选的，所述第三计算子模块，包括：

第三计算单元，用于根据公式：

可选的，所述提取模块，包括：

第四计算子模块，用于根据公式：

T＝D₁N

排序子模块，用于对所述衡量度进行排序，得到所述候选新词的重要程度；

提取子模块，用于根据所述重要程度识别所述候选新词中的新词。

本发明实施例提供的一种新词的识别方法及装置，先通过将待处理语料库的语料进行分段，分为当前时间点之前的第一预设时间段内的语料，和除第一预设时间段内的语料之外的剩余语料，并将第一预设时间段内的语料中的词作为候选新词；然后分别计算候选新词在第一预设时间段内的语料中，和剩余语料中的成词特征，得到候选新词的第一成词程度和第二成词程度；再根据第一成词程度和第二成词程度，计算候选新词的新颖程度；最后根据第一成词程度和新颖程度，计算候选新词的衡量度，并对衡量度进行排序，识别候选新词中的新词。相对于现有的识别待处理语料库中的每个候选新词的方法，本发明通过分段识别语料中的词，即识别第一预设时间段内的语料中的词，考虑了候选新词的新颖程度，从而提高了新词识别的准确率。当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种新词的识别方法的一种流程示意图；

图2为本发明实施例提供的一种新词的识别方法的另一种流程示意图；

图3为本发明实施例提供的一种新词的识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

新词识别主要包括两项具体任务：(1)候选新词的识别以及垃圾字串的过滤；(2)新词词性的词性识别。当前，国内外开展的研究工作主要围绕第一个方面进行，对于新词词性的识别还有很多工作值得进一步深入，本发明也将围绕第一个方面展开。而候选新词的识别是基于候选新词的类型，例如，视频行业垂直中文网站，常见的新词类型主要有如下形式：人名(如：A生前：积极对抗病魔撰写治病经历，人名：A)；地名(如：美国阿拉巴马州女子监狱三成狱警性侵女囚，地名：阿拉巴马州)；机构名(如：如何评价驭势科技这个公司？机构名：驭势科技)；剧名(如：一马换三羊第5集预告，剧名：一马换三羊)；歌名(如：萌妹B喊麦，求这个主播名字，歌名：B)；游戏名(如：C最强坑队友之剑圣打野攻略。游戏名：C)；菜名(如：家常主食大全之鸡丝凉面，菜名：鸡丝面)；名词(如：有钱任性高富帅霸气秒杀碰瓷团伙，新词：高富帅)；动词(如：快递哥月入三万这绝对不是扯淡，新词：扯淡)；简称(如：D奇谈动画讲堂不明觉厉的英联邦，新词：不明觉厉)；形容词(如：乖萌E变身卧底达人逼疯F求放过，新词：乖萌)等。对于上述的各类新词的发现，人名、地名和机构名可以通过实体识别动态完成；对于剩余类别，主要是通过对大量的语料使用新词识别算法识别出来。

目前新词识别的主要算法分为两类，基于规则的方法和基于统计的方法。基于规则的方法利用构词学原理、配合语义信息或词性信息来构造模板，然后通过匹配来发现新词。基于统计的方法是通过对语料中的词条组成或特征信息进行统计来识别新词。基于规则的方法准确率高，针对性强，但手工编写和维护规则比较困难，且规则一般是领域相关的，所以适应性和移植性比较差；而基于统计方法的灵活、适应性强，可移植性好。因此，本发明采用基于统计的方法识别新词，并且提出了新颖度的概念，能有效提高真正意思上新词的识别，同时结合一些有效规则和语言知识，能有效的提取各种新词，并且可以通过不同特征的排序方式，获取不同类型的新词。具体过程如下：

参见图1，图1为本发明实施例提供的一种新词的识别方法的一种流程示意图，包括如下步骤：

S101，获取待处理语料库中当前时间点之前的第一预设时间段内的语料，和待处理语料库中除第一预设时间段内的语料之外的剩余语料。

具体的，先获取待处理语料库，然后，对待处理语料库进行分段，分为当前时间点之前的第一预设时间段内的语料，和除第一预设时间段内的语料之外的剩余语料。例如，将待处理语料库的语料划分为当前时间点之前最近n个月内的语料，和最近n个月之前的所有语料，这里，根据实际情况确定分段的时间点。

S102，根据N-gram语言模型获取第一预设时间段内的语料的候选新词，N-gram语言模型表征组成候选新词的字的个数。

具体的，N-gram(N元语法)是计算机语言学中经常使用到的统计模型，是大词汇连续语言识别中常用的一种语言模型，对中文而言，称之为汉语语言模型(CLM，ChineseLanguage Model)。该模型基于这样一种假设，第n个词的出现只与前面n-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计n个词同时出现的次数得到。例如，要对视频垂直行业的语料库进行新词识别，那么，先获取视频垂直行业的语料一份，并对语料进行清洗、过滤。为方便描述，设句子由W＝(w₁，w₂……w_n)构成，其中w_n表示句子中的第n个词。如需要识别出n元的词语，则需要生成n+1元词串，因为需要计算n元词的前接及后接成分，如需要识别三元词，则需要抽取所有的四元词及对应词频，抽取过程比较简单，顺利遍历一遍语料即可统计出所有n+1元词组及词频。

由于真正意义上的新词应该是指最近特别流行并兴起的词因此，本方案考虑了词的新颖程度，即将语料库进行分段，并提取当前时间点之前的第一预设时间段内的语料的候选新词，与现有的对所有语料的数据进行计算，笼统的识别语料进行提取，极大的提高了新词识别的准确率。

S103，计算候选新词在第一预设时间段内的语料中的成词特征，得到候选新词的第一成词程度。

具体的，候选新词的第一成词程度是通过计算候选新词的在第一预设时间段内的语料中的成词特征得到的，计算候选新词在第一预设时间段内的语料中的成词特征，这里的成词特征包括候选新词的互信息、信息熵及孤立度等。计算成词特征反映了候选新词在第一预设时间段内的语料中的内部凝固程度、自由运用程度等特征，可以提高候选新词作为最终识别的新词的重要度量。

S104，计算候选新词在剩余语料中的成词特征，得到候选新词的第二成词程度。

具体的，候选新词的第一成词程度是通过计算候选新词的剩余语料中的成词特征得到的，计算候选新词在剩余语料中的成词特征，这里的成词特征包括候选新词的互信息、信息熵及孤立度等。计算成词特征反映了候选新词在剩余语料中的内部凝固程度、自由运用程度等特征，可以提高候选新词作为最终识别的新词的重要度量。

S105，根据第一成词程度和第二成词程度，计算候选新词的新颖程度。

具体的，由于在现有的方法中，利用语料库中的所有数据计算候选新词的成词特征，得到的是一批字典中没有的词，但并不是真正意义上的新词，因为并没有引入时间相关的变量。真正意义上的新词应该是指最近特别流行并兴起的词，为有效提取这类新词，本方案通过按时间将语料分为两个部分，通过计算候选新词在这两个部分中的成词特征，得到第一成词程度和第二成词程度，然后根据第一成词程度和第二成词程度来衡量候选新词的新颖程度，极大的提高了新词识别的准确率。

S106，根据第一成词程度和新颖程度，计算候选新词的衡量度，并对衡量度进行排序，识别候选新词中的新词。

具体的，先通过第一成词程度与第二成词程度的比值来衡量候选新词的新颖程度，然后综合候选新词的新颖程度和第一成词程度得到新词的衡量度，并根据衡量度对候选新词排序，当第一成词程度与第二成词程度的比值越大新颖程度越大时，根据衡量度从大到小的排序选择前n个词作为最后识别的新词，也可以选择所有大于阈值的候选新词作为新词，当第一成词程度与第二成词程度的比值越小新颖程度越大时，根据衡量度从小到大的排序选择前n个词作为最后识别的新词，也可以选择所有小于阈值的候选新词作为新词。

由此可见，通过本发明实施例提供的一种新词的识别方法，先通过将待处理语料库的语料进行分段，分为当前时间点之前的第一预设时间段内的语料，和除第一预设时间段内的语料之外的剩余语料，并将第一预设时间段内的语料中的词作为候选新词；然后分别计算候选新词在第一预设时间段内的语料中，和剩余语料中的成词特征，得到候选新词的第一成词程度和第二成词程度；再根据第一成词程度和第二成词程度，计算候选新词的新颖程度；最后根据第一成词程度和新颖程度，计算候选新词的衡量度，并对所述衡量度进行排序，识别所述候选新词中的新词，相对于现有的识别待处理语料库中的每个候选新词的方法，本发明通过分段识别语料中的词，即识别第一预设时间段内的语料中的词，考虑了候选新词的新颖程度，从而提高了新词识别的准确率。

在本发明一个可选的实施例中，成词特征包括：互信息，信息熵，孤立度中的一种或多种。

互信息是信息论理一种有用的信息度量，它可以看成是一个随机变量中包含的关于另一个随机变量的信息量，或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。

根据公式：

计算候选新词中字与字之间的互信息，其中，I(X,Y)表示随机变量X,Y的互信息，p(x,y)表示随机变量X,Y的联合分布，p(x)表示随机变量X的边缘分布，p(y)表示随机变量Y的边缘分布。可见，互信息是联合分布与边缘分布乘积的相对熵。其中，对于二元词x₁x₂，则直接计算I(x₁,x₂)，对于三元词x₁x₂x₃，分别计算I(x₁x₂,x₃)、I(x₁x₂,x₃)和I(x₁x₃,x₂)，对于N元词以此类推。

由于中文词与词之间没有特殊符号，所以任何连续的字符段都有可能成词。本发明就基于任何字符段都能成词的原则，对任何连续的字符段都考虑其成词程度。现有的方法对于成词程度的度量主要有两个方面：1、内部凝固程度；2、自由运用程度。其中，内部凝固程度主要衡量词的内部结构。通常，词频往往是成词最直观的因素，然后通过设置词频阈值来提取字符段，超过该阈值则认为是合理的词。但是，仅仅考虑词频是不够的，例如在视频行业中文网站，“集预告”出现次数远远大于“预告片”(因为视频行业有大量“第X集预告”)，但“预告片”是词，“集预告”不是词，所以使用词频来衡量词的内部凝固度是不合适的。本发明采用互信息的方法衡量词的内部凝固程度，互信息是能够有效的表示两个变量间的紧密程度。例如二元词“漂亮”，设P(“漂”)为“漂”在语料中出现的概率，P(“亮”)为“亮”在语料中出现的概率，P(“漂亮”)为“漂亮”在语料中出现的概率，则“漂”和“亮”的互信息可以表示为：

I(“漂”，“亮”)＝P(“漂”)×P(“亮”)/P(“漂亮”)。

可见，通过互信息的方法衡量词的内部凝固程度，使得计算结果更加准确。

通过计算候选新词的互信息之后，如果仅依靠词的内部凝固度作为成词标准，则“卧虎藏”也能单独成词，因为这三个字总是随着“卧虎藏龙”一起出现，所以紧密度高，但“卧虎藏龙”才是想要的词。通过分析发现，之所以“卧虎藏”不能成词是因为该字符串后接的字都是“龙”，此时它的后接部分基本固定，不能跟其他字搭配使用，即自由运用程度低。同理还要考虑他的前接成分是否具有该特性。而信息熵能反映一个变量的结果带来的信息量，即一个事情确定性的度量，如果越确定，则信息熵越小，反之越大。信息熵这个词是C.E.Shannon从热力学借用过来的。热力学中的热熵是表示分子状态混乱程度的物理量，香农用信息熵的概念来描述信源的不确定度。信息熵可以检测一个词灵活使用的程度，如上面的“卧虎藏”，如果后接字只有“龙”，则其后接词完全确定，根据信息熵的定义及计算公式，其对应的信息熵为0。需要说明的是，对于信息熵为0的词，在识别新词的过程中，会将该词排出。

对于信息熵的定义如下：若信源符号有n种取值：u₁…u_i…u_n，对应概率为：p₁…p_i…p_n，且各种符号的出现彼此独立，这时，信源的平均不确定性应当为单个符号不确定性的统计平均值(E)，可称为信息熵，即：

其中，H(U)表示信息熵，p_i表示信源符号u_i对应的概率，E[-log p_i]表示单个符号不确定性的统计平均值，即信源的平均不确定性。

在新词的识过程中，取H_p、H_s分别为词的上文熵和下文熵，以H_p为例，则p_i为候选新词第i个上文字出现的概率，计算公式如下：

其中，p_i为候选新词第i个上文字出现的概率，n_i为第i个上文字出现的次数。

通过计算候选新词的信息熵之后，如果直接使用上述信息熵会存在不少问题，例如在视频行业中，会存在大量以“高清版”结尾的标题，这样“高清版”的H_s则会很低，因为紧接其后的字符大部分是句号或者换行，但“高清版”却是个很好的词。为了处理这种情况，引入了一种特殊机制，将每一个标点符号都作为不同的一个上下文，即相同标点符号也视为多个分别指出现一次的符号，这样“高清版”的下文熵就会大大增加，也符合其构词的特点。本发明中，采用H_p和H_s中的最小值作为候选新词的上下文熵。

另外，本发明除了计算候选新词的互信息和信息熵之外，还考虑了候选新词的孤立度。由于对于一些词的上下文经常为空格、行首、行尾、标点等，这些特征在一定程度上体现了该词的孤立程度，从成词特征可以看出，孤立程度越高的候选新词其成词程度越强，而且该类词大部分都是人名、剧名、游戏等实体性词，应加大这类词的成词程度，因此本发明使用孤立度来衡量这种特征。

根据公式：

C＝Min(C_p，C_s)

计算候选新词的孤立度。其中，C为候选新词的孤立度，C_p表示候选新词前文是空格、行首、标点等的数量，C_s表示下文是空格、行尾、标点等的数量。

计算候选新词在第一预设时间段内的语料中的成词特征，得到候选新词的第一成词程度，包括：

根据第一预设时间段内的互信息、信息熵和孤立度，得到候选新词的第一成词程度；

计算候选新词在剩余语料中的成词特征，得到候选新词的第二成词程度，包括：

根据剩余语料中的互信息、信息熵和孤立度，得到候选新词的第二成词程度。

具体的，本发明通过分别计算候选新词在第一预设时间段内的语料中，和剩余语料中的成词特征，得到候选新词的第一成词程度和第二成词程度，在成词特征的计算中考虑了候选新词的互信息，信息熵和孤立度，有效的提高了候选新词成词程度的准确性。如果单独的计算其中一种特征，或者其中两种特征来得到候选新词的成词程度，最终也能根据成词程度识别出新词，只是识别的准确率相对同时考虑这三种成词特征较低而已。例如，在视频行业垂直网站，存在一些由极为生僻的字组成的没有意义的噪音词，如“尛尛”，该词的内部凝固程度特别高，自由运动度也不低，但该词并不是很理想的词。对于有些歌名或剧名，在视频行业垂直网站往往前后都是特殊的符号，如包含在书名号或双引号中，所以其前后的字符变化极少，即信息熵极少，但这类词确实是好词，所以对于该类词需要做些特殊处理，例如加强书名号和双引号对信息熵的贡献量，提升该类词的成词程度。再者，互信息只能衡量两个变量之间的紧密度，对于二元以上的词组，如何划分也极为重要，本发明使用了全拆分取乘积的方法，有效的解决了该类问题。同时，可以通过不同特征的排序方式，获取不同类型的新词。

在本发明实施例中，根据第一预设时间段内互信息、信息熵和孤立度，得到候选新词的第一成词程度，包括：

根据公式：

D₁＝I₁*H₁*log C₁

得到候选新词的第一成词程度，其中，D₁表示候选新词的第一成词程度，I₁表示候选新词的在第一预设时间段内的语料中的互信息，且I₁为除0以外的自然数，H₁表示候选新词在第一预设时间段内的语料中的信息熵，且H₁为除0以外的自然数，C₁表示候选新词在第一预设时间段内的语料中的孤立度，且C₁为除0以外的自然数；这里，I₁、H₁和C₁都为除0以外的自然数，由于，当其中任何一个成词特征为0时，所计算的成词程度都为0，成词程度为0的候选新词不能被作为新词而被识别，因此对于这种情况，在计算的过程中直接会将成词特征为0的结果排除掉。

相应的，根据剩余语料中的互信息、信息熵和孤立度，得到候选新词的第二成词程度，包括：

根据公式：

D₂＝I₂*H₂*log C₂

得到候选新词的第二成词程度，其中，D₂表示候选新词的第二成词程度，I₂表示候选新词在剩余语料中的互信息，且I₂为除0以外的自然数，H₂表示候选新词在剩余语料中的信息熵，且H₂为除0以外的自然数，C₂表示候选新词在剩余语料中的孤立度，且C₂为除0以外的自然数。这里，I₂、H₂和C₂都为除0以外的自然数，由于，当其中任何一个成词特征为0时，所计算的成词程度都为0，成词程度为0的候选新词不能被作为新词而被识别，因此对于这种情况，在计算的过程中直接会将成词特征为0的结果排除掉。

在本发明实施例中，根据第一成词程度和第二成词程度，计算候选新词的新颖程度，包括：

计算第一成词程度和第二成词程度的比值，得到候选新词的新颖程度。

这里，由于第一预设时间段内的语料和剩余语料中的不同，在第一预设时间段内的语料要接近当前时间段，要少于剩余语料，所以通过第一成词程度与第二成词程度的比值来衡量候选新词的新颖程度。其中，第一成词程度和第二成词程度的比值包括第一成词程度和第二成词程度的比得到的值，和第二成词程度和第一成词程度的比得到的值，当计算第一成词程度和第二成词程度的比值时，比值越大，新颖程度越大；当计算第二成词程度和第一成词程度的比值时，比值越小，新颖程度越大。本发明以其中一种计算比值为例，计算候选新词的新颖程度，例如计算第一成词程度和第二成词程度的比值，得到候选新词的新颖程度。

具体的，计算第一成词程度和第二成词程度的比值，得到候选新词的新颖程度，包括：

根据公式：

得到候选新词的新颖程度，其中，N表示候选新词的新颖程度，D₁表示候选新词在第一预设时间段内的语料中的第一成词程度，D₂表示候选新词在剩余语料中的第二成词程度。其中，D₁与D₂的比值越大，则候选新词的新颖程度越大。

相应的，计算第二成词程度和第一成词程度的比值，得到候选新词的新颖程度，包括：

根据公式：

得到候选新词的新颖程度，其中，N表示候选新词的新颖程度，D₁表示候选新词在第一预设时间段内的语料中的第一成词程度，D₂表示候选新词在剩余语料中的第二成词程度。其中，D₂与D₁的比值越小，则候选新词的新颖程度越大。

根据第一成词程度和新颖程度，计算候选新词的衡量度，包括：

根据公式：

T＝D₁N

计算候选新词的衡量度，其中，T表示候选新词的衡量度，D₁表示候选新词的第一成词程度，N表示候选新词的新颖程度；

对衡量度进行排序，得到候选新词的重要程度；这里，综合候选新词的新颖程度和成词程度来对候选新词排序，得到候选新词的重要程度。

根据重要程度识别候选新词中的新词。本发明提出的新词识别的方法，能应用到垂直视频网站和其他行业中，并取得了不错的实际效果，有效的解决了新词、未登录词给词法分词、实体识别等任务带来的困难。因为本发明识别的新词在一定程度上是最近较流行的词，所以能通过识别的新词一定程度发现最近的热点新闻事件，为一些特殊的业务服务。

另外，本发明提出的新词的识别方法还可以应用于搜索引擎的分词模块，第一，通过将识别的新词加入词典，能有效提高分词程序性能；第二，能识别大量的新剧名、新歌名、新人名等实体，为实体识别服务提供了基础。通过上述两点，提升搜索引擎的整体点击率及用户体验。

参见图2，图2为本发明实施例提供的一种新词的识别方法的另一种流程示意图，由于本发明是通过分段识别语料中的词，即将待处理语料库的语料进行分段，分为当前时间点之前的第一预设时间段内的语料，和除第一预设时间段内的语料之外的剩余语料，并将第一预设时间段内的语料中的词作为候选新词，而这里的第一预设时间段内的语料是按照实际需求来划分的，因此，本方案以一个月为例，通过将全部语料划分为当前时间点之前一个月内的语料和除一个月内的语料之外的剩余语料来识别新词，具体实施方式包括如下步骤：

S201，获取语料库中的全部语料，这里的全部语料指的是待处理语料库中的全部语料。

S202，一个月内的语料。这里，一个月内的语料在本发明中对应的是第一预设时间段内的语料，本实施例将全部语料划分为两个时间段的语料，包括一个月内的语料和除一个月内的语料的剩余语料。其中，一个月内的语料是指当前时间点之前的一个月内的语料，即最近的一个月内的语料，相对于现有的识别待处理语料库中的每个候选新词的方法，本发明实施例通过识别一个月内的语料中的新词，考虑了候选新词的新颖程度，从而提高了新词识别的准确率。

S203，除一个月内的语料的剩余语料，是指本发明中除第一预设时间段内的语料之外的剩余语料，这里，除一个月内的语料的剩余语料是指待处理语料库中除当前时间点的最近一个月的语料之外的所有语料，是通过对语料库分段得到的。

S204和S205，从语料库中获取一个月内的语料的N-gram，通过N-gram提取一个月内的语料中的N元词作为候选新词，这里的N-gram主要是提取语料库中的候选新词为N元词的一种统计。

S206，计算候选新词在一个月内的语料中的成词特征，这里成词特征包括一个月内的语料的互信息I、信息熵H和孤立度C。

S207，计算候选新词在除一个月内的语料的剩余语料中的成词特征，这里成词特征包括除一个月内的语料的剩余语料的互信息I、信息熵H和孤立度C。

S208，成词程度D1。这里，成词程度D1是通过计算候选新词在一个月内的语料中的成词特征得到的。

S209，成词程度D2。这里，成词程度D2是通过计算候选新词在除一个月内的语料的剩余语料中的成词特征得到的。

S210，候选新词的新颖程度N。这里，新颖程度N是通过成词程度D1与成词程度D2的比值计算得到的，比值越大，说明新颖程度越新。

S211，新词衡量度T。这里，新词衡量度T是通过成词程度D1与新颖程度N的乘积计算的得到的，乘积越大，新词衡量度T越大，即新词被识别的概率越大。

最后，通过对衡量度进行排序，并过滤字典中已经存在的候选新词，即可得到一批新词，这里，也可以通过给予各成词特征不同的权重，从而选出侧重点不同的词，例如，提高互信息的权重，那些量少但紧密度极高的词会优先选出(例如：“葡萄”)；提高孤立度的权重，那些量大的词会优先选出(例如：“我们”)。通过上述方法得到的是一批字典中没有的词，但并不是真正意义上的新词，因为并没有引入时间相关的变量。由于真正意义上的新词应该是指最近特别流行并兴起的词，例如“怒路症”、“老九门”、“蓝瘦”等，为有效提取这类新词，通过按时间将语料分为两个部分，本发明实施例用当前时间点的一个月内的语料产生候选新词，计算候选新词在这一个月的成词程度D1，然后计算这些候选新词在除一个月内的语料的剩余语料中的成词程度D2，通过D1与D2的比值来衡量候选新词的新颖程度N，最后综合候选新词的新颖程度和成词程度来对候选新词排序，从而提取新词。这里，由于一个月内的语料更接近当前时间点，提取的候选新词更有可能成为真正意义上的新词，所以，通过识别一个月内的语料产生候选新词，很大程度上提高了新词识别的准确率。

参见图3，图3为本发明实施例提供的一种新词的识别装置的结构示意图，包括如下模块：

第一获取模块301，用于获取待处理语料库中当前时间点之前的第一预设时间段内的语料，和待处理语料库中除第一预设时间段内的语料之外的剩余语料；

第二获取模块302，用于根据N-gram语言模型获取第一预设时间段内的语料的候选新词，N-gram语言模型表征组成候选新词的字的个数；

第一计算模块303，用于计算候选新词在第一预设时间段内的语料中的成词特征，得到候选新词的第一成词程度；

第二计算模块304，用于计算候选新词在剩余语料中的成词特征，得到候选新词的第二成词程度；

第三计算模块305，用于根据第一成词程度和第二成词程度，计算候选新词的新颖程度；

提取模块306，用于根据第一成词程度和新颖程度，计算候选新词的衡量度，并对衡量度进行排序，识别候选新词中的新词。

进一步的，成词特征包括：互信息，信息熵，孤立度中的一种或多种，

第一计算模块303，包括：

第一计算子模块，用于根据第一预设时间段内的互信息、信息熵和孤立度，得到候选新词的第一成词程度；

第二计算模块304，包括：

第二计算子模块，用于根据剩余语料中的互信息、信息熵和孤立度，得到候选新词的第二成词程度。

进一步的，第一计算子模块，包括：

第一计算单元，用于根据公式：

D₁＝I₁*H₁*log C₁

得到候选新词的第一成词程度，其中，D₁表示候选新词的第一成词程度，I₁表示候选新词的在第一预设时间段内的语料中的互信息，且I₁为除0以外的自然数，H₁表示候选新词在第一预设时间段内的语料中的信息熵，且H₁为除0以外的自然数，C₁表示候选新词在第一预设时间段内的语料中的孤立度，且C₁为除0以外的自然数；

相应的，第二计算子模块，包括：

第二计算单元，用于根据公式：

D₂＝I₂*H₂*log C₂

得到候选新词的第二成词程度，其中，D₂表示候选新词的第二成词程度，I₂表示候选新词在剩余语料中的互信息，且I₂为除0以外的自然数，H₂表示候选新词在剩余语料中的信息熵，且H₂为除0以外的自然数，C₂表示候选新词在剩余语料中的孤立度，且C₂为除0以外的自然数。

进一步的，第三计算模块305，包括：

第三计算子模块，用于计算第一成词程度和第二成词程度的比值，得到候选新词的新颖程度。

进一步的，第三计算子模块，包括：

第三计算单元，用于根据公式：

得到候选新词的新颖程度，其中，N表示候选新词的新颖程度，D₁表示候选新词在第一预设时间段内的语料中的第一成词程度，D₂表示候选新词在剩余语料中的第二成词程度。

进一步的，提取模块306，包括：

第四计算子模块，用于根据公式：

T＝D₁N

排序子模块，用于对衡量度进行排序，得到候选新词的重要程度；

提取子模块，用于根据重要程度识别候选新词中的新词。

由此可见，本发明实施例提供的一种新词的识别装置，先通过将待处理语料库的语料进行分段，分为当前时间点之前的第一预设时间段内的语料，和除第一预设时间段内的语料之外的剩余语料，并将第一预设时间段内的语料中的词作为候选新词；然后分别计算候选新词在第一预设时间段内的语料中，和剩余语料中的成词特征，得到候选新词的第一成词程度和第二成词程度；再根据第一成词程度和第二成词程度，计算候选新词的新颖程度；最后根据第一成词程度和新颖程度，计算候选新词的衡量度，并对所述衡量度进行排序，识别所述候选新词中的新词，提高了新词识别的准确率。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种新词的识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述成词特征包括：互信息，信息熵，孤立度中的一种或多种，

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一预设时间段内互信息、信息熵和孤立度，得到所述候选新词的第一成词程度，包括：

根据公式：

D₁＝I₁*H₁*logC₁

根据公式：

D₂＝I₂*H₂*logC₂

4.根据权利要求1至3任一项所述的方法，其特征在于，所述根据所述第一成词程度和所述第二成词程度，计算所述候选新词的新颖程度，包括：

5.根据权利要求4所述的方法，其特征在于，所述计算所述第一成词程度和所述第二成词程度的比值，得到所述候选新词的新颖程度，包括：

根据公式：

6.根据权利要求1所述的方法，其特征在于，所述根据所述第一成词程度和所述新颖程度，计算所述候选新词的衡量度，并对所述衡量度进行排序，识别所述候选新词中的新词，包括：

根据公式：

T＝D₁N

对所述衡量度进行排序，得到所述候选新词的重要程度；

根据所述重要程度识别所述候选新词中的新词。

7.一种新词的识别装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述成词特征包括：互信息，信息熵，孤立度中的一种或多种，

所述第一计算模块，包括：

所述第二计算模块，包括：

9.根据权利要求8所述的装置，其特征在于，所述第一计算子模块，包括：

第一计算单元，用于根据公式：

D₁＝I₁*H₁*logC₁

相应的，所述第二计算子模块，包括：

第二计算单元，用于根据公式：

D₂＝I₂*H₂*logC₂

10.根据权利要求7至9任一项所述的装置，其特征在于，所述第三计算模块，包括：

11.根据权利要求10所述的装置，其特征在于，所述第三计算子模块，包括：

第三计算单元，用于根据公式：

12.根据权利要求7所述的装置，其特征在于，所述提取模块，包括：

第四计算子模块，用于根据公式：

T＝D₁N