CN103955450B

CN103955450B - 一种新词自动提取方法

Info

Publication number: CN103955450B
Application number: CN201410188050.7A
Authority: CN
Inventors: 廖建新; 赵海秀; 李亚松; 康潮明; 赵贝尔; 崔晓茹
Original assignee: Hangzhou Dongxin Beiyou Information Technology Co Ltd
Current assignee: Hangzhou Dongxin Beiyou Information Technology Co Ltd
Priority date: 2014-05-06
Filing date: 2014-05-06
Publication date: 2016-09-21
Anticipated expiration: 2034-05-06
Also published as: CN103955450A

Abstract

一种新词自动提取方法，包括：对文本句子进行切词处理，并将其中字数长度不大于S+1的候选词提取出来，然后将提取出的所有互不相同的候选词保存在候选词库中；计算候选词库中每个候选词的支持度，并将所有支持度大于支持度阈值的候选词构成一个频繁词组；为频繁词组中的每个候选词构建一个子词组，并将候选词和频繁词组中的所有其他候选词相比较，如果候选词中包含有其他候选词时，则将其他候选词保存在该候选词的子词组中，然后根据候选词、以及子词组中每个子词在知识库中出现的频数，计算候选词的置信度，当候选词的置信度大于置信度阈值时，则候选词是提取的新词。本发明属于计算机自然语言处理领域，能从海量文本中准确且快速的提取新词。

Description

一种新词自动提取方法

技术领域

本发明涉及一种新词自动提取方法，属于计算机自然语言处理领域。

背景技术

随着互联网的快速发展和网民规模不断膨胀，新词大量出现在网络并迅速渗入人们的日常生活，这已经成为一种语言现象。同时，在诸如信息检索、自动分词、词典编纂以及机器翻译等众多中文信息处理领域，新词提取的效果，在很大程度上影响着这些中文信息处理领域的效果，由于中文自身的特点，它不像英文那样在词与词之间有明显的空格间隔，如何将不断涌现的新词准确提取出来已经是中文信息处理中至关重要的一步，因此，有效的提取新词，将对提高中文信息处理相关领域的效果起到重要的作用。

专利申请CN 201210469892.0(专利名称：结合内部聚合度和外部离散信息熵的网络新词发现方法，申请日：2012‐11‐18，申请人：浙江大学)公开了一种结合内部聚合度和外部离散信息熵的网络新词发现方法，包括：对网络语料库包含的所有文本句子进行切词处理，并将切分出来的所有互不相同的字串作为候选字串；对在网络语料库中出现的频率超过固定阈值的候选字串，计算其内部聚合度和外部离散信息熵，并根据该候选字串的内部聚合度和外部离散信息熵进一步判断候选目标词串是否为网络新词。该技术方案实现较复杂，当判断一个候选字串是否为新词时需考虑两个因素：内部聚合度和外部离散信息熵。当针对于互联网上的海量文本时，该技术方案所产生的计算量较大，并不能快速、有效的发现和提取新词。

因此，如何从海量文本中准确且快速的提取新词，仍是一个值得深入研究的技术问题。

发明内容

有鉴于此，本发明的目的是提供一种新词自动提取方法，能从海量文本中准确且快速的提取出新词。

为了达到上述目的，本发明提供了一种新词自动提取方法，包括有：

步骤一、对语料库包含的所有文本句子进行切词处理，并将每个文本句子中字数长度不大于S+1的候选词提取出来，然后将提取出的所有互不相同的候选词保存在候选词库中，其中，S是预先设定的新词的字数长度上限；

步骤二、根据候选词在知识库中出现的频数与相同字数长度的所有候选词在知识库中出现的频数的比值，计算候选词库中每个候选词的支持度，并将所有支持度大于支持度阈值的候选词构成一个频繁词组；

步骤三、为频繁词组中的每个候选词C构建一个子词组Z(C)，并将候选词C和频繁词组中的所有其他候选词相比较，如果候选词C中包含有其他候选词时，则将其他候选词保存在候选词C的子词组Z(C)中，然后根据候选词C、以及子词组Z(C)中每个子词在知识库中出现的频数，计算频繁词组中的每个候选词C的置信度，当候选词C的置信度大于置信度阈值时，则候选词C是提取的新词，

步骤三进一步包括有：

步骤31、从频繁词组中挑选出一个未计算置信度的候选词C；

步骤32、为候选词C构建一个子词组Z(C)，根据候选词C的字数长度n(C)，判断频繁词组中的其他候选词的字数长度是否是n(C)-1、且被包含在所述候选词C中，如果是，则说明其他候选词是候选词C的一个子词，将所有字数长度是n(C)-1、且包含在候选词C中的其他候选词保存在Z(C)中；如果否，则说明其他候选词不是候选词C的子词；

步骤33、计算候选词C的置信度：，其中，p(C)是候选词C在知识库中出现的频数，F是Z(C)中的子词个数，z(C)₁、z(C)₂、…z(C)_F分别是候选词C的子词组Z(C)中包含的所有子词，p(z(C)₁)、p(z(C)₂)、…p(z(C)_F)分别是z(C)₁、z(C)₂、…z(C)_F在知识库中出现的频数，分别是候选词C与其子词的置信度，从候选词C与其子词的置信度中挑选出最小值作为候选词C的置信度conf(C)；

步骤34、判断候选词C的置信度是否大于置信度阈值，如果是，则说明候选词C是提取的新词，当频繁词组中仍然存在有未计算置信度的候选词时，转向步骤31；如果否，则说明候选词C不是提取的新词，将候选词C从频繁词组中删除，然后当频繁词组中仍然存在有未计算置信度的候选词时，转向步骤31。

与现有技术相比，本发明的有益效果是：本发明计算每个候选词的支持度，并以支持度较大的候选词来构建频繁词组，然后根据频繁词组中每个候选词所包含的子词的出现频数来计算置信度，最后根据候选词的置信度来判断是否是新词，实现方法简单可行，并且计算量小，从而能准确而快速的从海量文本中提取出新词；计算候选词的置信度时，仅选取比自身的字数长度小1的其他候选词来作为子词，有效降低了计算量；在考虑置信度的基础上，还可以进一步结合离散度，从而大大提高了新词提取的准确度；从比自身的字数长度大1的其他候选词中挑选单字来构建左邻字组和右邻字组，极大简化了计算的复杂度，由于分布越平均信息熵越大，因此，相较于信息熵，GINI指数更适合于作为提取新词的考虑因素；支持度阈值、置信度阈值、或离散度阈值还可以根据候选词C的字数长度、以及所有相同字数长度的候选词的支持度、置信度、或离散度来灵活设置，从而使得本发明在各个应用场景中更具有通用性。

附图说明

图1是本发明一种新词自动提取方法的流程图。

图2是图1步骤一的具体操作流程图。

图3是图1步骤二的具体操作流程图。

图4是图1步骤三的具体操作流程图。

图5是图1步骤三中，结合候选词的离散度继续提取新词的具体操作流程图。

图6是图5步骤A3的具体操作流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

如图1所示，本发明一种新词自动提取方法，进一步包括有：

步骤一、对语料库包含的所有文本句子进行切词处理，并将每个文本句子中字数长度不大于S+1的候选词提取出来，然后将提取出的所有互不相同的候选词保存在候选词库中，其中，S是预先设定的新词的字数长度上限，由于新词的字数长度上限一般为4，所以可以优选S＝4；

步骤二、根据候选词在知识库中出现的频数与相同字数长度的所有候选词在知识库中出现的频数(即次数)的比值，计算候选词库中每个候选词的支持度，并将所有支持度大于支持度阈值的候选词构成一个频繁词组；

步骤三、为频繁词组中的每个候选词C构建一个子词组Z(C)，并将候选词C和频繁词组中的所有其他候选词相比较，如果候选词C中包含有其他候选词时，则将其他候选词保存在候选词C的子词组Z(C)中，然后根据候选词C、以及子词组Z(C)中每个子词在知识库中出现的频数，计算频繁词组中的每个候选词C的置信度，当候选词C的置信度大于置信度阈值时，则候选词C是提取的新词；

步骤四、将步骤三提取的新词和现有词库进行比较,当现有词库中不存在有所述提取的新词时，则所述提取的新词是最终提取的新词。

所述步骤一中，可以通过标点符号，将语料库中的所有文本句子分割成多个短句，再将短句中字数长度不大于S+1的候选词提取出来。其中，如图2所示，将每个短句中字数长度不大于S+1的候选词提取出来，进一步包括有：

步骤11、设定截词窗口的宽度width为1；

步骤12、将截词窗口设置在短句的开始处，截取字数长度为width的候选词，然后再将截词窗口向右移动一个字，继续截取短句中下一个字数长度为width的候选词，直至截词窗口到达短句的结尾处；

步骤13、修改截词窗口的宽度width：width＝width+1，当width小于或等于S+1时，转向步骤12。

例如：对于短句“小说剧情精彩”来说，当截词窗口的宽度width为1时，所截取的字数长度为1的候选词有：小、说、剧、情、精、彩；当截词窗口的宽度width为2时，所截取的字数长度为2的候选词有：小说、说剧、剧情、情精、精彩；当截词窗口的宽度width为3时，所截取的字数长度为3的候选词有：小说剧、说剧情、剧情精、情精彩；当截词窗口的宽度width为4时，所截取的字数长度为4的候选词有：小说剧情、说剧情精、剧情精彩；当截词窗口的宽度width为5时，所截取的字数长度为5的候选词有：小说剧情精、说剧情精彩。

如图3所示，图1步骤二进一步包括有：

步骤21、构建一个频繁词组；

步骤22、从候选词库中读取一个未计算支持度、且字数长度不大于S的候选词C，计算所述候选词C的支持度：其中，p(C)是候选词C在知识库中出现的频数，n(C)是候选词C的字数长度，且n(C)≤S，P_n(C)是所有字数长度为n(C)的候选词在知识库中出现的频数之和；

步骤23、判断所述候选词C的支持度是否大于支持度阈值？如果是，则将所述候选词C保存到频繁词组中，并当候选词库中仍然存在有未计算支持度、且字数长度不大于S的候选词时，转向步骤22；如果否，则当候选词库中仍然存在有未计算支持度、且字数长度不大于S的候选词时，转向步骤22。

如图4所示，图1步骤三进一步包括有：

步骤31、从频繁词组中挑选出一个未计算置信度的候选词C；

例如：当候选词C是“电影院”时，其字数长度n(C)＝3，从频繁词组中找到其子词：电影、影院，即候选词C的子词组Z(C)：{电影，影院}；

步骤33、计算候选词C的置信度：其中，p(C)是候选词C在知识库中出现的频数，F是Z(C)中的子词个数，z(C)₁、z(C)₂、…z(C)_F分别是候选词C的子词组Z(C)中包含的所有子词，p(z(C)₁)、p(z(C)₂)、…p(z(C)_F)分别是z(C)₁、z(C)₂、…z(C)_F在知识库中出现的频数，分别是候选词C与其子词的置信度，从候选词C与其子词的置信度中挑选出最小值作为候选词C的置信度conf(C)；

步骤34、判断候选词C的置信度是否大于置信度阈值？如果是，则说明候选词C是提取的新词，当频繁词组中仍然存在有未计算置信度的候选词时，转向步骤31；如果否，则说明候选词C不是提取的新词，将候选词C从频繁词组中删除，然后当频繁词组中仍然存在有未计算置信度的候选词时，转向步骤31。最后，当频繁词组中不存在有未计算置信度的候选词时，频繁词组中的所有候选词都是本发明提取出的新词。

本发明还可以结合候选词的离散度，再对步骤三中提取的新词做进一步筛选，从而提高新词提取的准确度。如图5所示，步骤三中，结合候选词的离散度继续提取新词，还包括有：

步骤A1、从频繁词组中挑选出一个未计算离散度的候选词；

步骤A2、从候选词库中找出候选词C的所有左邻字和右邻字；

步骤A3、根据候选词C的每个左或右邻字在所有左或右邻字中的出现概率，计算候选词C的离散度，然后判断候选词C的离散度是否大于离散度阈值，如果是，则说明候选词C是提取的新词，当频繁词组中仍然存在有未计算离散度的候选词C时，转向步骤A1；如果否，则说明候选词C不是提取的新词，将候选词C从频繁词组中删除，当频繁词组中仍然存在有未计算离散度的候选词C时，转向步骤A1。

图5步骤A2还可以进一步包括有：

为候选词C构建一个左邻字组和一个右邻字组，并根据候选词C的字数长度n(C)，从候选词库中挑选出所有字数长度为n(C)+1、且以候选词C为前缀或后缀的其他候选词，如果候选词C是挑选出的候选词的前缀，则将挑选出的候选词中的最后一个字保存到候选词C的右邻字组中，如果候选词C是挑选出的候选词的后缀，则将挑选出的候选词中的最前一个字保存到候选词C的左邻字组中。

例如：对于候选词“剧情”来说，从候选词库中找到其他候选词“说剧情”、“剧情精”，则将“说”保存到候选词的左邻字组中，将“精”保存到候选词的右邻字组中。

如图6所示，图5步骤A3还可以进一步包括有：

步骤A31、分别计算候选词C的左邻字和右邻字的GINI指数值：

G(C)是候选词C的左(或右)邻字的GINI指数值，x_j是候选词C的一个左(或右)邻字，p(x_j)是x_j在候选词C的所有左(或右)邻字中的出现概率，L是候选词C的所有左(或右)邻字的个数，j是区间[1,L]范围内的一个整数；

步骤A32、比较候选词C的左邻字和右邻字的GINI指数值大小，并将其中的最小值作为候选词C的离散度；

步骤A33、判断候选词C的离散度是否大于离散度阈值？如果是，则说明所述候选词C是提取的新词；如果否，则说明所述候选词C不是提取的新词，将候选词C从频繁词组中删除。

还值得一提的是，支持度阈值、置信度阈值、或离散度阈值可以预先设置，或者根据候选词C的字数长度来分别计算。当根据候选词C的字数长度来分别计算时，支持度阈值、置信度阈值、或离散度阈值的计算公式是：其中，s是区间[1,S]范围内的一个整数，Yα_s是候选词的字数长度为s时的支持度、置信度、或离散度阈值，M_s是候选词库中字数长度为s的候选词的总数，α_s(t)是第t个字数长度为s的候选词的支持度、置信度、或离散度，是所有字数长度为s的候选词的支持度、置信度、或离散度的总和，t是区间[1,M_s]范围内的一个整数。

为了进一步提高新词提取的准确度，当候选词C的字数长度为2时，支持度阈值、置信度阈值、或离散度阈值还可以在上述计算公式的基础上，进一步调整：其中，Yα₂是候选词的字数长度为2时的支持度、置信度、或离散度阈值，Yα₂'是调整后的候选词的字数长度为2时的支持度、置信度、或离散度阈值，M₂是候选词库中字数长度为2的候选词的总数，α₂(k)是第k个字数长度为2的候选词的支持度、置信度、或离散度,k是区间[1,M₂]范围内的一个整数。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种新词自动提取方法，其特征在于，包括有：

步骤三进一步包括有：

步骤31、从频繁词组中挑选出一个未计算置信度的候选词C；

2.根据权利要求1所述的方法，其特征在于，还包括有：

3.根据权利要求1所述的方法，其特征在于，S＝4。

4.根据权利要求1所述的方法，其特征在于，步骤一中，通过标点符号，将语料库中的所有文本句子分割成多个短句，再将短句中字数长度不大于S+1的候选词提取出来，其中，将每个短句中字数长度不大于S+1的候选词提取出来，进一步包括有：

步骤11、设定截词窗口的宽度width为1；

5.根据权利要求1所述的方法，其特征在于，步骤二进一步包括有：

步骤21、构建一个频繁词组；

步骤23、判断所述候选词C的支持度是否大于支持度阈值，如果是，则将所述候选词C保存到频繁词组中，并当候选词库中仍然存在有未计算支持度、且字数长度不大于S的候选词时，转向步骤22；如果否，则当候选词库中仍然存在有未计算支持度、且字数长度不大于S的候选词时，转向步骤22。

6.根据权利要求1所述的方法，其特征在于，步骤三中，还包括有：

步骤A1、从频繁词组中挑选出一个未计算离散度的候选词C；

步骤A2、从候选词库中找出候选词C的所有左邻字和右邻字；

7.根据权利要求6所述的方法，其特征在于，步骤A2进一步包括有：

步骤A21、为候选词C构建一个左邻字组和一个右邻字组，并根据候选词C的字数长度n(C)，从候选词库中挑选出所有字数长度为n(C)+1、且以候选词C为前缀或后缀的其他候选词，如果候选词C是挑选出的候选词的前缀，则将挑选出的候选词中的最后一个字保存到候选词C的右邻字组中，如果候选词C是挑选出的候选词的后缀，则将挑选出的候选词中的最前一个字保存到候选词C的左邻字组中。

8.根据权利要求6所述的方法，其特征在于，步骤A3进一步包括有：

步骤A31、分别计算候选词C的左邻字和右邻字的GINI指数值：

G(C)是候选词C的左或右邻字的GINI指数值，x_j是候选词C的一个左或右邻字，p(x_j)是x_j在候选词C的所有左或右邻字中的出现概率，L是候选词C的所有左或右邻字的个数，j是区间[1,L]范围内的一个整数；

步骤A33、判断候选词C的离散度是否大于离散度阈值，如果是，则说明所述候选词C是提取的新词；如果否，则说明所述候选词C不是提取的新词，将候选词C从频繁词组中删除。

9.根据权利要求5或6所述的方法，其特征在于，支持度阈值、置信度阈值、或离散度阈值的计算公式是：其中，s是区间[1,S]范围内的一个整数，Yα_s是候选词的字数长度为s时的支持度、置信度、或离散度阈值，M_s是候选词库中字数长度为s的候选词的总数，α_s(t)是第t个字数长度为s的候选词的支持度、置信度、或离散度，是所有字数长度为s的候选词的支持度、置信度、或离散度的总和，t是区间[1,M_s]范围内的一个整数。

10.根据权利要求9所述的方法，其特征在于，当候选词的字数长度为2时，还包括有：

对支持度阈值、置信度阈值、或离散度阈值进行调整：其中，Yα₂是候选词的字数长度为2时的支持度、置信度、或离散度阈值，Yα₂'是调整后的候选词的字数长度为2时的支持度、置信度、或离散度阈值，M₂是候选词库中字数长度为2的候选词的总数，α₂(k)是第k个字数长度为 2的候选词的支持度、置信度、或离散度,k是区间[1,M₂]范围内的一个整数。