CN105512109A

CN105512109A - 新词汇的发现方法及装置

Info

Publication number: CN105512109A
Application number: CN201510918931.4A
Authority: CN
Inventors: 顾俊; 刘鹏
Original assignee: Beijing Ruian Technology Co Ltd
Current assignee: Beijing Ruian Technology Co Ltd
Priority date: 2015-12-11
Filing date: 2015-12-11
Publication date: 2016-04-20
Anticipated expiration: 2035-12-11
Also published as: CN105512109B

Abstract

本发明公开了一种新词汇的发现方法及装置。该方法包括：获取文本文档；将所述文本文档分割成片段；以所述片段中的二元词为基础，对所述二元词进行扩展，并对所述二元词及扩展得到的词语以词典为参考进行过滤，得到候选词汇；计算所述候选词汇的内密度和外密度；当所述内密度和外密度分别大于预设内密度阈值和预设外密度阈值时，确定所述候选词汇为新词汇。本发明不需要利用词典对文本文档进行分词，而是利用词典对片段中的词语进行过滤得到候选词汇，然后再根据内密度和外密度对候选词汇进行过滤，最终得到新词汇，避开了词典的局限性，提高了发现的新词汇的准确性。

Description

新词汇的发现方法及装置

技术领域

本发明实施例涉及自然语言处理技术，尤其涉及一种新词汇的发现方法及装置。

背景技术

现有技术中，对于新词汇的发现方法主要有两种：基于单字散串的方法和高频重复模式方法。

图1是现有技术中的基于单字散串的方法确定新词汇的流程图，如图1所示，主要步骤包括：步骤110、获取文档集；步骤120、利用现有分词系统和词典，对文档集进行分词，因新词在分词过程中无法被识别，会被分成独立的单字和相邻单字组成的字串，他们有可能就是候选的新词汇；步骤130、利用统计或规则的方法对所获取的候选词进行检测和过滤，得到新词汇。基于高频重复模式方法的出发点是：新词具有较高的使用频率，因此，从大量语料中选出重复模式作为候选词，再对候选词利用统计或规则的方法进行过滤，得到新词汇。

上述两种方法都是对文档分词后，从中获取候选词，再进行相关处理。这种基于规则的处理方法，因为所用词典不同，导致抽取到的新词语也不相同，更为严重的是当分词字典本身不准确时，不仅不利于新词的发现，更有可能提取出错误的词。另外，基于高频重复模式的方法将会忽略那些低频新词的提取，因此具有局限性。因此，上述两种方法都存在着提取的新词汇不够准确的缺点。

发明内容

有鉴于此，本发明实施例提供一种新词汇的发现方法及装置，以提高发现的新词汇的准确性。

第一方面，本发明实施例提供了一种新词汇的发现方法，所述方法包括：

获取文本文档；

将所述文本文档分割成片段；

以所述片段中的二元词为基础，对所述二元词进行扩展，并对所述二元词及扩展得到的词语以词典为参考进行过滤，得到候选词汇；

计算所述候选词汇的内密度和外密度；

当所述内密度和外密度分别大于预设内密度阈值和预设外密度阈值时，确定所述候选词汇为新词汇。

第二方面，本发明实施例还提供了一种新词汇的发现装置，所述装置包括：

文档获取模块，用于获取文本文档；

片段分割模块，用于将所述文本文档分割成片段；

候选词汇确定模块，用于以所述片段中的二元词为基础，对所述二元词进行扩展，并对所述二元词及扩展得到的词语以词典为参考进行过滤，得到候选词汇；

密度计算模块，用于计算所述候选词汇的内密度和外密度；

新词汇确定模块，用于当所述内密度和外密度分别大于预设内密度阈值和预设外密度阈值时，确定所述候选词汇为新词汇。

本发明实施例的技术方案，不需要利用词典对文本文档进行分词，而是利用词典对片段中的词语进行过滤得到候选词汇，然后再根据内密度和外密度对候选词汇进行过滤，最终得到新词汇，避开了词典的局限性，提高了发现的新词汇的准确性。

附图说明

图1是现有技术中的基于单字散串的方法确定新词汇的流程图；

图2是本发明实施例一提供的一种新词汇的发现方法的流程图；

图3是本发明实施例二提供的一种新词汇的发现方法的流程图；

图4是本发明实施例三提供的一种新词汇的发现装置的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。

实施例一

图2是本发明实施例一提供的一种新词汇的发现方法的流程图，本实施例可适用于发现文本文档中的新词汇的情况，该方法可以由计算机来执行，具体包括如下步骤：

步骤210，获取文本文档。

利用爬虫程序从网络中爬取文本文档，将爬取到的文本文档存储到数据库中。

在需要对文本文档中的新词汇进行发现时，可以从数据库中存储的数据中获得所述文本文档，当所述数据库中没有存储所述文本文档时，也可以直接利用爬虫程序从网络中爬取所述文本文档。

步骤220，将所述文本文档分割成片段。

将所述文本文档分割成片段，如可以根据段落将所述文本文档分割成片段，也可以根据文本文档中的标点符号将所述文本文档分割成片段，当然，还可以有其他分割方法。

其中，将所述文本文档分割成片段优选包括：

以所述文本文档中的标点符号为分隔符将所述文本文档分割成片段。

利用文本文档中的标点符号将所述文本文档分割成长短不一的片段，这样用标点符号隔开的两个片段也可以说两个短语，在局部范围内不是联系紧密的新词汇，这样有利于后续对候选词汇的内密度的计算。

步骤230，以所述片段中的二元词为基础，对所述二元词进行扩展，并对所述二元词及扩展得到的词语以词典为参考进行过滤，得到候选词汇。

其中，二元词是指由相邻两个字组成的词语。

以所述片段中的相邻两个字组成的二元词为基础，对所述二元词进行扩展，每次扩展一个或者多个字，直到得到设定元词，将得到的包括所述二元词在内的词语与词典中的词语进行匹配。如果匹配成功，说明该词语在词典中存在，则该词语不是新词汇；如果匹配不成功，说明该词语在词典中不存在，则该词语有可能是新词汇，因此，确定该词语为候选词汇。其中，设定元词可以为七元词，如“中华人民共和国”。当然，在对片段中的二元词进行扩展时还需要考虑片段的长度，如：如果设定元词为七元词，而片段的实际长度为五个字时，则只需扩展到五元词。

其中，以所述片段中的二元词为基础，对所述二元词进行扩展，并对所述二元词及扩展得到的词语以词典为参考进行过滤，得到候选词汇优选包括：

将所述片段中的相邻两字组成的二元词与词典中的词语进行匹配，如果匹配不成功，则确定所述二元词为候选词汇；

根据所述二元词在所述片段中的位置、扩展方向以及扩展数目，对所述二元词进行扩展，获取对应的扩展元词；

如果所述扩展元词与词典中的词语匹配不成功，则确定所述扩展元词为候选词汇。

首先提取出片段中的二元词，在提取二元词时，可以以片段中开头的两个字为基础，依次往右交错一个字得到的二元词(如片段中的第二个字和第三个字组成的二元词，第三个字和第四个字组成的二元词等)，直到得到片段中的最后一个二元词，将得到的二元词与词典中的词语进行匹配，如果匹配不成功，则确定所述二元词为候选词汇。然后以所述二元词为基础，根据所述二元词在所述片段中的位置、扩展方向以及扩展数目，对所述二元词进行扩展，得到对应的扩展元词，扩展方向一般可以为向右扩展，扩展数目即扩展的字数，如对二元词扩展一个字得到三元词，再对所述三元词扩展一个字得到四元词(即对所述二元词扩展二个字得到四元词)，该三元词、四元词即为扩展元词，对二元词进行的扩展最大可以扩展到设定元词，即最大扩展数目和设定元词有关。再将扩展元词与词典中的词语进行匹配，如果匹配不成功，则确定所述扩展元词为候选词汇。

步骤240，计算所述候选词汇的内密度和外密度。

其中，所述内密度是一个词语中的字之间的联系紧密程度，所述外密度是一个词语在文档中出现的概率。

应用统计学习方法计算所述候选词汇的内密度和外密度。可以利用候选词汇中的字之间的相关性计算候选词汇的内密度，利用TF-IDF(TermFrequency–InverseDocumentFrequency，词频-逆向文件频率)的方法计算候选词汇的外密度。

其中，计算所述候选词汇的内密度和外密度优选包括：

根据如下公式计算所述候选词汇的内密度：

M I (x, y) = l o g \frac{P (x, y)}{P (x) P (y)}

其中，MI(x,y)是由字或词x和y组成的候选词汇的内密度，P(x)和P(y)是字或词x和y在所述文本文档中独立出现的概率，P(x,y)是字或词x和y在所述文本文档中同时出现的概率；

根据如下公式计算所述候选词汇的外密度：

W (t, d) = \frac{t f (t, d) * l o g (\frac{N}{n} + 0.01)}{\sqrt{Σ_{i &Element; N} {[t f (t, i) * l o g (\frac{N}{n} + 0.01)]}^{2}}}

其中，d表示所述文本文档的序号，W(t,d)是候选词汇t在文本文档d中的外密度，tf(t,d)表示候选词汇t在文本文档d中的权重，N为训练样本总数，n表示训练样本中出现词t的文档数，i＝1,2,…,N。

在计算外密度时，需要用到选择到的所有训练样本的数据，所述文本文档为训练样本中的一个文档。

步骤250，当所述内密度和外密度分别大于预设内密度阈值和预设外密度阈值时，确定所述候选词汇为新词汇。

将所述候选词汇的内密度和外密度分别与预设内密度阈值和预设外密度阈值进行比较，当所述候选词汇的内密度大于预设内密度阈值且外密度大于预设外密度阈值时，确定所述候选词汇为新词汇。所述预设内密度阈值和预设外密度阈值可以根据经验值设定。

本实施例的技术方案，通过将文本文档分割成片段，以所述片段中的二元词为基础，对所述二元词进行扩展，对得到的词语以词典为参考进行过滤，得到候选词汇，计算所述候选词汇的内密度和外密度，当所述内密度和外密度分别大于预设内密度阈值和预设外密度阈值时，确定所述候选词汇为新词汇。本实施例不需要利用词典对文本文档进行分词，而是利用词典对片段中的词语进行过滤得到候选词汇，然后再根据内密度和外密度对候选词汇进行过滤，最终得到新词汇，避开了词典的局限性，提高了发现的新词汇的准确性。

在上述技术方案的基础上，当所述内密度和外密度分别大于预设内密度阈值和预设外密度阈值时，确定所述候选词汇为新词汇优选包括：

当所述内密度和外密度分别大于预设内密度阈值和预设外密度阈值时，分别计算相邻的高元候选词汇和低元候选词汇的内密度差和外密度差；

当所述内密度差的绝对值小于预设内密度差阈值且所述外密度差的绝对值小于预设外密度差阈值时，确定所述高元候选词汇为新词汇。

当候选词汇的内密度和外密度分别大于预设内密度阈值和预设外密度阈值时，再计算词元差，即相邻高元候选词汇和低元候选词汇(如由二元词扩展得到的三元词和该二元词)的内密度差，以及相邻高元候选词汇和低元候选词汇的外密度差；当所述内密度差的绝对值小于预设内密度差阈值，且所述外密度差的绝对值小于预设外密度差阈值时，确定所述高元候选词汇为新词汇；当所述内密度差的绝对值不小于预设内密度差阈值，和/或所述外密度差的绝对值不小于预设外密度差阈值时，确定所述高元候选词汇和所述低元候选词汇均为新词汇。经过内密度差及外密度差的过滤，进一步提高了确定的新词汇的准确性。

实施例二

图3是本发明实施例二提供的一种新词汇的发现方法的流程图，本实施例是实施例一的一个优选实施例，具体包括如下步骤：

步骤301，获取文本文档；

步骤302，按标点符号将所述文本文档切成片段，然后以二元词为基础，不断扩展新词元，所述二元词或新词元为词汇；

步骤303，判断所述词汇与字典中的词语是否匹配，当不匹配时执行步骤304，当匹配时执行步骤310；

步骤304，根据内密度计算公式和外密度计算公式分别计算所述词汇的内密度和外密度；

步骤305，判断内密度和外密度是否都小于各自的阈值，如果否则执行步骤306，如果是则执行步骤310；

步骤306，确定所述词汇为候选词汇；

步骤307，计算相邻的高元候选词汇与低元候选词汇的内密度差和外密度差；

步骤308，判断内密度差的绝对值和外密度差的绝对值是否都小于各自的阈值，如果否则执行步骤309，如果是则执行步骤310；

步骤309，确定候选词汇为新词汇。

步骤310，确定词汇或候选词汇不是新词汇。

本实施例的技术方案，通过利用词典、内密度和外密度，以及内密度差和外密度差对词汇进行三重过滤，得到新词汇，避开了词典的局限性，又充分利用了词典过滤词汇，减轻了文档计算量的负担，同时由于进行了多重过滤，从而保证了发现的新词汇的可靠性和准确性。

实施例三

图4是本发明实施例三提供的一种新词汇的发现装置的结构示意图，如图4所示，本实施例提供的新词汇的发现装置包括：文档获取模块410、片段分割模块420、候选词汇确定模块430、密度计算模块440和新词汇确定模块450。

其中，文档获取模块410用于获取文本文档；

片段分割模块420用于将所述文本文档分割成片段；

候选词汇确定模块430用于以所述片段中的二元词为基础，对所述二元词进行扩展，并对所述二元词及扩展得到的词语以词典为参考进行过滤，得到候选词汇；

密度计算模块440用于计算所述候选词汇的内密度和外密度；

新词汇确定模块450用于当所述内密度和外密度分别大于预设内密度阈值和预设外密度阈值时，确定所述候选词汇为新词汇。

优选的，所述片段分割模块具体用于：

优选的，所述候选词汇确定模块具体用于：

优选的，所述密度计算模块包括：

内密度计算单元，用于根据如下公式计算所述候选词汇的内密度：

M I (x, y) = l o g \frac{P (x, y)}{P (x) P (y)}

外密度计算单元，用于根据如下公式计算所述候选词汇的外密度：

W (t, d) = \frac{t f (t, d) * l o g (\frac{N}{n} + 0.01)}{\sqrt{Σ_{i &Element; N} {[t f (t, i) * l o g (\frac{N}{n} + 0.01)]}^{2}}}

优选的，所述新词汇确定模块包括：

词元差计算单元，用于当所述内密度和外密度分别大于预设内密度阈值和预设外密度阈值时，分别计算相邻的高元候选词汇和低元候选词汇的内密度差和外密度差；

新词汇确定单元，用于当所述内密度差的绝对值小于预设内密度差阈值且所述外密度差的绝对值小于预设外密度差阈值时，确定所述高元候选词汇为新词汇。

上述产品可执行本发明任意实施例所提供的方法，具备执行方法相应的功能模块和有益效果。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种新词汇的发现方法，其特征在于，所述方法包括：

获取文本文档；

将所述文本文档分割成片段；

计算所述候选词汇的内密度和外密度；

2.根据权利要求1所述的方法，其特征在于，将所述文本文档分割成片段包括：

3.根据权利要求1所述的方法，其特征在于，以所述片段中的二元词为基础，对所述二元词进行扩展，并对所述二元词及扩展得到的词语以词典为参考进行过滤，得到候选词汇包括：

4.根据权利要求1所述的方法，其特征在于，计算所述候选词汇的内密度和外密度包括：

根据如下公式计算所述候选词汇的内密度：

M I (x, y) = \log \frac{P (x, y)}{P (x) P (y)}

根据如下公式计算所述候选词汇的外密度：

W (t, d) = \frac{t f (t, d) * \log (\frac{N}{n} + 0.01)}{\sqrt{Σ_{i &Element; N} {[t f (t, i) * l o g (\frac{N}{n} + 0.01)]}^{2}}}

5.根据权利要求1-4任一所述的方法，其特征在于，当所述内密度和外密度分别大于预设内密度阈值和预设外密度阈值时，确定所述候选词汇为新词汇包括：

6.一种新词汇的发现装置，其特征在于，所述装置包括：

文档获取模块，用于获取文本文档；

片段分割模块，用于将所述文本文档分割成片段；

密度计算模块，用于计算所述候选词汇的内密度和外密度；

7.根据权利要求6所述的装置，其特征在于，所述片段分割模块具体用于：

8.根据权利要求6所述的装置，其特征在于，所述候选词汇确定模块具体用于：

9.根据权利要求6所述的装置，其特征在于，所述密度计算模块包括：

M I (x, y) = \log \frac{P (x, y)}{P (x) P (y)}

W (t, d) = \frac{t f (t, d) * l o g (\frac{N}{n} + 0.01)}{\sqrt{Σ_{i &Element; N} {[t f (t, i) * l o g (\frac{N}{n} + 0.01)]}^{2}}}

10.根据权利要求6-9任一所述的方法，其特征在于，所述新词汇确定模块包括：