CN105095196A

CN105095196A - 文本中新词发现的方法和装置

Info

Publication number: CN105095196A
Application number: CN201510443291.6A
Authority: CN
Inventors: 邵佳帅; 牟川; 邢志峰
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2015-07-24
Filing date: 2015-07-24
Publication date: 2015-11-25
Anticipated expiration: 2035-07-24
Also published as: CN105095196B

Abstract

本发明提供一种文本中新词发现的方法和装置，能够自动发现文本中字的特征，并通过挖掘字的特征向量的相似度从文本中发现出新词，节省了现有技术中观察数据特征的时间，提高新词发现的效率。该方法包括：将文本中的每个字分隔开，利用深度神经网络算法提取每个字的特征向量；计算文本中每相邻两个字的特征向量的夹角余弦值并将计算结果排序；选取所有所述夹角余弦值大于预设阈值的相邻两个字的顺序组合作为文本新词，并输出所述文本新词。

Description

文本中新词发现的方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种文本中新词发现的方法和装置。

背景技术

随着自然语言处理技术的近年来的不断发展，新词发现也变得越来越重要(本文中的新词发现是指将文本中词语发现出来，为后续进行的分词、标注、主体提取等操作做准备)。可以说词是我们做自然语言处理的第一步也是最重要的一步。只有当我们已经有词的时候，我们才可以对含有这些词的文本进行分词、标注、主题提取等后续操作。此外，随着网络新词激增，新词发现技术不仅要发现目前还没有的词，还要发现每天不断涌现出的新词。

近年来，新词发现已经有很多技术，例如可以通过隐马尔可夫模型、条件随机场等模型在文本中进行新词发现。

隐马尔可夫模型(HiddenMarkovModel，HMM)是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。隐马尔可夫模型作为一种统计分析模型，创立于20世纪70年代。80年代得到了传播和发展，成为信号处理的一个重要方向，现已成功地用于语音识别，行为识别，文字识别以及故障诊断等领域。

条件随机场(conditionalrandomfields，简称CRF，或CRFs)，是一种判别式概率模型，是随机场的一种，常用于标注或分析序列资料，如自然语言文字或是生物序列。

但是，现有的隐马尔可夫模型、条件随机场等模型在文本中新词发现的过程中仍存在一定的缺陷：它们都需要通过人工的方法来发现字与字的特征，需要花费大量的时间观察大量的数据去总结。因此，现有技术中利用隐马尔可夫模型、条件随机场等模型的计算代价高，耗时长。

发明内容

有鉴于此，本发明提供一种文本中新词发现的方法和装置，能够自动发现文本中字的特征，并通过挖掘字的特征向量的相似度从文本中发现出新词，节省了现有技术中观察数据特征的时间，提高新词发现的效率。

为实现上述目的，根据本发明的一个方面，提供了一种文本中新词发现的方法。

本发明的文本中新词发现的方法包括：将文本中的每个字分隔开，利用深度神经网络算法提取每个字的特征向量；计算文本中每相邻两个字的特征向量的夹角余弦值并将计算结果排序；选取所有所述夹角余弦值大于预设阈值的相邻两个字的顺序组合作为文本新词，并输出所述文本新词。

可选地，所述方法还包括：在将文本中的每个字分隔开之前，将所述文本按照标点符号进行分行，使每行成为一个短文本。

可选地，所述方法还包括：在利用深度神经网络算法提取每个字的特征向量之后，对所述每个字按照字为键、特征向量为值的形式生成哈希字典进行存储。

可选地，所述方法还包括：在将计算结果排序之后，去除所述计算结果中相同两字的组合及字母和/或数字的组合。

可选地，所述方法还包括：在选取所有所述夹角余弦值大于预设阈值的相邻两个字的顺序组合作为文本新词之后，遍历所述文本新词，判断是否存在两个文本新词，其中一个文本新词的最后一个字是另一个文本新词的第一个字，若存在，则将所述两个文本新词按照顺序合并去掉中间重复字得到一个新的文本新词；判断所述新的文本新词在所述文本中是否存在，若存在，则删除合并前的两个文本新词，保留所述新的文本新词；若不存在，则保留合并前的两个文本新词。

根据本发明的另一方面，提供一种文本中新词发现的装置。

本发明的文本中新词发现的装置包括：提取模块，用于将文本中的每个字分隔开，利用深度神经网络算法提取每个字的特征向量；计算模块，用于计算文本中每相邻两个字的特征向量的夹角余弦值并将计算结果排序；选取模块，用于选取所有所述夹角余弦值大于预设阈值的相邻两个字的顺序组合作为文本新词，并输出所述文本新词。

可选地，所述提取模块还用于：在将文本中的每个字分隔开之前，将所述文本按照标点符号进行分行，使每行成为一个短文本。

可选地，所述提取模块还用于：在利用深度神经网络算法提取每个字的特征向量之后，对所述每个字按照字为键、特征向量为值的形式生成哈希字典进行存储。

可选地，所述计算模块还用于：在将计算结果排序之后，去除所述计算结果中相同两字的组合及字母和/或数字的组合。

可选地，所述选取模块还用于：在选取所有所述夹角余弦值大于预设阈值的相邻两个字的顺序组合作为文本新词之后，遍历所述文本新词，判断是否存在两个文本新词，其中一个文本新词的最后一个字是另一个文本新词的第一个字，若存在，则将所述两个文本新词按照顺序合并去掉中间重复字得到一个新的文本新词；判断所述新的文本新词在所述文本中是否存在，若存在，则删除合并前的两个文本新词，保留所述新的文本新词；若不存在，则保留合并前的两个文本新词。

根据本发明的技术方案，通过将文本拆分成短文本，从而能减少计算的复杂程度；通过将文本中的一个一个字拆分开，从而能保证计算机对文本中单个字符的识别；通过深度神经网络提取每个字的特征向量，从而能保证对字的特征向量的自动提取，节省观察数据特征的时间；通过对提取后的字与其特征向量的哈希字典存储，从而能保证特征向量提取结果的有效存储，同时方便后续处理过程对提取结果的有效查询和运用；通过对文本中每相邻两个字的特征向量的余弦距离的计算，从而能方便判断出每相邻两个字是否是一个文本新词；通过对每相邻两个字的特征向量余弦距离的计算结果的排序，从而方便对夹角余弦值大的相邻两个字的顺序组合的选取；通过对计算结果中相同两字的组合以及数字和/或字母组合等干扰项的剔除，从而能保障得到的下述选取结果的高质量；通过对所有所述夹角余弦值大于预设阈值的相邻两个字的顺序组合的选取，从而能得到文本新词；通过对文本新词结果中含有共有字的文本新词的合并，从而能准确的得到由多个字组成文本新词。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的文本中新词发现的方法的主要步骤的示意图；

图2是根据本发明实施例的文本中新词发现的方法的具体流程的示意图；

图3是根据本发明实施例的文本中新词发现的装置的主要模块的示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明实施例的文本中新词发现的方法的主要步骤的示意图。

如图1所示，本发明实施例的文本中新词发现的方法主要包括如下步骤：

步骤S11：将文本中的每个字分隔开，利用深度神经网络算法提取每个字的特征向量。西方文字通常在单词之间都有空隔分割，计算机对单词识别起来比较方便，但是中文没有词组分割，而计算机本身并不能区分词语词组，因此，在本发明实施例中，对文本进行新词发现之前，首先要将文本中的每个字分隔开。

对文本中的每个字的分隔操作，可以使用python脚本语言实现。例如，将所有字转换为统一码编码形式。因为统一码编码格式每个字符的长度都为1，这样，把每个句子按照长度为1的步长分割，就得到了一个一个字分开的文本。

将文本中的每个字分隔开后，便可利用深度神经网络提取每个字的特征向量。但是由于一个文本中往往含有数个句子，甚至更多，因此，在本发明的一个实施例中，文本中新词发现的方法还包括：在将文本中的每个字分隔开之前，将所述文本按照标点符号进行分行，使每行成为一个短文本。具体流程如图2所示。

将文本分成一个个的短文本的具体操作可以使用python脚本语言实现，将所有标点符号收集起来。代码的编写规则为：遇到标点符号就将文本分开，并将分开后的句子片段存储到文件中。通过将原始文本分隔成一个一个的短文本，可以减少计算的复杂程度，从而提高处理的效率。

在进行了上述的将文本分隔成短文本以及将文本中的每个字分隔开的操作后，便可以对文本中每个单独的字进行特征的提取。在本发明实施例中，采用深度神经网络算法提取每个字的特征向量。

神经网络，还可以称作连接模型(ConnectionModel)，它是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。

通过深度神经网络的算法提取某一深度的每个字的向量，得到的结果是每个字都有唯一的一个特征向量。此外，在利用深度神经网络提取字的特征向量的过程中，特征向量的维数为深度神经网络学习中可调整的参数，例如可以将维数设定为200，便可得到每个字一个200维的特征向量。

通过深度神经网络算法可以自动的提取每个字的特征向量，从而能节省现有技术观察数据特征的时间。

对每个字的特征向量进行提取后，如图2所示，在本发明的实施例的具体流程中，还可以包括对提取结果进行哈希存储。即将每个字的字作为键(key)，特征向量为值(value)进行哈希存储，生成哈希字典，以便于后续操作过程中对上述每个字的特征向量提取结果的查找和运用。

在经过本步骤的特征向量的提取之后，文本中每个字的特征向量已经获取，从步骤S12开始处理。

步骤S12：计算文本中每相邻两个字的特征向量的夹角余弦值并将计算结果排序。两个特征向量越相似，两特征向量夹角余弦值就越接近1，也就说明该相邻两个字的组合是一个词语的可能性就越大。

对相邻的字与字之间的余弦距离的计算可以采用余弦值计算公式进行，公式如下：cosθ＝v1·v2/|v1||v2|，其中v1，v2代表两个字的特征向量。以文本“质量不错”为例，要分别计算“质量”、“量不”、“不错”三个片段的特征向量夹角余弦值。

在本发明的一个优选实施例中，对得到的每相邻两个字的特征向量的夹角余弦值的计算结果进行排序。例如，可以是按照余弦值的大小进行降序排序。排序的方法可以有多种选择，比如利用冒泡排序、快速排序、堆排序等方式进行。

步骤S13：选取所有所述夹角余弦值大于预设阈值的相邻两个字的顺序组合作为文本新词，并输出所述文本新词。

排序后可以清晰地挑选出夹角余弦值大的相邻两个字的顺序组合构成的文本新词。但是由于存在如下情形：两个相同的字的特征向量是一样的，它们的夹角余弦值会非常大，但这两个字的顺序组合并不是一个词语；数字和/或字母的组合的特征向量的夹角余弦值也很高，而它们也不是一个词语。因此，需要将上述情形的干扰项从排序后的计算结果中进行剔除，然后再进行对夹角余弦值大于预设阈值的相邻两个字的顺序组合的选取，作为文本新词予以输出。具体流程如图2所示。

在一个实施例中，对上述情形干扰项的剔除可以采用python脚本语言来实现，代码编写如下：

如上段代码所示，遍历每个文本新词，如第2、3行代码所示：如果这两个字符是非中文字符组成，则过滤掉；如第4、5行代码所示：如果得到的结果中这两个字是相同的，则将其过滤掉。对排序后得到的文本新词中的干扰项过滤掉后，可以得到质量较高的文本新词集合。

在不同文本中，对夹角余弦值大于预设阈值的相邻两个字的顺序组合进行选取，阈值不是确定不变的。文本的大小不一样或者数据类型不一样，阈值很可能会有变化。所以，要通过观察余弦值计算结果的数据来确定。先对排序后的每相邻两个字的特征向量的夹角余弦值的计算结果进行观察，通过观察，找到新发现的词开始变得不准确的位置，确定出阈值。

完成上述选取后，便可得到质量较高的文本新词。但是，仍然存在如下情形：如得到的文本新词中的个别词语只是某一个词的片段，例如，选取出的文本新词中存在“阿斯”、“斯顿”，而“阿斯顿”才是真正的一个文本新词。对于这种情形，可以采用词语合并的方式进行文本新词选取结果的完善，即根据两个词共有子进行合并三字词和/或四字词。具体流程如图2所示。

词语合并具体操作如下：遍历选取完成后的文本新词，判断是否存在两个文本新词，其中一个文本新词的最后一个字是另一个文本新词的第一个字，若存在，则将所述两个文本新词按照顺序合并去掉中间重复字得到一个新的文本新词；判断所述新的文本新词在文本中是否存在，若存在，则删除合并前的两个文本新词，保留得到的新的文本新词；若不存在，则保留合并前的两个文本新词。

根据上述文本中新词发现的方法可以看出，通过将文本拆分成短文本，从而能减少计算的复杂程度；通过将文本中的一个一个字拆分开，从而能保证计算机对文本中单个字符的识别；通过深度神经网络提取每个字的特征向量，从而能保证对字的特征向量的自动提取，节省观察数据特征的时间；通过对提取后的字与其特征向量的哈希字典存储，从而能保证特征向量提取结果的有效存储，同时方便后续处理过程对提取结果的有效查询和运用；通过对文本中每相邻两个字的特征向量的余弦距离的计算，从而能方便判断出每相邻两个字是否是一个文本新词；通过对每相邻两个字的特征向量余弦距离的计算结果的排序，从而方便对夹角余弦值大的相邻两个字的顺序组合的选取；通过对计算结果中相同两字的组合以及数字和/或字母组合等干扰项的剔除，从而能保障得到的下述选取结果的高质量；通过对所有所述夹角余弦值大于预设阈值的相邻两个字的顺序组合的选取，从而能得到文本新词；通过对文本新词结果中含有共有字的文本新词的合并，从而能准确的得到由多个字组成文本新词。

如图3所示，本发明实施例的文本中新词发现的装置20主要包括提取模块201、计算模块202、选取模块203。

提取模块201用于将文本中的每个字分隔开，利用深度神经网络算法提取每个字的特征向量；计算模块202用于计算文本中每相邻两个字的特征向量的夹角余弦值并将计算结果排序；选取模块203用于选取所有所述夹角余弦值大于预设阈值的相邻两个字的顺序组合作为文本新词，并输出所述文本新词。

提取模块201还用于在将文本中的每个字分隔开之前，将所述文本按照标点符号进行分行，使每行成为一个短文本。

提取模块201还用于在利用深度神经网络算法提取每个字的特征向量之后，对所述每个字按照字为键、特征向量为值的形式生成哈希字典进行存储。

计算模块202还用于在将计算结果排序之后，去除所述计算结果中相同两字的组合及字母和/或数字的组合。

选取模块203还用于在选取所有所述夹角余弦值大于预设阈值的相邻两个字的顺序组合作为文本新词之后，遍历所述文本新词，判断是否存在两个文本新词，其中一个文本新词的最后一个字是另一个文本新词的第一个字，若存在，则将所述两个文本新词按照顺序合并去掉中间重复字得到一个新的文本新词；判断所述新的文本新词在所述文本中是否存在，若存在，则删除合并前的两个文本新词，保留所述新的文本新词；若不存在，则保留合并前的两个文本新词。

从以上描述可以看出，在本发明实施例中，通过将文本拆分成短文本，从而能减少计算的复杂程度；通过将文本中的一个一个字拆分开，从而能保证计算机对文本中单个字符的识别；通过深度神经网络提取每个字的特征向量，从而能保证对字的特征向量的自动提取，节省观察数据特征的时间；通过对提取后的字与其特征向量的哈希字典存储，从而能保证特征向量提取结果的有效存储，同时方便后续处理过程对提取结果的有效查询和运用；通过对文本中每相邻两个字的特征向量的余弦距离的计算，从而能方便判断出每相邻两个字是否是一个文本新词；通过对每相邻两个字的特征向量余弦距离的计算结果的排序，从而方便对夹角余弦值大的相邻两个字的顺序组合的选取；通过对计算结果中相同两字的组合以及数字和/或字母组合等干扰项的剔除，从而能保障得到的下述选取结果的高质量；通过对所有所述夹角余弦值大于预设阈值的相邻两个字的顺序组合的选取，从而能得到文本新词；通过对文本新词结果中含有共有字的文本新词的合并，从而能准确的得到由多个字组成文本新词。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种文本中新词发现的方法，其特征在于，包括：

将文本中的每个字分隔开，利用深度神经网络算法提取每个字的特征向量；

计算文本中每相邻两个字的特征向量的夹角余弦值并将计算结果排序；

选取所有所述夹角余弦值大于预设阈值的相邻两个字的顺序组合作为文本新词，并输出所述文本新词。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在将文本中的每个字分隔开之前，将所述文本按照标点符号进行分行，使每行成为一个短文本。

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

在利用深度神经网络算法提取每个字的特征向量之后，对所述每个字按照字为键、特征向量为值的形式生成哈希字典进行存储。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在将计算结果排序之后，去除所述计算结果中相同两字的组合及字母和/或数字的组合。

5.根据权利要求1或4所述的方法，其特征在于，所述方法还包括：在选取所有所述夹角余弦值大于预设阈值的相邻两个字的顺序组合作为文本新词之后，

遍历所述文本新词，判断是否存在两个文本新词，其中一个文本新词的最后一个字是另一个文本新词的第一个字，若存在，则将所述两个文本新词按照顺序合并去掉中间重复字得到一个新的文本新词；

判断所述新的文本新词在所述文本中是否存在，若存在，则删除合并前的两个文本新词，保留所述新的文本新词；若不存在，则保留合并前的两个文本新词。

6.一种文本中新词发现的装置，其特征在于，包括：

提取模块，用于将文本中的每个字分隔开，利用深度神经网络算法提取每个字的特征向量；

计算模块，用于计算文本中每相邻两个字的特征向量的夹角余弦值并将计算结果排序；

选取模块，用于选取所有所述夹角余弦值大于预设阈值的相邻两个字的顺序组合作为文本新词，并输出所述文本新词。

7.根据权利要求6所述的装置，其特征在于，所述提取模块还用于：

8.根据权利要求6或7所述的装置，其特征在于，所述提取模块还用于：

9.根据权利要求6所述的装置，其特征在于，所述计算模块还用于：

10.根据权利要求6或9所述的装置，其特征在于，所述选取模块还用于：

在选取所有所述夹角余弦值大于预设阈值的相邻两个字的顺序组合作为文本新词之后，