CN108628821B

CN108628821B - 一种词汇挖掘方法及装置

Info

Publication number: CN108628821B
Application number: CN201710169796.7A
Authority: CN
Inventors: 李潇; 张锋; 王策
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-03-21
Filing date: 2017-03-21
Publication date: 2022-11-25
Anticipated expiration: 2037-03-21
Also published as: WO2018171515A1; CN108628821A

Abstract

本申请公开了一种词汇挖掘方法及装置，在语料句子中确定所包含的实体词集合和候选上位词集合，将两个集合中的词两两组合，得到候选词对，进一步确定候选词对中实体词和候选上位词各自的词向量，并根据词向量对来确定候选词对是否为词汇挖掘结果，示例如，确定候选词对是否为上位词对。本申请不需要人工整理语料，通过机器学习方式实现了上位词对的自动挖掘，其上位词对挖掘效率大大提升，降低了挖掘成本。

Description

一种词汇挖掘方法及装置

技术领域

本申请涉及数据挖掘技术领域，更具体地说，涉及一种词汇挖掘方法及装置。

背景技术

上位词的含义是，如果一个实体词A和一个词B包含上下位关系，实体词A属于词B的下位，则词B就是实体词A的上位词。例如，“动物”是“老虎”的上位词。在此基础上，由构成上下位关系的实体词A和词B组成的词对称之为上位词对。如，《老虎、动物》构成一个上位词对。

在大量的语料中挖掘出上位词对，能够帮助进行篇章分析等工作。现有的上位词对挖掘方法一般是人工对语料进行语义分析，从中确定上位词对。显然，人工挖掘的方式效率低下，并且需要挖掘人员具备一定的领域知识，人工成本高。

发明内容

有鉴于此，本申请提供了一种词汇挖掘方法及装置，用于实现低成本、高效率的上位词对的挖掘。

为了实现上述目的，现提出的方案如下：

一种词汇挖掘方法，包括：

针对待挖掘语料所包含的每一句子，确定所述句子所包含的实体词集合，以及由所述句子所包含的名词及名词短语组成的候选上位词集合；

将所述实体词集合中的实体词和所述候选上位词集合中的候选上位词两两组合，实体词和候选上位词组合后的词对作为候选词对；

确定所述候选词对中实体词和候选上位词各自的词向量，由所述各自的词向量组成候选词向量对；

根据所述候选词向量对，确定所述候选词对是否为词汇挖掘结果。

一种词汇挖掘装置，包括：

集合确定单元，用于针对待挖掘语料所包含的每一句子，确定所述句子所包含的实体词集合，以及由所述句子所包含的名词及名词短语组成的候选上位词集合；

候选词对确定单元，用于将所述实体词集合中的实体词和所述候选上位词集合中的候选上位词两两组合，实体词和候选上位词组合后的词对作为候选词对；

词向量确定单元，用于确定所述候选词对中实体词和候选上位词各自的词向量，由所述各自的词向量组成候选词向量对；

上位词确定单元，用于根据所述候选词向量对，确定所述候选词对是否为词汇挖掘结果。

本申请实施例提供的词汇挖掘方法，针对待挖掘语料所包含的每一句子，确定所述句子所包含的实体词集合，以及由所述句子所包含的名词及名词短语组成的候选上位词集合；将所述实体词集合中的实体词和所述候选上位词集合中的候选上位词两两组合，实体词和候选上位词组合后的词对作为候选词对；确定所述候选词对中实体词和候选上位词各自的词向量，由所述各自的词向量组成候选词向量对；根据所述候选词向量对，确定所述候选词对是否为词汇挖掘结果。本申请在语料句子中确定所包含的实体词集合和候选上位词集合，将两个集合中的词两两组合，得到候选词对，进一步确定候选词对中实体词和候选上位词各自的词向量，并根据词向量对来确定候选词对是否为词汇挖掘结果，示例如，确定候选词对是否为上位词对。本申请不需要人工整理语料，通过机器学习方式实现了上位词对的自动挖掘，其上位词对挖掘效率大大提升，降低了挖掘成本。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的一种服务器硬件结构示意图；

图2为本申请实施例公开的一种词汇挖掘方法流程图；

图3为本申请实施例公开的另一种词汇挖掘方法流程图；

图4示例了一种双向循环神经网络模型架构图；

图5为本申请示例的一种上位词对挖掘流程示意图；

图6为本申请实施例公开的一种词汇挖掘装置结构示意图；

图7为本申请实施例公开的一种词向量确定单元结构示意图；

图8为本申请实施例公开的一种挖掘结果确定单元结构示意图；

图9为本申请实施例公开的一种初始词向量确定单元结构示意图；

图10为本申请实施例公开的另一种初始词向量确定单元结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种词汇的自动挖掘方案，可以用于挖掘上位词对，该挖掘方案基于服务器实现。该服务器的硬件结构可以是电脑、笔记本等处理设备，在介绍本申请的词汇挖掘方法之前，首先介绍一下服务器的硬件结构。如图1所示，该服务器可以包括：

处理器1，通信接口2，存储器3，通信总线4，和显示屏5；

其中处理器1、通信接口2、存储器3和显示屏5通过通信总线4完成相互间的通信。

接下来，我们结合服务器硬件结构，对本申请的词汇挖掘方法进行介绍，如图2所示，该方法包括：

步骤S200、针对待挖掘语料所包含的每一句子，确定所述句子所包含的实体词集合，以及由所述句子所包含的名词及名词短语组成的候选上位词集合；

具体地，待挖掘语料由众多的语句构成。针对待挖掘语料中每一句子，确定句子中所包含的实体词集合，以及句子所包含的名词及名词短语，由名词及名词短语作为候选上位词，组成候选上位词集合。

其中，实体词可以是人名、地名、组织机构名等命名实体。由于这些命名实体数量不断增加，通常不可能在词典中穷尽列出，且其构成方法具有各自的一些规律性。因此，本步骤在确定句子所包含的实体词时，可以采用命名实体识别方法，识别句子所包含的实体词，各实体词组成实体词集合。

而对于候选上位词，其一般是由名词和名词短语构成。本步骤在确定句子所包含的候选上位词时，可以首先对句子进行分词，进而识别每一分词的词性，将词性为名词和名词短语的分词作为候选上位词，组成候选上位词集合。

具体实施时，可以预先通过通信接口2，将待挖掘语料存储至存储器3中。在挖掘时，由处理器1通过通信总线4在存储器存储的待挖掘语料句子中，确定句子所包含的实体词集合，以及由所述句子所包含的名词及名词短语组成的候选上位词集合。

可选的，通信接口2可以为通信模块的接口，如GSM模块的接口。

可选的，处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。

步骤S210、将所述实体词集合中的实体词和所述候选上位词集合中的候选上位词两两组合，实体词和候选上位词组合后的词对作为候选词对；

其中，假设实体词集合中存在N个实体词，候选上位词集合中存在M个候选上位词。则两个集合中的词两两组合的组合方式一共有N*M种。实体词和候选上位词组合后构成的词对，作为候选词对。

具体实施时，可以由处理器1将所述实体词集合中的实体词和所述候选上位词集合中的候选上位词两两组合。

步骤S220、确定所述候选词对中实体词和候选上位词各自的词向量，由所述各自的词向量组成候选词向量对；

具体地，词向量是在自然语言处理过程中，将自然语言中的词数学化的过程，具体为将词以数学向量的形式来表示。

本步骤中确定所述候选词对中，实体词的词向量以及候选上位词的词向量。由实体词的词向量以及候选上位词的词向量组成候选词向量对，该候选词向量对与候选词对相互对应。

具体实施时，可以由处理器1来确定所述候选词对中实体词和候选上位词各自的词向量，由所述各自的词向量组成候选词向量对。

步骤S230、根据所述候选词向量对，确定所述候选词对是否为词汇挖掘结果。

具体地，在确定了候选词对对应的候选词向量对之后，可以使用预先训练好的分类模型，将候选词向量对输入至分类模型中，进而得到分类模型输出的分类结果。该分类结果表明所述候选词对是否为词汇挖掘结果，如表明所述候选词是否为上位词对。

分类模型可以使用softmax分类模型。利用预先标记有分类结果的训练词向量对，对分类模型进行训练。将所述候选词向量对输入至训练好的分类模型中，根据分类模型的输出结果来确定候选词对是否为上位词对。

具体实施时，可以由处理器1所述候选词向量对，确定所述候选词对是否为词汇挖掘结果，并通过显示屏5输出显示。

在本申请的另一个实施例中，公开了另一种词汇挖掘方法，以词汇为上位词对为例，如图3所示，该方法包括：

步骤S300、针对待挖掘语料所包含的每一句子，确定所述句子所包含的实体词集合，以及由所述句子所包含的名词及名词短语组成的候选上位词集合；

步骤S310、将所述实体词集合中的实体词和所述候选上位词集合中的候选上位词两两组合，实体词和候选上位词组合后的词对作为候选词对；

具体地，步骤S300-S310与上述步骤S200-S210一一对应，此处不再赘述。

步骤S320、确定所述句子所包含的各词的初始词向量，各词的初始词向量组成初始词向量矩阵；

具体地，本申请可以采用随机数确定所述句子所包含的各词的初始词向量。

除此之外，本申请还可以采用word2vec方法在全部待挖掘语料上进行训练，将全部待挖掘语料所包含的各词转换成向量形式。进一步，在待挖掘语料所包含各词的词向量中，查找所述句子中各词对应的词向量，作为各词的初始词向量。

其中，word2vec是一个将单词转换成向量形式的工具，由google开源。可以把对文本内容的处理简化为向量空间中的向量运算，计算出向量空间上的相似度，来表示文本语义上的相似度。

假设句子包含L个词，词向量为N维，则由句子所包含各词的初始词向量组成的初始词向量矩阵为L*N的矩阵。

举例如：

原始句子“abc”

对句子分词后“word1word2word3”，word1＝a、word2＝b、word3＝c

确定各分词的初始词向量word embedding，word1＝word embedding1、word2＝word embedding2、word3＝word embedding3。

构造3*N的矩阵如下表1(句子长度为3)：

初始词向量
	Word embedding1
Word embedding2
	Word embedding3

表1

步骤S330、利用循环神经网络模型对所述初始词向量矩阵进行调整，得到由各词的调整后词向量组成的调整后词向量矩阵；

其中，循环神经网络Recurrent Neural Network(RNN)的优点是，其能够在输入和输出序列之间的映射过程中利用上下文相关信息。针对初始词向量矩阵中每个词对应的初始词向量，在经过循环神经网络调整后，能够综合考虑每一词前后各词的关联关系，进而对词的初始词向量进行调整，使得输出的各词的调整后词向量更加准确。

具体地，调整后词向量的维度为H，H与循环神经网络中隐藏层的个数相同。因此，由各词的调整后词向量组成的调整后词向量矩阵为L*H的矩阵。

步骤S340、在所述调整后词向量矩阵中查找所述候选词对中实体词和候选上位词各自对应的调整后词向量，由各自对应的调整后词向量组成候选词向量对；

具体地，根据候选词对中实体词和候选上位词在句子中的位置，在调整后词向量矩阵中查找对应位置的调整后词向量，确定实体词对应的调整后词向量，以及候选上位词对应的调整后词向量。

假设上表1示例的初始词向量矩阵在经过循环神经网络模型调整后输出结果如下表2所示：

初始词向量	调整后词向量
		Word embedding1	Word embedding11
Word embedding2	Word embedding21
		Word embedding3	Word embedding31

表2

仍以句子为“abc”为例，假设候选词向量中实体词为b，候选上位词为c。则可以确定实体词b位于句子中第二个分词，候选上位词c位于句子中第三个分词，因此查询上表2可以确定实体词b对应的调整后词向量为Word embedding21，候选上位词c对应的调整后词向量为Word embedding31。

步骤S350、根据所述候选词向量对，确定所述候选词对是否为上位词对。

本实施例的方法中，详细介绍了确定候选词对中实体词和候选上位词各自的词向量的过程。在确定了各自的初始词向量之后，通过使用循环神经网络模型对初始词向量进行调整，使得调整后词向量更加考虑词的上下文相关信息，确定的实体词和候选上位词的词向量更加准确。

可选的，上述循环神经网络模型可以是双向循环神经网络模型，如长短期记忆人工神经网络模型Long Short-Term Memory(LSTM)。

标准的循环神经网络(RNN)能够存取的上下文信息范围很有限。这个问题就使得隐含层的输入对于网络输出的影响随着网络环路的不断递归而衰退，而双向长短期记忆人工神经网络模型LSTM恰好能够解决这个问题。

参照图4，图4示例了一种双向循环神经网络模型架构图。

其中，模型共包含输入层input layer、前向隐含层forward layer、后向隐含层backward layer和输出层output layer。

在前向隐含层forward layer中，词向量调整过程会考虑前文信息，而在后向隐含层backward layer中，词向量调整过程会考虑后文信息，最终输出结果会同时考虑前向隐含层forward layer及后向隐含层backward layer的调整结果，使得分词的词向量调整结果同时考虑分词的上下文信息，

参照图5，图5为本申请示例的一种上位词对挖掘流程示意图。

结合图5对方案整体流程进行介绍：

S1、针对句子进行分词后得到句子所包含的各词，并确定各词的初始词向量。

S2、将各词的初始词向量输入至双向长短期记忆人工神经网络模型lstm模型中，对各词的初始词向量进行调整，得到各词的调整后的词向量。

S3、根据从句子中确定的候选词对所包含的实体词和候选上位词，确定实体词调整后词向量以及候选上位词调整后词向量。

S4、将实体词调整后词向量以及候选上位词调整后词向量合并为一个词向量矩阵，并输入至分类器中，得到分类器的分类结果，分类结果表明候选词对是否为上位词对。

其中，分类器可以选用softmax分类器。

下面对本申请实施例提供的词汇挖掘装置进行描述，下文描述的词汇挖掘装置与上文描述的词汇挖掘方法可相互对应参照。

参见图6，图6为本申请实施例公开的一种词汇挖掘装置结构示意图。

如图6所示，该装置包括：

集合确定单元11，用于针对待挖掘语料所包含的每一句子，确定所述句子所包含的实体词集合，以及由所述句子所包含的名词及名词短语组成的候选上位词集合；

具体地，集合确定单元确定所述句子所包含的实体词集合的过程，具体可以采用命名实体识别方法，识别所述句子所包含的实体词，各实体词组成实体词集合。

候选词对确定单元12，用于将所述实体词集合中的实体词和所述候选上位词集合中的候选上位词两两组合，实体词和候选上位词组合后的词对作为候选词对；

词向量确定单元13，用于确定所述候选词对中实体词和候选上位词各自的词向量，由所述各自的词向量组成候选词向量对；

挖掘结果确定单元14，用于根据所述候选词向量对，确定所述候选词对是否为词汇挖掘结果。

本申请实施例提供的词汇挖掘装置，针对待挖掘语料所包含的每一句子，确定所述句子所包含的实体词集合，以及由所述句子所包含的名词及名词短语组成的候选上位词集合；将所述实体词集合中的实体词和所述候选上位词集合中的候选上位词两两组合，实体词和候选上位词组合后的词对作为候选词对；确定所述候选词对中实体词和候选上位词各自的词向量，由所述各自的词向量组成候选词向量对；根据所述候选词向量对，确定所述候选词对是否为词汇挖掘结果。本申请在语料句子中确定所包含的实体词集合和候选上位词集合，将两个集合中的词两两组合，得到候选词对，进一步确定候选词对中实体词和候选上位词各自的词向量，并根据词向量对来确定候选词对是否为词汇挖掘结果，示例如，确定候选词对是否为上位词对。本申请不需要人工整理语料，通过机器学习方式实现了上位词对的自动挖掘，其上位词对挖掘效率大大提升，降低了挖掘成本。

可选的，本申请实施例示例了上述词向量确定单元13的一种可选结构，参见图7可知，词向量确定单元13可以包括：

初始词向量确定单元131，用于确定所述句子所包含的各词的初始词向量，各词的初始词向量组成初始词向量矩阵；

初始词向量矩阵调整单元132，用于利用循环神经网络模型对所述初始词向量矩阵进行调整，得到由各词的调整后词向量组成的调整后词向量矩阵；

可选的，所述循环神经网络模型可以包括：双向长短期记忆人工神经网络模型。

调整后词向量查找单元133，用于在所述调整后词向量矩阵中查找所述候选词对中实体词和候选上位词各自对应的调整后词向量。

可选的，本申请实施例示例了上述上位词确定单元14的一种可选结构，所述词汇可以为上位词对，参见图8可知，挖掘结果确定单元14可以包括：

分类确定单元141，用于将所述候选词向量对输入至预训练的分类模型，得到所述分类模型输出的分类结果，所述分类结果表明所述候选词对是否为上位词对。

可选的，本申请实施例示例了上述初始词向量确定单元131的两种可选结构，分别如图9和图10所示：

第一种，初始词向量确定单元131可以包括：

第一初始词向量确定子单元1311，用于采用随机数确定所述句子所包含的各词的初始词向量。

第二种，初始词向量确定单元131可以包括：

第二初始词向量确定子单元1312，用于采用word2vec方法确定所述句子所包含的每一词对应的词向量，作为初始词向量。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种词汇挖掘方法，其特征在于，包括：

确定所述句子所包含的各词的初始词向量，各词的初始词向量组成初始词向量矩阵；

利用循环神经网络模型对所述初始词向量矩阵进行调整，得到由各词的调整后词向量组成的调整后词向量矩阵；

在所述调整后词向量矩阵中查找所述候选词对中实体词和候选上位词各自对应的调整后词向量，由所述各自对应的调整后词向量组成候选词向量对；

2.根据权利要求1所述的方法，其特征在于，所述词汇为上位词对，所述根据所述候选词向量对，确定所述候选词对是否为词汇挖掘结果，包括：

将所述候选词向量对输入至预训练的分类模型，得到所述分类模型输出的分类结果，所述分类结果表明所述候选词对是否为上位词对。

3.根据权利要求1所述的方法，其特征在于，所述确定所述句子所包含的各词的初始词向量，包括：

采用随机数确定所述句子所包含的各词的初始词向量；

或，

采用word2vec方法确定所述句子所包含的每一词对应的词向量，作为初始词向量。

4.根据权利要求1所述的方法，其特征在于，所述确定所述句子所包含的实体词集合，包括：

采用命名实体识别方法，识别所述句子所包含的实体词，各实体词组成实体词集合。

5.根据权利要求1所述的方法，其特征在于，所述循环神经网络模型包括：

双向长短期记忆人工神经网络模型。

6.一种词汇挖掘装置，其特征在于，包括：

挖掘结果确定单元，用于根据所述候选词向量对，确定所述候选词对是否为词汇挖掘结果；

所述词向量确定单元包括：

初始词向量确定单元，用于确定所述句子所包含的各词的初始词向量，各词的初始词向量组成初始词向量矩阵；

初始词向量矩阵调整单元，用于利用循环神经网络模型对所述初始词向量矩阵进行调整，得到由各词的调整后词向量组成的调整后词向量矩阵；

调整后词向量查找单元，用于在所述调整后词向量矩阵中查找所述候选词对中实体词和候选上位词各自对应的调整后词向量，作为所述各自的词向量。

7.根据权利要求6所述的装置，其特征在于，所述词汇为上位词对，所述挖掘结果确定单元包括：

分类确定单元，用于将所述候选词向量对输入至预训练的分类模型，得到所述分类模型输出的分类结果，所述分类结果表明所述候选词对是否为上位词对。

8.根据权利要求6所述的装置，其特征在于，所述初始词向量确定单元包括：

第一初始词向量确定子单元，用于采用随机数确定所述句子所包含的各词的初始词向量；

或，

第二初始词向量确定子单元，用于采用word2vec方法确定所述句子所包含的每一词对应的词向量，作为初始词向量。

9.根据权利要求6所述的装置，其特征在于，所述集合确定单元确定所述句子所包含的实体词集合的过程，具体包括：

10.根据权利要求6所述的装置，其特征在于，所述循环神经网络模型包括：

双向长短期记忆人工神经网络模型。