CN111310464A

CN111310464A - 词向量获取模型生成方法、装置及词向量获取方法、装置

Info

Publication number: CN111310464A
Application number: CN202010096669.0A
Authority: CN
Inventors: 于皓; 张�杰; 李犇; 罗华刚; 袁杰; 邓礼志
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2020-02-17
Filing date: 2020-02-17
Publication date: 2020-06-19
Anticipated expiration: 2040-02-17
Also published as: CN111310464B

Abstract

一种词向量获取模型生成方法、装置及词向量获取方法、装置，包括：获取样本语料文本；将样本语料文本作为输入训练预先构建的生成对抗网络模型，得到用于获取词向量的词向量获取模型；其中，生成对抗网络模型包括：利用周围词预测中心词的第一词向量预测模型和利用中心词预测周围词的第二词向量预测模型。由于生成对抗网络模型包括利用周围词预测中心词的第一词向量预测模型和利用中心词预测周围词的第二词向量预测模型，因此用样本语料文本训练生成对抗网络模型获得的词向量获取模型能够兼顾中心词对周围词的语义关联性表示和周围词对中心词的语义关联性表示，从而实现后续自然语言向量化时语义的双向关联性表示。

Description

词向量获取模型生成方法、装置及词向量获取方法、装置

技术领域

本文涉及信息处理技术，尤指一种词向量获取模型生成方法、装置及词向量获取方法、装置。

背景技术

在自然语言处理过程中，首先需要做的就是对文本进行自然语言向量化(embedding)，然后通过机器学习的方式对自然语言进行计算，以获得自然语言的内在语义关系，从而使计算机可以理解自然语言。

相关技术中，word2vec是一种常用的向量化方法，其具体包括两种方法：CBOW方法和skip-gram方法。其中，CBOW方法是用周围词预测中心词，利用中心词的预测结果情况不断地去调整周围词的向量，当训练完成之后，每个词都会作为中心词对周围词的词向量进行调整，从而获得文本所有词的词向量；skip-gram方法是用中心词来预测周围词，利用周围词的预测结果情况使用梯度下降优化算法不断的调整中心词的词向量，最终所有的文本遍历完毕之后，得到了文本所有词的词向量。

然而，word2vec的两种方法都只是从单方向上进行语义的关联性表示，Skip-gram是由中心词决定周围词的语义关联性语义表示，忽略了周围词对中心词的语义关联性表示，而CBOW则是由周围词决定中心词的语义关联性语义表示，忽略了中心词对周围词的语义关联性表示，因此这两种方法的都在一定程度上忽略了词语词之间的语义关联性。

发明内容

本申请提供了一种词向量获取模型生成方法、装置及词向量获取方法、装置，能够兼顾中心词对周围词的语义关联性表示和周围词对中心词的语义关联性表示，从而实现后续自然语言向量化时语义的双向关联性表示。

本申请提供了一种词向量获取模型生成方法，包括：

获取样本语料文本；

将所述样本语料文本作为输入训练预先构建的生成对抗网络模型，得到用于获取词向量的词向量获取模型；其中，所述生成对抗网络模型包括：利用周围词预测中心词的第一词向量预测模型和利用中心词预测周围词的第二词向量预测模型。

所述将样本语料文本作为输入训练预先构建的生成对抗网络模型，得到用于获取词向量的词向量获取模型，包括：

基于所述样本语料文本，并分别利用所述第一词向量预测模型和所述第二词向量预测模型进行词向量预测，得到第一词向量集合和第二词向量集合；

计算相同词在所述第一词向量集合和所述第二词向量集合中对应的词向量之间的相似度；

基于所述第一词向量集合、所述第二词向量集合和计算得到的相似度训练所述生成对抗网络模型，得到所述词向量获取模型。

所述基于第一词向量集合、第二词向量集合和计算得到的相似度训练生成对抗网络模型，得到词向量获取模型，包括：

基于所述第一词向量集合、所述第二词向量集合和计算得到的相似度，根据预先设定的损失函数，利用梯度下降算法对所述生成对抗网络模型进行迭代训练、调整所述生成对抗网络模型中的参数，直到所述损失函数的损失值收敛，得到所述词向量获取模型。

所述基于样本语料文本，并分别利用第一词向量预测模型和第二词向量预测模型进行词向量预测，得到第一词向量集合和第二词向量集合，包括：

利用所述第一词向量预测模型，并基于所述样本语料文本的周围词预测中心词的词向量，并将预测得到的中心词的词向量与所基于的周围词的词向量进行拼接，以得到第一词向量集合；

利用所述第二词向量预测模型，并基于所述样本语料文本的中心词预测周围词的词向量，并将预测得到的周围词的词向量与所基于的中心词的词向量进行拼接，以得到第二词向量集合。

组成所述中心词的字个数为第一预设个数；所述周围词包括：位于所述中心词前的第一部分周围词和位于所述中心词后的第二部分周围词，其中，组成所述第一部分周围词的字个数为第二预设个数，组成所述第二部分周围词的字个数为第三预设个数。

本申请还提供了一种词向量获取方法，包括：

获取待处理语料文本；

将所述待处理语料文本输入至如上述所述的词向量获取模型生成方法生成的词向量获取模型中，以得到所述待处理语料文本的词向量。

所述将待处理语料文本输入至如上述所述的词向量获取模型生成方法生成的词向量获取模型中，以得到待处理语料文本的词向量，包括：

获取所述待处理语料样本的周围词的词向量；

将获得的周围词的词向量输入至上述所述的词向量获取模型生成方法生成的词向量获取模型的第一词向量预测模型中，得到中心词的词向量；

基于获得的中心词的词向量得到所述待处理语料文本的词向量。

获取所述待处理语料样本的中心词的词向量；

将获得的中心词的词向量输入至如上述所述的词向量获取模型生成方法生成的词向量获取模型的第二词向量预测模型中，得到周围词的词向量；

基于获得的周围词的词向量得到所述待处理语料文本的词向量。

本申请还提供一种词向量获取模型生成装置，包括：

第一获取模块，用于获取样本语料文本；

第一处理模块，用于将所述样本语料文本作为输入训练预先构建的生成对抗网络模型，得到用于获取词向量的词向量获取模型；其中，所述生成对抗网络模型包括：利用周围词预测中心词的第一词向量预测模型和利用中心词预测周围词的第二词向量预测模型。

本申请还提供一种词向量获取装置，包括：

第二获取模块，用于获取待处理语料文本；

第二处理模块，用于将所述待处理语料文本输入至如上述所述的词向量获取模型生成装置生成的词向量获取模型中，以得到所述待处理语料文本的词向量。

与相关技术相比，本申请包括：获取样本语料文本；将样本语料文本作为输入训练预先构建的生成对抗网络模型，得到用于获取词向量的词向量获取模型；其中，生成对抗网络模型包括：利用周围词预测中心词的第一词向量预测模型和利用中心词预测周围词的第二词向量预测模型。由于生成对抗网络模型包括利用周围词预测中心词的第一词向量预测模型和利用中心词预测周围词的第二词向量预测模型，因此用样本语料文本训练生成对抗网络模型获得的词向量获取模型能够兼顾中心词对周围词的语义关联性表示和周围词对中心词的语义关联性表示，从而实现后续自然语言向量化时语义的双向关联性表示。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请技术方案的理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1为本申请实施例提供的一种词向量获取模型生成方法的流程示意图；

图2为本申请实施例提供的一种词向量获取方法的流程示意图；

图3为本申请实施例提供的一种词向量获取模型生成装置的结构示意图；

图4为本申请实施例提供的一种词向量获取装置的结构示意图。

具体实施方式

本申请描述了多个实施例，但是该描述是示例性的，而不是限制性的，并且对于本领域的普通技术人员来说显而易见的是，在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合，并在具体实施方式中进行了讨论，但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外，任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用，或可以替代任何其它实施例中的任何其他特征或元件。

本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合，以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合，以形成另一个由权利要求限定的独特的发明方案。因此，应当理解，在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此，除了根据所附权利要求及其等同替换所做的限制以外，实施例不受其它限制。此外，可以在所附权利要求的保护范围内进行各种修改和改变。

此外，在描述具有代表性的实施例时，说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而，在该方法或过程不依赖于本文所述步骤的特定顺序的程度上，该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的，其它的步骤顺序也是可能的。因此，说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外，针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤，本领域技术人员可以容易地理解，这些顺序可以变化，并且仍然保持在本申请实施例的精神和范围内。

本申请实施例提供一种词向量获取模型生成方法，如图1所示，包括：

步骤101、获取样本语料文本。

步骤102、将样本语料文本作为输入训练预先构建的生成对抗网络模型，得到用于获取词向量的词向量获取模型；其中，生成对抗网络模型包括：利用周围词预测中心词的第一词向量预测模型和利用中心词预测周围词的第二词向量预测模型。

在一种示例性实例中，生成对抗网络(Generative Adversarial Networks，GANs)是由神经网络演化而来，其包含了两个模型，一个是生成模型G，另一个是判别模型D，生成模型G不断学习训练集中真实数据的概率分布，目标是将输入的随机噪声转化为判别模型D无法判别是否为真实样本输入的数据，判别模型D判断一个输入是否为真实样本输入数据，目标是将生成模型G产生的“假”数据与训练集中的“真”数据识别出来。例如，可以将随机的输入数据输入到模型G中，输出为一张人脸图片，再将生成的人脸图谱和真实的人脸图片输入到模型D中进行生成人脸和真实人脸的辨别，迭代优化，最终的判别模型D将无法区分真实样本集合生成的假人脸样本集。

在一种示例性实例中，将样本语料文本作为输入训练预先构建的生成对抗网络模型，得到用于获取词向量的词向量获取模型，包括：

首先、基于样本语料文本，并分别利用第一词向量预测模型和第二词向量预测模型进行词向量预测，得到第一词向量集合和第二词向量集合。

其次、计算相同词在第一词向量集合和第二词向量集合中对应的词向量之间的相似度。

最后、基于第一词向量集合、第二词向量集合和计算得到的相似度训练生成对抗网络模型，得到词向量获取模型。

在一种示例性实例中，基于第一词向量集合、第二词向量集合和计算得到的相似度训练生成对抗网络模型，得到词向量获取模型，包括：

基于第一词向量集合、第二词向量集合和计算得到的相似度，根据预先设定的损失函数，利用梯度下降算法对生成对抗网络模型进行迭代训练、调整生成对抗网络模型中的参数，直到损失函数的损失值收敛，得到词向量获取模型。

在一种示例性实例中，基于样本语料文本，并分别利用第一词向量预测模型和第二词向量预测模型进行词向量预测，得到第一词向量集合和第二词向量集合，包括：

首先、利用第一词向量预测模型，并基于样本语料文本的周围词预测中心词的词向量，并将预测得到的中心词的词向量与所基于的周围词的词向量进行拼接，以得到第一词向量集合。

其次、利用第二词向量预测模型，并基于样本语料文本的中心词预测周围词的词向量，并将预测得到的周围词的词向量与所基于的中心词的词向量进行拼接，以得到第二词向量集合。

在一种示例性实例中，组成中心词的字个数为第一预设个数；周围词包括：位于中心词前的第一部分周围词和位于中心词后的第二部分周围词，其中，组成第一部分周围词的字个数为第二预设个数，组成第二部分周围词的字个数为第三预设个数。

在一种示例性实例中，计算相同词在第一词向量集合和第二词向量集合中对应的词向量之间的相似度实质是为了计算利用周围词预测中心词的第一词向量预测模型预测出的中心词和利用中心词预测周围词的第二词向量预测模型预测出的周围词的相似度是多少，但由于预测的中心词和周围词的个数不相同，从而会使得两者的向量长度不同，因此需要进行向量补齐，即将预测得到的中心词的词向量与所基于的周围词的词向量进行拼接，并将预测得到的周围词的词向量与所基于的中心词的词向量进行拼接。

在一种示例性实例中，拼接后的词向量是第一预设个数+第二预设个数+第三预设个数个字的向量。

本申请实施例提供的词向量获取模型生成方法，由于生成对抗网络模型包括利用周围词预测中心词的第一词向量预测模型和利用中心词预测周围词的第二词向量预测模型，因此用样本语料文本训练生成对抗网络模型获得的词向量获取模型能够兼顾中心词对周围词的语义关联性表示和周围词对中心词的语义关联性表示，从而实现后续自然语言向量化时语义的双向关联性表示。

本申请实施例还提供一种词向量获取方法，如图2所示，包括：

步骤201、获取待处理语料文本。

步骤202、将待处理语料文本输入至如上述任意一种实施例描述的词向量获取模型生成方法生成的词向量获取模型中，以得到待处理语料文本的词向量。

在一种示例性实例中，将待处理语料文本输入至如上述任意一种实施例描述的词向量获取模型生成方法生成的词向量获取模型中，以得到待处理语料文本的词向量，包括：

首先、获取待处理语料样本的周围词的词向量。

其次、将获得的周围词的词向量输入至如上述任意一种实施例描述的词向量获取模型生成方法生成的词向量获取模型的第一词向量预测模型中，得到中心词的词向量。

最后、基于获得的中心词的词向量得到待处理语料文本的词向量。

首先、获取待处理语料样本的中心词的词向量。

其次、将获得的中心词的词向量输入至如上述任意一种实施例描述的词向量获取模型生成方法生成的词向量获取模型的第二词向量预测模型中，得到周围词的词向量。

最后、基于获得的周围词的词向量得到待处理语料文本的词向量。

本申请实施例提供的词向量获取方法，由于生成对抗网络模型包括利用周围词预测中心词的第一词向量预测模型和利用中心词预测周围词的第二词向量预测模型，因此用样本语料文本训练生成对抗网络模型获得的词向量获取模型能够兼顾中心词对周围词的语义关联性表示和周围词对中心词的语义关联性表示，从而实现了自然语言向量化时语义的双向关联性表示。

本申请实施例还提供一种词向量获取模型生成装置，如图3所示，该词向量获取模型生成装置3包括：

第一获取模块31，用于获取样本语料文本。

第一处理模块32，用于将样本语料文本作为输入训练预先构建的生成对抗网络模型，得到用于获取词向量的词向量获取模型；其中，生成对抗网络模型包括：利用周围词预测中心词的第一词向量预测模型和利用中心词预测周围词的第二词向量预测模型。

在一种示例性实例中，第一处理模块32具体用于：

基于样本语料文本，并分别利用第一词向量预测模型和第二词向量预测模型进行词向量预测，得到第一词向量集合和第二词向量集合。

计算相同词在第一词向量集合和第二词向量集合中对应的词向量之间的相似度。

基于第一词向量集合、第二词向量集合和计算得到的相似度训练生成对抗网络模型，得到词向量获取模型。

在一种示例性实例中，第一处理模块32，具体还用于基于第一词向量集合、第二词向量集合和计算得到的相似度，根据预先设定的损失函数，利用梯度下降算法对生成对抗网络模型进行迭代训练、调整生成对抗网络模型中的参数，直到损失函数的损失值收敛，得到词向量获取模型。

在一种示例性实例中，第一处理模块32具体还用于：

利用第一词向量预测模型，并基于样本语料文本的周围词预测中心词的词向量，并将预测得到的中心词的词向量与所基于的周围词的词向量进行拼接，以得到第一词向量集合。

利用第二词向量预测模型，并基于样本语料文本的中心词预测周围词的词向量，并将预测得到的周围词的词向量与所基于的中心词的词向量进行拼接，以得到第二词向量集合。

本申请实施例提供的词向量获取模型生成装置，由于生成对抗网络模型包括利用周围词预测中心词的第一词向量预测模型和利用中心词预测周围词的第二词向量预测模型，因此用样本语料文本训练生成对抗网络模型获得的词向量获取模型能够兼顾中心词对周围词的语义关联性表示和周围词对中心词的语义关联性表示，从而实现后续自然语言向量化时语义的双向关联性表示。

在实际应用中，所述第一获取模块31和第一处理模块32均由位于词向量获取模型生成装置中的中央处理器(Central Processing Unit，CPU)、微处理器(Micro ProcessorUnit，MPU)、数字信号处理器(Digital Signal Processor，DSP)或现场可编程门阵列(Field Programmable Gate Array，FPGA)等实现。

本申请实施例还提供一种词向量获取装置，如图4所示，该词向量获取置4包括：

第二获取模块41，用于获取待处理语料文本。

第二处理模块42，用于将待处理语料文本输入至如上述任意一种实施例描述的词向量获取模型生成方法生成的词向量获取模型中，以得到待处理语料文本的词向量。

在一种示例性实例中，第二处理模块42具体用于：

获取待处理语料样本的周围词的词向量。

将获得的周围词的词向量输入至如上述任意一种实施例描述的词向量获取模型生成方法生成的词向量获取模型的第一词向量预测模型中，得到中心词的词向量。

基于获得的中心词的词向量得到待处理语料文本的词向量。

在一种示例性实例中，第二处理模块42具体用于：

获取待处理语料样本的中心词的词向量。

将获得的中心词的词向量输入至如上述任意一种实施例描述的词向量获取模型生成方法生成的词向量获取模型的第二词向量预测模型中，得到周围词的词向量。

基于获得的周围词的词向量得到待处理语料文本的词向量。

本申请实施例提供的词向量获取装置，由于生成对抗网络模型包括利用周围词预测中心词的第一词向量预测模型和利用中心词预测周围词的第二词向量预测模型，因此用样本语料文本训练生成对抗网络模型获得的词向量获取模型能够兼顾中心词对周围词的语义关联性表示和周围词对中心词的语义关联性表示，从而实现了自然语言向量化时语义的双向关联性表示。

在实际应用中，所述第二获取模块41和第二处理模块42均由位于词向量获取装置中的CPU、MPU、DSP或FPGA等实现。

本申请实施例还提供一种信息处理装置，包括：处理器和存储器，其中，存储器中存储有计算机程序，计算机程序被处理器执行时实现如上述任意一种的方法的处理。

本申请实施例还提供一种存储介质，存储介质上存储有计算机可执行命令，计算机可执行命令用于执行如上述任意一种的方法的处理。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

Claims

1.一种词向量获取模型生成方法，其特征在于，包括：

获取样本语料文本；

2.根据权利要求1所述的方法，其特征在于，所述将样本语料文本作为输入训练预先构建的生成对抗网络模型，得到用于获取词向量的词向量获取模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于第一词向量集合、第二词向量集合和计算得到的相似度训练生成对抗网络模型，得到词向量获取模型，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于样本语料文本，并分别利用第一词向量预测模型和第二词向量预测模型进行词向量预测，得到第一词向量集合和第二词向量集合，包括：

5.根据权利要求4所述的方法，其特征在于，组成所述中心词的字个数为第一预设个数；所述周围词包括：位于所述中心词前的第一部分周围词和位于所述中心词后的第二部分周围词，其中，组成所述第一部分周围词的字个数为第二预设个数，组成所述第二部分周围词的字个数为第三预设个数。

6.一种词向量获取方法，其特征在于，包括：

获取待处理语料文本；

将所述待处理语料文本输入至如权利要求1-5任一项所述的词向量获取模型生成方法生成的词向量获取模型中，以得到所述待处理语料文本的词向量。

7.根据权利要求6所述的方法，其特征在于，所述将待处理语料文本输入至如权利要求1-5任一项的词向量获取模型生成方法生成的词向量获取模型中，以得到待处理语料文本的词向量，包括：

获取所述待处理语料样本的周围词的词向量；

将获得的周围词的词向量输入至如权利要求1-5任一项所述的词向量获取模型生成方法生成的词向量获取模型的第一词向量预测模型中，得到中心词的词向量；

8.根据权利要求6所述的方法，其特征在于，所述将待处理语料文本输入至如权利要求1-5任一项的词向量获取模型生成方法生成的词向量获取模型中，以得到待处理语料文本的词向量，包括：

获取所述待处理语料样本的中心词的词向量；

将获得的中心词的词向量输入至如权利要求1-5任一项所述的词向量获取模型生成方法生成的词向量获取模型的第二词向量预测模型中，得到周围词的词向量；

9.一种词向量获取模型生成装置，其特征在于，包括：

第一获取模块，用于获取样本语料文本；

10.一种词向量获取装置，其特征在于，包括：

第二获取模块，用于获取待处理语料文本；

第二处理模块，用于将所述待处理语料文本输入至如权利要求9所述的词向量获取模型生成装置生成的词向量获取模型中，以得到所述待处理语料文本的词向量。