CN111291563A

CN111291563A - 词向量对齐方法和词向量对齐模型训练方法

Info

Publication number: CN111291563A
Application number: CN202010065486.2A
Authority: CN
Inventors: 刘龙坡
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2020-06-16
Anticipated expiration: 2040-01-20
Also published as: CN111291563B

Abstract

本申请涉及自然语言处理领域，提供一种词向量对齐方法和词向量对齐模型训练方法，其中词向量对齐方法包括：获取待处理词文本，将待处理词文本输入待对齐词向量模型，得到对应的待对齐词向量；获取待对齐词向量模型对应的已训练的词向量对齐模型；词向量对齐模型包括生成网络和判别网络；生成网络对原始词向量集合生成对抗样本，并通过对抗样本及对应的基准词向量集合与判别网络对抗训练得到词向量对齐模型；原始词向量集合为待对齐词向量模型对训练关键词集合生成的；基准词向量集合为基准词向量模型对训练关键词集合生成的；将待对齐词向量输入生成网络中，得到待对齐词向量对应的对齐词向量。采用本申请的方法可以实现词向量空间的对齐。

Description

词向量对齐方法和词向量对齐模型训练方法

技术领域

本申请涉及计算机技术领域，特别是涉及一种词向量对齐方法和词向量对齐模型训练方法。

背景技术

随着计算机应用领域的不断扩大，自然语言处理受到了人们的高度重视。机器翻译、语音识别以及信息检索等应用需求对计算机的自然语言处理能力提出了越来越高的要求。计算机设备在对自然语言处理过程中，经常需要将词文本映射至词向量空间，得到对应的词向量。

传统技术中，通常是通过word2vec模型将词文本映射到词向量空间，但是，word2vec模型在进行训练时，通常是基于语料上词语的位置关系来进行训练的，导致不同语料源训练出来的词向量空间并不一致。

发明内容

基于此，有必要针对传统技术中不同语料源训练出来的词向量空间并不一致的技术问题，提供一种词向量对齐方法和词向量对齐模型训练方法。

一种词向量对齐方法，包括：

获取待处理词文本，将所述待处理词文本输入待对齐词向量模型，得到对应的待对齐词向量；

获取所述待对齐词向量模型对应的已训练的词向量对齐模型；所述词向量对齐模型包括生成网络和判别网络；所述生成网络对原始词向量集合生成对抗样本，并通过所述对抗样本及对应的基准词向量集合与所述判别网络对抗训练得到所述词向量对齐模型；所述原始词向量集合为所述待对齐词向量模型对训练关键词集合生成的；所述基准词向量集合为基准词向量模型对所述训练关键词集合中至少一个训练关键词生成的；

将所述待对齐词向量输入所述生成网络中，得到所述待对齐词向量对应的对齐词向量。

一种词向量对齐装置，所述装置包括：

待对齐词向量获取模块，用于获取待处理词文本，将所述待处理词文本输入待对齐词向量模型，得到对应的待对齐词向量；

词向量对齐模型获取模块，用于获取所述待对齐词向量模型对应的已训练的词向量对齐模型；所述词向量对齐模型包括生成网络和判别网络；所述生成网络对原始词向量集合生成对抗样本，并通过所述对抗样本及对应的基准词向量集合与所述判别网络对抗训练得到所述词向量对齐模型；所述原始词向量集合为所述待对齐词向量模型对训练关键词集合生成的；所述基准词向量集合为基准词向量模型对所述训练关键词集合中至少一个训练关键词生成的；

对齐词向量获取模块，用于将所述待对齐词向量输入所述生成网络中，得到所述待对齐词向量对应的对齐词向量。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述词向量对齐方法所述的步骤。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述词向量对齐方法所述的步骤

上述词向量对齐方法、装置、计算机可读存储介质和计算机设备，通过获取待处理词文本，将所述待处理词文本输入待对齐词向量模型，得到对应的待对齐词向量，获取所述待对齐词向量模型对应的已训练的词向量对齐模型，将所述待对齐词向量输入词向量对齐模型的生成网络中，由于该词向量对齐模型是通过生成网络对原始词向量集合生成对抗样本，并通过所述对抗样本及对应的基准词向量集合与所述判别网络对抗训练得到，生成网络因此具备将该待对齐词向量模型对应的词向量向基准词向量模型对应的词向量空间映射的能力，计算机设备通过将该待对齐词向量模型对应的待对齐词向量输入到生成网络中，可以得到对齐词向量，从而实现了词向量空间的对齐，解决了传统技术中不同语料源训练出来的词向量空间并不一致的问题。

一种词向量对齐模型训练方法，包括：

获取训练关键词集合；

获取待对齐词向量模型及基准词向量模型；

将所述训练关键词集合输入所述待对齐词向量模型，得到对应的原始词向量集合；

将所述训练关键词集合中至少一个训练关键词输入所述基准词向量模型，得到对应的基准词向量集合；

通过所述原始词向量集合使得生成网络生成对抗样本，并通过所述对抗样本及所述基准词向量集合使得所述生成网络与判别网络进行对抗训练，得到训练好的词向量对齐模型。

一种词向量对齐模型训练装置，所述装置包括：

训练关键词获取模块，用于获取训练关键词集合；

模型获取模块，用于获取待对齐词向量模型及基准词向量模型；

第一输入模块，用于将所述训练关键词集合输入所述待对齐词向量模型，得到对应的原始词向量集合；

第二输入模块，用于将所述训练关键词集合中至少一个训练关键词输入所述基准词向量模型，得到对应的基准词向量集合；

训练模块，用于通过所述原始词向量集合使得生成网络生成对抗样本，并通过所述对抗样本及所述基准词向量集合使得所述生成网络与判别网络进行对抗训练，得到训练好的词向量对齐模型。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述词向量对齐模型训练方法所述的步骤。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述词向量对齐模型训练方法所述的步骤

上述词向量对齐模型训练方法、装置、计算机可读存储介质和计算机设备，由于训练得到的词向量对齐模型是通过生成网络对原始词向量集合生成对抗样本，并通过所述对抗样本及对应的基准词向量集合与所述判别网络对抗训练得到，生成网络因此具备将该待对齐词向量模型对应的词向量向基准词向量模型对应的词向量空间映射的能力，计算机设备通过将该待对齐词向量模型对应的待对齐词向量输入到生成网络中，可以得到对齐词向量，从而实现了词向量空间的对齐，解决了传统技术中不同语料源训练出来的词向量空间并不一致的问题。

附图说明

图1为一个实施例中词向量对齐方法的应用环境图；

图2为一个实施例中词向量对齐方法的流程示意图；

图3为一个实施例中词向量对齐模型的训练步骤的流程示意图；

图4为一个实施例中图3中步骤S302的流程示意图；

图4A为一个实施例中词向量对齐模型的网络结构示意图；

图5为一个实施例中图2之外的流程示意图；

图6为一个实施例中词向量对齐装置的结构框图；

图7为一个实施例中词向量对齐模型训练方法的流程示意图；

图8为一个实施例中词向量对齐模型训练装置的结构框图；

图9为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中词向量对齐方法的应用环境图。参照图1，该词向量对齐方法应用于词向量对齐方法系统。该词向量对齐方法系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端110和服务器120均可单独用于执行本申请实施例中提供的词向量对齐方法。终端110和服务器120也可协同用于执行本申请实施例中提供的词向量对齐方法。

可以理解的是，本申请实施例提供的词向量对齐方法涉及自然语言处理、机器学习等技术。其中，自然语言处理技术(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。以下将结合具体的实施例进行说明。

如图2所示，在一个实施例中，提供了一种词向量对齐方法。本实施例主要以该方法应用于计算机设备来举例说明。该计算机设备可以是上述图1中的终端110或服务器120。参照图2，该词向量对齐方法具体包括如下步骤：

S202，获取待处理词文本，将待处理词文本输入待对齐词向量模型，得到对应的待对齐词向量。

本实施例中，计算机设备分别对于每一个语料源的语料，训练对应于该语料源的原始词向量模型，得到多个原始词向量模型。原始词向量模型指的是用于将词文本映射至词向量空间的机器学习模型。其中，机器学习模型是通过样本学习具备某种能力的数学模型。机器学习英文全称为Machine Learning，简称ML。机器学习模型可采用神经网络模型、支持向量机、逻辑回归模型、随机森林模型或者梯度提升树模型等。机器学习的学习方式可以是监督学习、非监督学习或者强化学习等。在一个实施例中，原始词向量模型具体可以是word2vector模型。

其中，语料源的确定可根据实际需要进行确定。例如，当需要在维基百科及百度百科中以词向量相似度排序召回相似词时，可以分别对收集维基百科及百度百科的中文语料，对收集到的语料进行分词，根据维基百科对应的词文本进行训练得到维基百科对应的原始词向量模型，根据百度百科对应的词文本进行训练得到百度百科对应的原始词向量模型。

可以理解的是，本申请的词向量对齐指的是将多个不同词向量空间的词向量映射到同一个词向量空间，那么可以将其中一个词向量空间作为基准词向量空间，而将该基准词向量空间之外的其他词向量空间中的词向量映射至该基准词向量空间。基于此，在本申请提供的实施例中，计算机设备可以将训练得到的多个原始词向量模型中的其中一个确定为基准词向量模型，将该基准词向量模型之外的其他原始词向量模型确定为待对齐词向量模型。其中，基准词向量模型对应的词向量空间为基准词向量空间，基准词向量模型对应的语料源可以看成是基准语料源，而其他待对齐词向量模型对应的语料源可以看成是非基准语料源。可以理解的是，这里的基准词向量模型原则上可以是多个原始词向量模型的任意一个词向量模型，计算机设备可以随机选择其中一个作为基准词向量模型。

本实施例中，计算机设备在获取到待处理词文本后，可以将该输入至该待对齐词向量模型中，输出对应的词向量，此时得到的词向量为待对齐词向量模型所在向量空间的词向量，因此为待对齐词向量。

S204，获取待对齐词向量模型对应的已训练的词向量对齐模型。

其中，待对齐词向量模型对应的词向量对齐模型指的是用于将待对齐词向量模型对应的词向量空间中的词向量向基准词向量模型对应的词向量空间进行映射的机器学习模型。可以理解的是，当存在多个待对齐词向量模型时，每一个待对齐词向量模型分别对应一个词向量对齐模型，各个待对齐词向量模型所对应的词向量对齐模型都是不相同的。

词向量对齐模型包括生成网络和判别网络。生成网络对原始词向量集合生成对抗样本，并通过对抗样本及对应的基准词向量集合与判别网络对抗训练得到词向量对齐模型。这里的原始词向量集合为待对齐词向量模型对训练关键词集合生成的，而基准词向量集合为基准词向量模型对训练关键词集合中至少一个训练关键词生成的。其中，训练关键词集合指的是由至少一个训练关键词组成的集合，这里的训练关键词指的是用于训练词向量对齐模型的词文本。

具体地，在对词向量对齐模型进行训练时，计算机设备可以获取训练关键词集合，将该训练关键词集合依次输入该待对齐词向量模型中，得到对应的原始词向量集合，将该训练关键词集合中至少一个训练关键词输入基准词向量模型中，得到对应的基准词向量集合，将原始词向量集合输入生成网络生成对抗样本，并通过生成的对抗样本及基准词向量集合使得生成网络和判别网络进行对抗训练，以得到训练好的词向量对齐模型。对抗训练的过程，就是生成网络和对抗网络不断博弈的过程，生成网络不断训练自己生成对抗样本的能力，而判断网络则不断地训练自己对对抗样本和基准词向量进行判断识别的能力，最终当判别网络无法判断出输入的是对抗样本还是基准词向量时，得到训练好的词向量对齐模型。由于判别网络无法判断出输入的是对抗样本还是基准词向量，也就是说生成网络生成的词向量已经基本与基准词向量模型生成的词向量无异了，那么生成网络也就具备了将待对齐词向量模型对应的词向量空间的词向量映射至基准词向量模型对应的词向量空间的能力。

在一个具体的实施例中，生成网络可以为三层全连接层的MLP网络(MultilayerPerceptron，多层感知机)，神经元个数分别为128,256,100，激活函数为relu。

在一个具体的实施例中，判别网络为两层全连接层的MLP网络，神经元个数分别为128,256。

S206，将待对齐词向量输入生成网络中，得到待对齐词向量对应的对齐词向量。

具体地，计算机设备在获取到待对齐词向量模型对应的已训练的词向量对齐模型后，可以将待对齐词向量输入该模型的生成网络中，由于生成网络具备将待对齐词向量模型对应的词向量空间的词向量映射至基准词向量模型对应的词向量空间对的能力，那么通过生成网络就可以生成对齐词向量，该对齐词向量与基准词向量模型在同一个词向量空间。

可以理解的是，上述步骤S202-S206只是将待处理词文本在一个语料源对应的向量空间的词向量映射至基准词向量空间，当有多个语料源时，对于待处理词文本在每一个非基准语料源对应的词向量空间的词向量，均可以通过步骤S202-S206映射至基准词向量空间，而对于将待处理词文本在基准语料源的词向量则是不需要映射的，因为基准语料源所对应的词向量空间为基准词向量空间，如前面所述，在进行词向量对齐时，其他非基准语料源对应的词向量空间的词向量都是向基准语料源所对应的词向量空间映射的。

上述词向量对齐方法，通过获取待处理词文本，将待处理词文本输入待对齐词向量模型，得到对应的待对齐词向量，获取待对齐词向量模型对应的已训练的词向量对齐模型，将待对齐词向量输入词向量对齐模型的生成网络中，由于该词向量对齐模型是通过生成网络对原始词向量集合生成对抗样本，并通过对抗样本及对应的基准词向量集合与判别网络对抗训练得到，生成网络因此具备将该待对齐词向量模型对应的词向量向基准词向量模型对应的词向量空间映射的能力，计算机设备通过将该待对齐词向量模型对应的待对齐词向量输入到生成网络中，可以得到对齐词向量，从而实现了词向量空间的对齐，解决了传统技术中不同语料源训练出来的词向量空间并不一致的问题。

在一个实施例中，如图3所示，词向量对齐模型的训练步骤包括：

S302，将原始词向量集合输入生成网络中，得到对应的对抗词向量集合，根据对抗词向量集合和原始词向量集合确定第一损失值。

原始词向量集合中包括一个或者多个原始词向量。本实施例中，计算机设备将原始词向量集合中每一个原始词向量分别输入到生成网络中，分别得到每一个原始词向量对应的对抗词向量，形成对抗词向量集合。计算机设备进一步根据对抗词向量集合和原始词向量集合之间的差异确定第一损失值。第一损失值用于调整生成网络的网络参数。

S304，将任意一个基准词向量和基准词向量对应的目标对抗词向量输入判别网络中，得到目标对抗词向量对应的对抗预测值和基准词向量对应的基准预测值。

S306，根据对抗预测值或基准预测值确定第二损失值。

S308，根据第一损失值和第二损失值训练词向量对齐模型。

其中，基准词向量对应的目标对抗词向量指的是与基准词向量对应的训练关键词相对应的对抗词向量。

可以理解的是，原始词向量集合和基准词向量集合是基于同一个训练关键词集合得到，只不过原始词向量集合是将训练关键词集合输入至待对齐词向量模型中得到的，而基准词向量集合是将训练关键词集合中至少一个训练关键词输入至基准词向量集合得到的，也就是说对于基准词向量集合中每一个基准词向量，在原始词向量集合中必然存在与之对应的原始词向量，这里的对应关系是由为基准词向量与原始词向量对应于同一个训练关键词确定的，那么，在由原始词向量集合得到的对抗词向量集合必然会存在该基准词向量对应的目标对抗词向量。

本实施例中，将任意一个基准词向量和基准词向量对应的目标对抗词向量输入判别网络中，可以得到目标对抗词向量对应的对抗预测值和基准词向量对应的基准预测值，而判别网络的目标是识别基准词向量与对抗词向量(非基准词向量)，那么在训练过程中，基准词向量的真实标签为1，而对抗词向量的真实标签为0，计算机设备可以根据对抗预测值与对应的真实标签0之间的差异或者基准预测值与真实标签为1之间的差异来确定第二损失值，第二损失值用于调整判断网络的网络参数。

最终，计算机设备可以将第一损失值和第二损失值进行加权求和，得到目标损失值，通过最小化该目标损失值的方向来调整生成网络和判断网络的参数，从而实现对词向量对齐模型的训练。

在一个实施例中，将原始词向量集合输入生成网络中，得到对应的对抗词向量集合，根据对抗词向量集合和原始词向量集合确定第一损失值，包括：将第一原始词向量和第二原始词向量输入生成网络中，得到对应的第一对抗词向量和第二对抗词向量；获取第一对抗词向量和第二对抗词向量之间的第一相似度；获取第一原始词向量和第二原始词向量之间的第二相似度；根据第一相似度和第二相似度确定第一损失值。

本实施例中，原始词向量集合包括第一原始词向量和第二原始词向量，该原始词向量集合可以由计算机设备将包括两个训练关键词的训练关键词集合输入至待对齐词向量模型中得到。

计算机设备在得到第一原始词向量和第二原始词向量后，可以分别将第一原始词向量和第二原始词向量输入生成网络中，得到第一原始词向量对应的第一对抗词向量以及第二原始词向量对应的第二对抗词向量，计算机进一步计算第一对抗词向量和第二对抗词向量之间的第一相似度，将该第一相似度作为预测标签，同时计算第一原始词向量和第二原始词向量之间的第二相似度，将该第二相似度作为真实标签，那么第一损失值可以由预测标签和真实标签之间的差值得到，也就是将第一相似度和第二相似度之间的差值确定为第一损失值。

在一个具体的实施例中，第一相似度可以为第一对抗词向量和第二对抗词向量之间的余弦相似度；第二相似度可以为第一原始词向量和第二原始词向量之间的余弦相似度。

本实施例中，通过两个原始词向量得到两个对抗词向量，然后计算两个原始词向量之间的相似度作为真实标签，计算两个对抗词向量之间的相似度作为预测标签，根据真实标签和预测标签之间的差值来确定第一损失值，那么在基于第一损失值训练得到词向量对齐模型后，根据词向量对齐模型得到的对齐词向量可以仍然保持原始词向量模型中词与词之间的排序关系。

在一个实施例中，原始词向量集合包括第一原始词向量、第二原始词向量及第三原始词向量；如图4所示，上述步骤S302将原始词向量集合输入生成网络中，得到对应的对抗词向量集合，根据对抗词向量集合和原始词向量集合确定第一损失值，包括：

S402，将第一原始词向量及第二原始词向量输入生成网络中，得到对应的第一对抗词向量集合，获取第一对抗词向量集合对应的第一对抗相似度。

本实施例中，原始词向量集合包括第一原始词向量、第二原始词向量和第三原始词向量，该原始词向量集合可以由计算机设备将包括三个训练关键词的训练关键词集合输入至待对齐词向量模型中得到。

具体地，计算机设备可以将第一原始词向量及第二原始词向量输入生成网络中，得到第一原始词向量对应的对抗词向量以及第二原始词向量对应的对抗词向量，计算得到的两个对抗词向量之间的相似度得到第一对抗相似度。

S404，将第一原始词向量及第三原始词向量输入生成网络中，得到对应的第二对抗词向量集合，获取第二对抗词向量集合对应的第二对抗相似度。

计算机设备可以将第一原始词向量及第三原始词向量输入生成网络中，得到第一原始词向量对应的对抗词向量以及第三原始词向量对应的对抗词向量，计算得到的两个对抗词向量之间的相似度得到第二对抗相似度。

S406，获取第一对抗相似度和第二对抗相似度之间的第一差值。

S408，获取第一原始相似度和第二原始相似度之间的第二差值；第一原始相似度为第一原始词向量和第二原始词向量之间的相似度；第二原始相似度为第一原始词向量和第三原始词向量之间的相似度。

具体地，计算机设备可以计算第一原始词向量和第二原始词向量之间的相似度，得到第一原始相似度，并计算第一原始词向量和第三原始词向量之间的相似度，得到第二原始相似度，计算这两个原始相似度的差值得到第二差值。

S410，根据第一差值和第二差值确定第一损失值。

具体地，计算机设备可以计算第一差值和第二差值之间的差值，将计算得到的差值确定为第一损失值。

在一个具体的实施例中，第一对抗相似度、第二对抗相似度、第一原始相似度、第二原始相似度均为余弦相似度。

如图4A所示，为一个实施例中，词向量对齐模型的网络结构示意图。为使得本实施例的方案更清晰，下面结合图4A进行对本实施例进行举例说明。参考图4A，其中，modelB为待对齐词向量模型，modelA为基准词向量模型，训练关键词集合中包括三个训练关键词w₁，w₂，w₃，将这三个关键词输入modelB中得到原始词向量Eb1，Eb2，Eb3，这三个原始词向量形成原始词向量集合，将训练关键词w₁输入modelA中得到基准词向量Ea1。将词向量对(Eb1，Eb2)，(Eb1，Eb3)输入到生成网络中，该生成网络为三层全连接层的MLP网络，输出得到对应的对抗词向量Eb1'，Eb2'，Eb3'，再计算Eb1'和Eb2'的余弦相似度以及Eb1'和Eb3'的余弦相似度，再进行作差，得到s'，作为预测标签，同时计算Eb1和Eb2的余弦相似度以及Eb1和Eb3的余弦相似度，再进行作差，得到s，作为样本标签，通过计算s'和s的差值得到mae loss。同时，将Ea1和Eb1'输入到判别网络中，样本标签分别为1和0，判别网络为两层全连接层的多层感知机MLP网络，通过MLP网络对Ea1或Eb1'的标签进行预测，再与样本标签进行误差计算，得到的作为model loss，mae loss和model loss通过λ加权融合作为最终的totalloss，通过优化最终的total loss来对词向量对齐模型进行训练。

本实施例中，通过获取三个原始词向量，将其中一个原始词向量分别与其他两个原始词向量组成原始词向量对，分别计算两个原始词向量对之间的相似度，将得到的两个相似度作差得到第一差值作为真实标签，进一步分别获取两个原始词向量对对应的对抗词向量对，分别计算两个对抗词向量对之间的相似度，将得到的两个相似度作差得到第二差值作为预测标签，由于真实标签和预测标签都是通过词向量之间的相似度作差得到的，那么真实标签和预测标签的值相对而言都会比较小，特别是当三个原始词向量之间的相似度非常高时，真实标签和预测标签的值几乎接近于0，从而可以使得词向量对齐模型的训练过程更加容易。

在一个实施例中，如图5所示，该词向量对齐方法还包括以下步骤：

S502，获取目标关键词对应于各个语料源的目标对齐词向量。

其中，目标关键词指的是给定的需要从多个语料源召回相似词的词文本。例如需要从多个语料源召回“奶粉”的相似词，则“奶粉”为目标关键词。

具体地，计算机设备可以将目标关键词作为待处理词文本，通过步骤S202-S206得到对应的对齐词向量，该对齐词向量为目标关键词对应于非基准语料源的目标对齐词向量，进一步将该目标关键词输入基准词向量模型，得到该目标关键词对应于基准语料源的目标对齐词向量。

S504，获取各个目标对齐词向量与各自对应的非目标对齐词向量之间的相似度，得到各个目标对齐词向量对应的相似度集合。

其中，非目标对齐词向量为同一个语料源对应的所有的对齐词向量中，目标关键词对应的目标对齐词向量之外的对齐词向量。

具体地，对于每一个目标对齐词向量，计算机设备可以计算该目标对齐词向量与对应的其他非目标对齐词向量之间的相似度，从而可以得到该目标对齐词向量对应的相似度集合，该目标相似度集合也就是目标关键词与该语料源中各个词文本在对齐后的词向量空间的相似度。可以理解的是，每一个语料源对应一个相似度集合。

S506，融合各个相似度集合，得到目标关键词对应于各个词文本的目标相似度。

具体地，由于各个相似度集合是基于同一个词向量空间计算得到的，那么可以对各个相似度集合进行融合，得到目标关键词对应于各个词文本的目标相似度。在进行融合时，可以将目标关键词与同一个词文本对应的多个相似度相加后取平均得到目标关键词与该词文本之间的目标相似度。

举例说明，目标关键词与词文本A在语料源1对应的相似度集合中的相似度为0.6，目标关键词与词文本A在语料源2对应的相似度集合中的相似度为0.8，则目标关键词与词文本A的目标相似度为0.7。

S508，根据各个词文本的目标相似度，确定目标关键词对应的目标相似词。

具体，计算机设备根据各个词文本的目标相似度，确定目标关键词对应的目标相似词。

在一个实施例中，计算机设备可以根据目标相似度对各个词文本进行排序，根据排序结果选取预设数量的词文本作为目标关键词对应的目标相似词。例如，计算机设备可以根据相似度对各个词文本进行降序排列，从排在第一位的词文本开始依次选取预设数量的词文本确定为目标关键词对应的目标相似词。

在另一个实施例中，计算机设备可以选取相似度大于预设阈值的词文本确定为目标关键词对应的目标相似词。

上述实施例中，由于目标关键词对应于各个语料源的目标对齐词向量为对齐了词向量空间的词向量，那么可以在同一个词向量空间计算目标关键词与其他词文本的相似度，得到的目标关键词与其他词文本的多个相似度也是在同一个词向量空间，那么可以对这些相似度进行融合，得到目标关键词与其他词文本的目标相似度，最终根据目标相似度得到目标关键词的目标相似词，由于对齐了词向量空间，得到的目标相似度考虑到了各个语料源中词与词之间的位置关键，因此更加准确，由此得到的目标相似词也更加准确。

在一个实施例中，目标关键词为待推送信息对应的关键词；该词向量对齐方法还包括：将目标相似词与用户集合中各个用户对应的用户标签进行匹配；将匹配成功的用户标签对应的用户确定为目标用户；将待推荐信息推荐至目标用户对应的终端。

其中，待推荐信息是待向用户推荐的信息。待推荐信息可以是推广信息、应用程序、视频、音频、新闻、广告、文章或者商品等等。

本实施例中，预先收集各个用户对应的用户标签，用户标签可以反映用户的兴趣特征。目标关键词为待推荐信息对应的关键词，可以反映待推荐信息对应的内容特征，目标相似词与目标关键词为语义上相似的词文本，可以在一定程度上反映待推荐信息对应的内容特征，那么当一个用户的用户标签与目标相似词匹配时，可以认为该待推荐信息符合该用户的兴趣爱好，可以将该待推荐信息推荐给该用户。

本实施例中，通过目标相似词与用户标签的匹配性来推荐待推荐信息，可以充分的挖掘待推荐信息的潜在用户，从而可以将待推荐信息推荐至更多的用户。

应该理解的是，虽然图2-图5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-图5中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供了一种词向量对齐装置600，该装置包括：

待对齐词向量获取模块602，用于获取待处理词文本，将待处理词文本输入待对齐词向量模型，得到对应的待对齐词向量；

词向量对齐模型获取模块604，用于获取待对齐词向量模型对应的已训练的词向量对齐模型；词向量对齐模型包括生成网络和判别网络；生成网络对原始词向量集合生成对抗样本，并通过对抗样本及对应的基准词向量集合与判别网络对抗训练得到词向量对齐模型；原始词向量集合为待对齐词向量模型对训练关键词集合生成的；基准词向量集合为基准词向量模型对训练关键词集合中至少一个训练关键词生成的；

对齐词向量获取模块606，用于将待对齐词向量输入生成网络中，得到待对齐词向量对应的对齐词向量。

上述词向量对齐装置，通过获取待处理词文本，将待处理词文本输入待对齐词向量模型，得到对应的待对齐词向量，获取待对齐词向量模型对应的已训练的词向量对齐模型，将待对齐词向量输入词向量对齐模型的生成网络中，由于该词向量对齐模型是通过生成网络对原始词向量集合生成对抗样本，并通过对抗样本及对应的基准词向量集合与判别网络对抗训练得到，生成网络因此具备将该待对齐词向量模型对应的词向量向基准词向量模型对应的词向量空间映射的能力，计算机设备通过将该待对齐词向量模型对应的待对齐词向量输入到生成网络中，可以得到对齐词向量，从而实现了词向量空间的对齐，解决了传统技术中不同语料源训练出来的词向量空间并不一致的问题。

在一个实施例中，该词向量对齐装置还包括：训练模块，用于将原始词向量集合输入生成网络中，得到对应的对抗词向量集合，根据对抗词向量集合和原始词向量集合确定第一损失值；将任意一个基准词向量和基准词向量对应的目标对抗词向量输入判别网络中，得到目标对抗词向量对应的对抗预测值和基准词向量对应的基准预测值；根据对抗预测值或基准预测值确定第二损失值；根据第一损失值和第二损失值训练词向量对齐模型。

在一个实施例中，原始词向量集合包括第一原始词向量和第二原始词向量；训练模块还用于将第一原始词向量和第二原始词向量输入生成网络中，得到对应的第一对抗词向量和第二对抗词向量；获取第一对抗词向量和第二对抗词向量之间的第一相似度；获取第一原始词向量和第二原始词向量之间的第二相似度；根据第一相似度和第二相似度确定第一损失值。

在一个实施例中，原始词向量集合包括第一原始词向量、第二原始词向量及第三原始词向量；训练模块还用于将第一原始词向量及第二原始词向量输入生成网络中，得到对应的第一对抗词向量集合，获取第一对抗词向量集合对应的第一对抗相似度；将第一原始词向量及第三原始词向量输入生成网络中，得到对应的第二对抗词向量集合，获取第二对抗词向量集合对应的第二对抗相似度；获取第一对抗相似度和第二对抗相似度之间的第一差值；获取第一原始相似度和第二原始相似度之间的第二差值；第一原始相似度为第一原始词向量和第二原始词向量之间的相似度；第二原始相似度为第一原始词向量和第三原始词向量之间的相似度；根据第一差值和第二差值确定第一损失值。

在一个实施例中，该词向量对齐装置还包括：目标相似词获取模块，用于获取目标关键词对应于各个语料源的目标对齐词向量；获取各个目标对齐词向量与各自对应的非目标对齐词向量之间的相似度，得到各个目标对齐词向量对应的相似度集合；融合各个相似度集合，得到目标关键词对应于各个词文本的目标相似度；根据各个词文本的目标相似度，确定目标关键词对应的目标相似词。

在一个实施例中，目标关键词为待推荐信息对应的关键词；该词向量对齐装置还包括：推荐模块，用于将目标相似词与用户集合中各个用户对应的用户标签进行匹配；将匹配成功的用户标签对应的用户确定为目标用户；将待推荐信息推荐至目标用户对应的终端。

在一个实施例中，如图7所示，提供了一种词向量对齐模型训练方法，包括：

S702，获取训练关键词集合。

S704，获取待对齐词向量模型及基准词向量模型。

S706，将训练关键词集合输入待对齐词向量模型，得到对应的原始词向量集合。

S708，将训练关键词集合中至少一个训练关键词输入基准词向量模型，得到对应的基准词向量集合。

S710，通过原始词向量集合使得生成网络生成对抗样本，并通过对抗样本及基准词向量集合使得生成网络与判别网络进行对抗训练，得到训练好的词向量对齐模型。

可以理解的是，本实施例中各步骤的相关解释可以参考前述实施例中的描述，本申请在此不赘述。

上述词向量对齐模型训练方法，由于训练得到的词向量对齐模型是通过生成网络对原始词向量集合生成对抗样本，并通过对抗样本及对应的基准词向量集合与判别网络对抗训练得到，生成网络因此具备将该待对齐词向量模型对应的词向量向基准词向量模型对应的词向量空间映射的能力，计算机设备通过将该待对齐词向量模型对应的待对齐词向量输入到生成网络中，可以得到对齐词向量，从而实现了词向量空间的对齐，解决了传统技术中不同语料源训练出来的词向量空间并不一致的问题。

在一个实施例中，通过原始词向量集合使得生成网络生成对抗样本，并通过对抗样本及基准词向量集合使得生成网络与判别网络进行对抗训练，得到训练好的词向量对齐模型，包括：将原始词向量集合输入生成网络中，得到对应的对抗词向量集合，根据对抗词向量集合和原始词向量集合确定第一损失值；将任意一个基准词向量和基准词向量对应的目标对抗词向量输入判别网络中，得到目标对抗词向量对应的对抗预测值和基准词向量对应的基准预测值；根据对抗预测值或基准预测值确定第二损失值；根据第一损失值和第二损失值训练词向量对齐模型。

在一个实施例中，原始词向量集合包括第一原始词向量和第二原始词向量；将原始词向量集合输入生成网络中，得到对应的对抗词向量集合，根据对抗词向量集合和原始词向量集合确定第一损失值，包括：将第一原始词向量和第二原始词向量输入生成网络中，得到对应的第一对抗词向量和第二对抗词向量；获取第一对抗词向量和第二对抗词向量之间的第一相似度；获取第一原始词向量和第二原始词向量之间的第二相似度；根据第一相似度和第二相似度确定第一损失值。

在一个实施例中，原始词向量集合包括第一原始词向量、第二原始词向量及第三原始词向量；将原始词向量集合输入生成网络中，得到对应的对抗词向量集合，根据对抗词向量集合和原始词向量集合确定第一损失值，包括：将第一原始词向量及第二原始词向量输入生成网络中，得到对应的第一对抗词向量集合，获取第一对抗词向量集合对应的第一对抗相似度；将第一原始词向量及第三原始词向量输入生成网络中，得到对应的第二对抗词向量集合，获取第二对抗词向量集合对应的第二对抗相似度；获取第一对抗相似度和第二对抗相似度之间的第一差值；获取第一原始相似度和第二原始相似度之间的第二差值；第一原始余弦相似度为第一原始词向量和第二原始词向量之间的相似度；第二原始相似度为第一原始词向量和第三原始词向量之间的相似度；根据第一差值和第二差值确定第一损失值。

在一个实施例中，如图8所示，提供了一种词向量对齐模型训练装置800，该装置包括：

训练关键词获取模块802，用于获取训练关键词集合；

模型获取模块804，用于获取待对齐词向量模型及基准词向量模型；

第一输入模块806，用于将训练关键词集合输入待对齐词向量模型，得到对应的原始词向量集合；

第二输入模块808，用于将训练关键词集合中至少一个训练关键词输入基准词向量模型，得到对应的基准词向量集合；

训练模块810，用于通过原始词向量集合使得生成网络生成对抗样本，并通过对抗样本及基准词向量集合使得生成网络与判别网络进行对抗训练，得到训练好的词向量对齐模型。

上述词向量对齐模型训练装置，由于训练得到的词向量对齐模型是通过生成网络对原始词向量集合生成对抗样本，并通过对抗样本及对应的基准词向量集合与判别网络对抗训练得到，生成网络因此具备将该待对齐词向量模型对应的词向量向基准词向量模型对应的词向量空间映射的能力，计算机设备通过将该待对齐词向量模型对应的待对齐词向量输入到生成网络中，可以得到对齐词向量，从而实现了词向量空间的对齐，解决了传统技术中不同语料源训练出来的词向量空间并不一致的问题。

在一个实施例中，训练模块810还用于将原始词向量集合输入生成网络中，得到对应的对抗词向量集合，根据对抗词向量集合和原始词向量集合确定第一损失值；将任意一个基准词向量和基准词向量对应的目标对抗词向量输入判别网络中，得到目标对抗词向量对应的对抗预测值和基准词向量对应的基准预测值；根据对抗预测值或基准预测值确定第二损失值；根据第一损失值和第二损失值训练词向量对齐模型。

在一个实施例中，原始词向量集合包括第一原始词向量和第二原始词向量；训练模块810还用于将第一原始词向量和第二原始词向量输入生成网络中，得到对应的第一对抗词向量和第二对抗词向量；获取第一对抗词向量和第二对抗词向量之间的第一相似度；获取第一原始词向量和第二原始词向量之间的第二相似度；根据第一相似度和第二相似度确定第一损失值。

在一个实施例中，原始词向量集合包括第一原始词向量、第二原始词向量及第三原始词向量；训练模块810还用于将第一原始词向量及第二原始词向量输入生成网络中，得到对应的第一对抗词向量集合，获取第一对抗词向量集合对应的第一对抗相似度；将第一原始词向量及第三原始词向量输入生成网络中，得到对应的第二对抗词向量集合，获取第二对抗词向量集合对应的第二对抗相似度；获取第一对抗相似度和第二对抗相似度之间的第一差值；获取第一原始相似度和第二原始相似度之间的第二差值；第一原始余弦相似度为第一原始词向量和第二原始词向量之间的相似度；第二原始相似度为第一原始词向量和第三原始词向量之间的相似度；根据第一差值和第二差值确定第一损失值。

图9示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110或服务器120。如图9所示，该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现词向量对齐方法或词向量对齐模型训练方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行词向量对齐方法或词向量对齐模型训练方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的词向量对齐装置或者词向量对齐模型训练装置可以实现为一种计算机程序的形式，计算机程序可在如图9所示的计算机设备上运行。计算机设备的存储器中可存储组成该词向量对齐装置或者词向量对齐模型训练装置的各个程序模块，比如，图6所示的待对齐词向量获取模块、词向量对齐模型获取模块和对齐词向量获取模块；再比如，图8所示的训练关键词获取模块、模型获取模块、第一输入模块、第二输入模块和训练模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的词向量对齐方法或者词向量对齐模型训练方法中的步骤。

例如，图9所示的计算机设备可以通过如图6所示的词向量对齐装置中的待对齐词向量获取模块执行步骤S202。计算机设备可通过词向量对齐模型获取模块执行步骤S204。计算机设备可通过对齐词向量获取模块执行步骤S206。

又如，图9所示的计算机设备可以通过如图8所示的词向量对齐模型训练装置中训练关键词获取模块执行步骤S702，通过模型获取模块执行步骤S704，通过第一输入模块执行步骤S706，通过第二输入模块执行步骤S708，通过训练模块执行步骤S710。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述词向量对齐方法或者词向量对齐模型训练方法的步骤。此处词向量对齐方法或者词向量对齐模型训练方法的步骤可以是上述各个实施例的词向量对齐方法或者词向量对齐模型训练方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述词向量对齐方法或者词向量对齐模型训练方法的步骤。此处词向量对齐方法或者词向量对齐模型训练方法的步骤可以是上述各个实施例的词向量对齐方法或者词向量对齐模型训练方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指示相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种词向量对齐方法，包括：

2.根据权利要求1所述的方法，其特征在于，所述词向量对齐模型的训练步骤包括：

将所述原始词向量集合输入生成网络中，得到对应的对抗词向量集合，根据所述对抗词向量集合和所述原始词向量集合确定第一损失值；

将任意一个基准词向量和所述基准词向量对应的目标对抗词向量输入判别网络中，得到所述目标对抗词向量对应的对抗预测值和所述基准词向量对应的基准预测值；

根据所述对抗预测值或所述基准预测值确定第二损失值；

根据所述第一损失值和所述第二损失值训练所述词向量对齐模型。

3.根据权利要求2所述的方法，其特征在于，所述原始词向量集合包括第一原始词向量和第二原始词向量；

所述将所述原始词向量集合输入生成网络中，得到对应的对抗词向量集合，根据所述对抗词向量集合和所述原始词向量集合确定第一损失值，包括：

将所述第一原始词向量和所述第二原始词向量输入生成网络中，得到对应的第一对抗词向量和第二对抗词向量；

获取所述第一对抗词向量和第二对抗词向量之间的第一相似度；

获取所述第一原始词向量和所述第二原始词向量之间的第二相似度；

根据所述第一相似度和所述第二相似度确定第一损失值。

4.根据权利要求2所述的方法，其特征在于，所述原始词向量集合包括第一原始词向量、第二原始词向量及第三原始词向量；

将所述第一原始词向量及所述第二原始词向量输入生成网络中，得到对应的第一对抗词向量集合，获取所述第一对抗词向量集合对应的第一对抗相似度；

将所述第一原始词向量及所述第三原始词向量输入生成网络中，得到对应的第二对抗词向量集合，获取所述第二对抗词向量集合对应的第二对抗相似度；

获取所述第一对抗相似度和所述第二对抗相似度之间的第一差值；

获取第一原始相似度和第二原始相似度之间的第二差值；所述第一原始相似度为所述第一原始词向量和第二原始词向量之间的相似度；所述第二原始相似度为所述第一原始词向量和第三原始词向量之间的相似度；

根据所述第一差值和所述第二差值确定第一损失值。

5.根据权利要求1至4任意一项所述的方法，其特征在于，所述方法还包括：

获取目标关键词对应于各个语料源的目标对齐词向量；

获取各个所述目标对齐词向量与各自对应的非目标对齐词向量之间的相似度，得到各个所述目标对齐词向量对应的相似度集合；

融合各个相似度集合，得到目标关键词对应于各个词文本的目标相似度；

根据各个词文本的目标相似度，确定所述目标关键词对应的目标相似词。

6.根据权利要求5所述的方法，其特征在于，所述目标关键词为待推荐信息对应的关键词；所述方法还包括：

将所述目标相似词与用户集合中各个用户对应的用户标签进行匹配；

将匹配成功的用户标签对应的用户确定为目标用户；

将所述待推荐信息推荐至所述目标用户对应的终端。

7.一种词向量对齐模型训练方法，包括：

获取训练关键词集合；

获取待对齐词向量模型及基准词向量模型；

8.根据权利要求7中所述的方法，其特征在于，所述通过所述原始词向量集合使得生成网络生成对抗样本，并通过所述对抗样本及所述基准词向量集合使得所述生成网络与判别网络进行对抗训练，得到训练好的词向量对齐模型，包括：

根据所述对抗预测值或所述基准预测值确定第二损失值；

根据所述第一损失值和所述第二损失值训练词向量对齐模型。

9.一种词向量对齐装置，其特征在于，所述装置包括：

10.一种词向量对齐模型训练装置，其特征在于，所述装置包括：

训练关键词获取模块，用于获取训练关键词集合；