CN113011177A

CN113011177A - 模型训练和词向量确定方法、装置、设备、介质和产品

Info

Publication number: CN113011177A
Application number: CN202110277972.5A
Authority: CN
Inventors: 马超; 张敬帅; 黄启帆; 姚开春; 王鹏; 祝恒书
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-03-15
Filing date: 2021-03-15
Publication date: 2021-06-22
Anticipated expiration: 2041-03-15
Also published as: CN113011177B; US20220121826A1

Abstract

本公开提供了一种模型训练和词向量确定方法、装置、设备、介质和产品，可以用于自然语言处理领域和信息处理领域等领域中。该方法包括：获取与第一词集合对应的第一词向量集合；以及针对第一词向量集合中的每个词向量，基于词嵌入模型生成降低维度的词向量，基于降低维度的词向量生成第一词向量集合中的其他词向量在第一词向量集合中的第一概率分布，以及调整词嵌入模型的参数，使得第一概率分布与通过第一词向量集合中的词向量的数量确定的其他词向量的第二概率分布的差别尽可能小。利用上述方法，可以基于相关联的、包括在语言学上不具有顺序关系的词的多个语料进行词嵌入，因此能够增进词嵌入的效率和提高词嵌入的效果，从而能够提升用户体验。

Description

模型训练和词向量确定方法、装置、设备、介质和产品

技术领域

本公开涉及计算机技术，并且更具体地，涉及模型训练方法、词向量确定方法、装置、电子设备、计算机可读存储介质和计算机程序产品，可以用于自然语言处理领域和信息处理领域等领域中。

背景技术

词嵌入是自然语言处理中对诸如技能词的词进行表征的技术。从概念上而言，它是指把一个维数为所有词的数量的词的高维空间嵌入到一个维数低得多的词的连续向量空间中，每个词被映射为实数域上的向量。很多下游任务都可以使用词嵌入向量作为输入，因此词嵌入的质量很大程度上影响了下游任务的效果。下游任务例如可以包括机器学习任务简历分类任务、简历评估任务、人岗匹配任务、招投标任务等任务。

然而，传统的用于词嵌入的技术无论是在模型训练的效率还是模型训练的效果方面都存在不足。

发明内容

根据本公开的实施例，提供了一种模型训练方法、词向量确定方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

在本公开的第一方面中，提供了一种模型训练方法，包括：获取与第一词集合对应的第一词向量集合，第一词集合来自第一语料，并且第一词集合中的词在语言学上不具有顺序关系；以及针对第一词向量集合中的每个词向量，基于词嵌入模型生成降低维度的词向量，基于降低维度的词向量生成第一词向量集合中的其他词向量在第一词向量集合中的第一概率分布，以及调整词嵌入模型的参数，使得使用经调整的词嵌入模型生成的第一概率分布与通过第一词向量集合中的词向量的数量确定的其他词向量的第二概率分布的差别尽可能小。

在本公开的第二方面中，提供了一种词向量确定方法，包括使用根据本公开的第一方面而被训练的词嵌入模型，针对词向量确定降低维度的词向量。

在本公开的第三方面中，提供了一种模型训练装置，包括：第一词向量集合获取模块，被配置为获取与第一词集合对应的第一词向量集合，第一词集合来自第一语料，并且第一词集合中的词在语言学上不具有顺序关系；以及第一参数调整模块，被配置为针对第一词向量集合中的每个词向量，基于词嵌入模型生成降低维度的词向量，基于降低维度的词向量生成第一词向量集合中的其他词向量在第一词向量集合中的第一概率分布，以及调整词嵌入模型的参数，使得使用经调整的词嵌入模型生成的第一概率分布与通过第一词向量集合中的词向量的数量确定的其他词向量的第二概率分布的差别尽可能小。

在本公开的第四方面中，提供了一种词向量确定装置，被配置为使用由根据本公开的第三方面的模型训练装置训练的词嵌入模型，针对词向量确定降低维度的词向量。

在本公开的第五方面中，提供了一种电子设备，包括至少一个处理器；以及与至少一个处理器通信连接的存储器；其中存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器能够实现根据本公开的第一方面的方法。

在本公开的第六方面中，提供了一种电子设备，包括至少一个处理器；以及与至少一个处理器通信连接的存储器；其中存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器能够实现根据本公开的第二方面的方法。

在本公开的第七方面中，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机实现根据本公开的第一方面的方法。

在本公开的第八方面中，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机实现根据本公开的第二方面的方法。

在本公开的第九方面中，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时，执行根据本公开的第一方面的方法。

在本公开的第十方面中，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时，执行根据本公开的第二方面的方法。

利用根据本申请的技术，提供了一种词嵌入方法，利用该方法的技术方法，可以针对在语言学上不具有顺序关系的词来训练词嵌入模型，以针对输入的高维词向量获取降低维度的词向量，并且可以同时针对多个语料进行训练，并且可以考虑多个语料之间的关联性。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

通过结合附图对本公开示例性实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中在本公开示例性实施例中，相同的参考标号通常代表相同部件。应当理解，附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示出了可以在其中实现本公开的某些实施例中的模型训练方法的模型训练环境100的示意性框图；

图2示出了根据本公开实施例的词嵌入模型130的示意性框图；

图3示出了根据本公开实施例的模型训练方法300的流程图；

图4示出了根据本公开实施例的模型训练方法400的流程图；

图5示出了根据本公开实施例的模型训练方法500的流程图；

图6示出了根据本公开实施例的模型训练方法600的流程图；

图7示出了根据本公开的实施例的模型训练装置700的示意性框图；以及

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。

在各个附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如以上在背景技术中所描述的，传统的用于词嵌入的技术无论是在模型训练的效率还是模型训练的效果方面都存在不足。

具体而言，在传统方案中，主要使用两种方法来实现词嵌入：(1)Skip-gram，这种方法要在语料中定义一个滑动窗口，以窗口中心词作为输入，预测该单词在窗口中的上下文，通过完成这个预测任务来实现词嵌入；(2)CBOW，这种方法要在语料中定义一个滑动窗口，以窗口中心词的上下文作为输入，预测该中心词，通过完成这个预测任务来实现词嵌入。

然而，传统的词嵌入方法存在许多不足。具体而言，固定滑动窗口不适用例如技能词之类的特定词嵌入场景，这是因为技能词不同于一般的词语，没有语言学上的顺序关系，使用固定滑动窗口在这个技能词嵌入场景下不能适用。此外，现有方法针对的是同一语料，不同语料上的技能词嵌入向量不在同一个语义空间，无法进行语义计算。例如，当在简历和岗位语料上分别进行训练时，不同语料上训练完成的向量分布在两个不同的向量空间，向量之间的距离无法反映语义相关性。再次，现有方法不能有效利用不同语料之间的对应关系信息，增加技能词嵌入向量的表达能力。例如，简历和岗位通常有一些对应关系，比如简历和岗位是否匹配。在分别进行训练的情况下，不同语料之间存在的对应关系信息被损失掉，降低了向量的表达能力。

为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个问题，本公开的实施例提出了一种词嵌入方法，利用该方法的技术方案，可以针对在语言学上不具有顺序关系的词来训练词嵌入模型，以针对输入的高维词向量获取降低维度的词向量，并且可以同时针对多个语料进行训练，并且可以考虑多个语料之间的关联性。同时，使用根据本公开的实施例的技术方案，可以在给定多个语料的情况下，充分利用语料信息以及不同语料间对应关系信息进行建模，从而可以得到具有更好语义表达能力的技能词嵌入向量。

例如，利用本公开的实施例的技术方案，可以在智能招聘业务场景下，利用简历信息、岗位信息以及简历信息和岗位信息之间的匹配信息，得到最终的技能词嵌入向量。在本公开的实施例中，可以预先设定认为出现在岗位信息中的同一段描述中的词具有一定的语义相关性，并且出现在简历中的同一段工作描述中的词具有一定的语义相关性。因此，如果某个简历和岗位匹配，则出现在简历工作描述中的词和对应的岗位需求描述中的词有一定的语义相关性。根据前述相关性信息可以定义语义窗口，并且可以构建类似Skip-gram中的预测任务，而后最终得到技能词嵌入向量。根据本公开的实施例的技术方案提出的基于多语料的技能词嵌入方法因此可以分为三个步骤：语义窗口定义、正负样例构建和基于神经网络的技能词嵌入模型实现。

图1示出了可以在其中实现本公开的某些实施例中的模型训练方法的模型训练环境100的示意性框图。根据本公开的一个或多个实施例，模型训练环境100可以是云环境。如图1中所示，模型训练环境100包括计算设备110。在模型训练环境100中，例如可以包括词向量集合、与词向量集合对应的词集合或者词集合所来自的语料的训练相关数据120作为计算设备110的输入被提供给计算设备110。计算设备110可以与词嵌入模型130进行交互，例如，计算设备110可以将训练相关数据120中的至少一部分提供给词嵌入模型130，从词嵌入模型130接收由词嵌入模型130基于训练相关数据120而确定的降低维度的词向量和概率分布，以及通过将由词嵌入模型130确定的概率分布与对应的、可以作为比对基础的概率分布进行比较来向词嵌入模型130发出调整词嵌入模型130的参数的指令，以对词嵌入模型130进行训练。

根据本公开的一个或多个实施例，在模型训练环境100中，当计算设备110接收到由词嵌入模型130基于训练相关数据120而确定的概率分布之后，可以通过将由词嵌入模型130确定的概率分布与对应的、可以作为比对基础的概率分布进行比较来向词嵌入模型130发出调整词嵌入模型130的参数的指令，从而使得由词嵌入模型130确定的概率分布与对应的、可以作为比对基础的概率分布的差别尽可能小。

应当理解，模型训练环境100仅仅是示例性而不是限制性的，并且其是可扩展的，其中可以包括更多的计算设备110，并且可以向计算设备110提供更多的训练相关数据120作为输入，计算设备110也可以与更多的词嵌入模型130进行交互，从而使得可以满足更多用户同时利用更多的计算设备110，甚至利用更多的训练相关数据120来同时或者非同时地训练的需求词嵌入模型130。此外，计算设备110也可以在完成对词嵌入模型130的训练之后，使用词嵌入模型130来针对诸如的词向量确定降低维度的词向量。

在图1所示的模型训练环境100中，向计算设备110输入训练相关数据120以及计算设备110与词嵌入模型130之间的交互可以通过网络来进行。

图2示出了根据本公开实施例的词嵌入模型130的示意性框图。根据本公开的一个或多个实施例，词嵌入模型130是神经网络结构。如图2中所示，词嵌入模型130可以包括输入层131、中间层132和输出层133。输入层131用于接收例如可以包括词向量集合、与词向量集合对应的词集合或者词集合所来自的语料的训练相关数据120。例如，输入层131可以用于接收训练词。应当理解，输入层131可以将所接收的词转换为对应的词向量，或者输入层131也可以直接接收这些词向量。

中间层132是由词嵌入模型130基于由输入层131所接收的训练相关数据120而生成的中间结果，其例如可以被包括N维的向量，并且N为作为神经网络结构的中间层132的神经元个数。根据本公开的一个或多个实施例，中间层132包括的N维的向量的维度低于输入的词向量的维度，并且N的数目可以被按照需求进行定义，例如，N的数目可以是128、256等。

输出层133最终输出的可以是由词嵌入模型130基于由中间层132提供的中间结果而生成的、词向量集合中的除输入词向量的其他词向量在词向量集合中的概率分布。根据本公开的一个或多个实施例，由输出层133最终输出的概率分布可以被提供给计算设备110以用于比较。

图3示出了根据本公开的实施例的模型训练方法300的流程图。具体而言，模型训练方法300可以由图1中所示的模型训练环境100中的计算设备110来执行。应当理解的是，模型训练方法300还可以包括未示出的附加操作和/或可以省略所示出的操作，本公开的范围在此方面不受限制。

在框302，计算设备110获取与第一词集合对应的第一词向量集合。根据本公开的一个或多个实施例，第一词集合来自第一语料，并且第一词集合中的词在语言学上不具有顺序关系。例如，第一语料可以是岗位信息或者简历，第一词集合可以是岗位信息或者简历中的一句话或者一段话中的技能词集合。

根据本公开的一个或多个实施例，第一词集合中的词属于词全集，并且词全集中的每个词都具有对应的词向量。例如，如果词全集共有10000个词，那么第一个词对应的词向量可以是第一位是1并且之后9999位都为0的词向量，第二个词对应的词向量可以是第二位是1并且之前的第一位和之后的9998位都为0的词向量，依次类推。

在框304，计算设备110针对第一词向量集合中的每个词向量，基于词嵌入模型130生成降低维度的词向量，基于降低维度的词向量生成第一词向量集合中的其他词向量在第一词向量集合中的第一概率分布，以及调整词嵌入模型130的参数，使得使用经调整的词嵌入模型130生成的第一概率分布与通过第一词向量集合中的词向量的数量确定的其他词向量的第二概率分布的差别尽可能小。

根据本公开的一个或多个实施例，如果第一词向量集合中共包括5个词，则在每次训练词嵌入模型130，除了输入词嵌入模型130的一个词向量之外共有4个词，此时这4个词在第一词向量集合中的概率是相同的，均为1/4＝25％。因此，计算设备110可以调整词嵌入模型130的参数，使得第一词向量集合中的、除了输入词嵌入模型130的一个词向量之外的其他4个词向量在第一词向量集合中的概率分布为均尽可能地接近25％。

根据本公开的一个或多个实施例，可以引入损失分数来有助于对第一概率分布和第二概率分布进行比较。例如，计算设备110可以使用损失函数，针对第一概率分布和第二概率分布确定概率分布损失分数，并且随后调整词嵌入模型130的参数，使得针对使用经调整的词嵌入模型130生成的第一概率分布和第二概率分布确定的概率分布损失分数尽可能小。

根据本公开的一个或多个实施例，计算设备110使用梯度下降方法来调整嵌入模型130的参数。

图4示出了根据本公开的实施例的模型训练方法400的流程图。具体而言，模型训练方法400可以由图1中所示的模型训练环境100中的计算设备110来执行。应当理解的是，模型训练方法400还可以包括未示出的附加操作和/或可以省略所示出的操作，本公开的范围在此方面不受限制。

在框402，计算设备110获取与第一词集合对应的第一词向量集合。根据本公开的一个或多个实施例，第一词集合来自第一语料，并且第一词集合中的词在语言学上不具有顺序关系。框402所涉及的步骤的具体内容与框302中所涉及的步骤的具体内容相同，在此不再赘述。

在框404，计算设备110针对第一词向量集合中的每个词向量，基于词嵌入模型130生成降低维度的词向量，基于降低维度的词向量生成第一词向量集合中的其他词向量在第一词向量集合中的第一概率分布，以及调整词嵌入模型130的参数，使得使用经调整的词嵌入模型130生成的第一概率分布与通过第一词向量集合中的词向量的数量确定的其他词向量的第二概率分布的差别尽可能小。框404所涉及的步骤的具体内容与框304中所涉及的步骤的具体内容相同，在此不再赘述。

在框406，计算设备110针对第一词集合中的每个词，在第一词集合所属于的词全集中确定对照词集合，其中对照词集合与第一词集合不具有相同的词。根据本公开的一个或多个实施例，对照词集合中的词不属于第一词集合中，因此对照词集合中的词相对于第一词集合可以被称为负样本。相对地，第一词集合相互可以被称为正样本。

根据本公开的一个或多个实施例，计算设备110可以通过词在第一语料中的出现次数以及词全集中的每个词在第一语料中的出现次数，确定采样概率，并且使用采样概率在词全集中、除第一词集合中的词以外的词中采样，以确定对照词集合。

在框408，计算设备110获取与对照词集合对应的对照词向量集合。根据本公开的一个或多个实施例，由于对照词集合也属于词全集，因此对照词集合中的每个词都具有预设的对应的词向量。

在框410，计算设备110使用词嵌入模型130生成对照词集合中的每个词向量在第一词向量集合中出现的概率。

在框412，计算设备110调整参数，使得使用经调整的词嵌入模型130生成的对照词集合中的每个词向量在第一词向量集合中出现的概率尽可能小。根据本公开的一个或多个实施例，由于对照词集合中的词不属于第一词集合中，此时这4个词在第一词向量集合中的概率应均为0。计算设备110可以调整词嵌入模型130的参数，生成的对照词集合中的每个词向量在第一词向量集合中出现的概率尽可能地接近0。

根据本公开的一些实施例，对照词集合中的词的数量与第一词集合中的词的数量成预定比例。例如，对照词集合中的词的数量可以是第一词集合中的词的数量的1倍、2倍、3倍、5倍、7倍或者任何预设的倍数等。

根据本公开的另一些实施例，对照词集合为词全集中、除第一词集合中的词以外的所有词。

图5示出了根据本公开的实施例的模型训练方法500的流程图。具体而言，模型训练方法500可以由图1中所示的模型训练环境100中的计算设备110来执行。应当理解的是，模型训练方法500还可以包括未示出的附加操作和/或可以省略所示出的操作，本公开的范围在此方面不受限制。

在框502，计算设备110获取与第一词集合对应的第一词向量集合。根据本公开的一个或多个实施例，第一词集合来自第一语料，并且第一词集合中的词在语言学上不具有顺序关系。框502所涉及的步骤的具体内容与框302中所涉及的步骤的具体内容相同，在此不再赘述。

在框504，计算设备110针对第一词向量集合中的每个词向量，基于词嵌入模型130生成降低维度的词向量，基于降低维度的词向量生成第一词向量集合中的其他词向量在第一词向量集合中的第一概率分布，以及调整词嵌入模型130的参数，使得使用经调整的词嵌入模型130生成的第一概率分布与通过第一词向量集合中的词向量的数量确定的其他词向量的第二概率分布的差别尽可能小。框504所涉及的步骤的具体内容与框304中所涉及的步骤的具体内容相同，在此不再赘述。

在框506，计算设备110获取与第二词集合对应的第二词向量集合。根据本公开的一个或多个实施例，第二词集合来自第二语料，第二词集合中的词在语言学上不具有顺序关系，并且第二词集合与第一词集合相关联。例如，当第一语料是岗位信息或者简历时，第二语料可以是与第一语料对应的岗位信息或者简历，并且第二词集合可以是岗位信息或者简历中的一句话或者一段话中的技能词集合。

在框508，计算设备110针对第二词向量集合中的每个词向量，使用词嵌入模型130生成降低维度的词向量，并且使用降低维度的词向量生成第二词向量集合中的其他词向量在第二词向量集合中的第三概率分布。框508所涉及的步骤的具体内容与框304中所涉及的步骤中的一部分的具体内容相同，在此不再赘述。

在框510，计算设备110调整词嵌入模型130的参数，使得使用经调整的词嵌入模型130生成的第三概率分布与通过第二词向量集合中的词向量的数量确定的其他词向量的第四概率分布的差别尽可能小。框510所涉及的步骤的具体内容与框304中所涉及的步骤中的一部分的具体内容相同，在此不再赘述。

由此可见，方法500与方法300的区别之一在于引入了第二词向量集合，并且使用相关联的第一词向量集合和第二词向量集合来同时训练词嵌入模型130，从而可以更便捷高效地实现对词嵌入模型130的训练。

图6示出了根据本公开的实施例的模型训练方法600的流程图。具体而言，模型训练方法600可以由图1中所示的模型训练环境100中的计算设备110来执行。应当理解的是，模型训练方法600还可以包括未示出的附加操作和/或可以省略所示出的操作，本公开的范围在此方面不受限制。

在框602，计算设备110获取与第一词集合对应的第一词向量集合。根据本公开的一个或多个实施例，第一词集合来自第一语料，并且第一词集合中的词在语言学上不具有顺序关系。框602所涉及的步骤的具体内容与框302中所涉及的步骤的具体内容相同，在此不再赘述。

在框604，计算设备110针对第一词向量集合中的每个词向量，基于词嵌入模型130生成降低维度的词向量，基于降低维度的词向量生成第一词向量集合中的其他词向量在第一词向量集合中的第一概率分布，以及调整词嵌入模型130的参数，使得使用经调整的词嵌入模型130生成的第一概率分布与通过第一词向量集合中的词向量的数量确定的其他词向量的第二概率分布的差别尽可能小。框604所涉及的步骤的具体内容与框304中所涉及的步骤的具体内容相同，在此不再赘述。

在框606，计算设备110获取与第二词集合对应的第二词向量集合。根据本公开的一个或多个实施例，第二词集合来自第二语料，第二词集合中的词在语言学上不具有顺序关系，并且第二词集合与第一词集合相关联。框606所涉及的步骤的具体内容与框506中所涉及的步骤的具体内容相同，在此不再赘述。

在框608，计算设备110针对第一词集合和第二词向量集合的词向量并集中的每个词向量，使用词嵌入模型130生成降低维度的词向量，并且使用降低维度的词向量生成词向量并集中的其他词向量在词向量并集中的第五概率分布。

在框610，计算设备110调整词嵌入模型130的参数，使得使用经调整的词嵌入模型130生成的第五概率分布与通过词向量并集中的词向量的数量确定的其他词向量的第六概率分布的差别尽可能小。

由此可见，方法600与方法500的区别之一在于是使用相关联的第一词向量集合和第二词向量集合的并集来训练词嵌入模型130，而不是分别使用第一词向量集合和第二词向量集合来训练词嵌入模型130，从而可以减少训练冗余词向量所造成的计算资源的浪费。

以下基于图2中所示出的词嵌入模型130，结合方法300、方法400、方法500以及方法600来说明训练词嵌入模型130示例。

首先，在词嵌入模型130的输入层131输入词数量为V的词全集中的、也可以被称为窗口大小的词数目为C的第一词向量集合中的第i个词的词向量w_i，这一词向量可以使用单热(onehot)方式来表示。

而后，通过将词向量w_i乘以W_V×N的权重矩阵来在中间层132得到维度大小为N的降低维度的词向量，其中中间层132的表示可以是

之后，可以通过将在中间层132得到的维度大小为N的降低维度的词向量与权重矩阵W’相乘来得到输出层133中的输出向量，即V×1的向量u，其中u＝W′^T·h。

其中向量u的每个元素u_j，就是W′的第j列，用

表示，其与中间层132h进行内积计算得到:

其中u_j表示了词语j在词语i的语义窗口的可能性。为了方便概率表示，使用softmax将向量u归一化到[0,1]之间，作为输出词的概率，并由以下的公式(1)表示，最终得到输出向量y，其中context(w_i)是w_i语义窗口中的词语。

此外，可以将损失函数定义为公式(2)：

其中

为context(w_i)中第c个词在词全集中的索引，

为对应索引位置上u向量的输出值。在使用负采样时，上述损失函数可以被重新定义为公式(3)：

其中C为context(w_i)的大小，NEG为负采样下的负样例数，将语义窗口和负样例混合为一个训练样本，j^*为这个训练样本中第j个词在词全集中的索引。区别于前一个损失函数，采用负采样策略后的损失函数只考虑语义窗口和采样之后的负样例，对词全集中的其余技能词不做考虑。

最后，基于定义好的损失函数，使用梯度下降的方法不断更新模型参数W和W′直至模型收敛，而后就可以使用经训练的词嵌入模型130，基于输入的词向量来获得降低维度的词向量，进而可以获得与词全集的词向量对应的降低维度的词向量的全集。

以上参考图1至图6描述了与可以在其中实现本公开的某些实施例中的模型训练方法的模型训练环境100、根据本公开实施例的词嵌入模型130、根据本公开实施例的模型训练方法300、根据本公开实施例的模型训练方法400、根据本公开实施例的模型训练方法500的以及根据本公开实施例的模型训练方法600的相关内容。应当理解，上述描述是为了更好地展示本公开中所记载的内容，而不是以任何方式进行限制。

应当理解，本公开的上述各个附图中所采用的各种元件的数目和物理量的大小仅为举例，而并不是对本公开的保护范围的限制。上述数目和大小可以根据需要而被任意设置，而不会对本公开的实施方式的正常实施产生影响。

上文已经参见图1至图6描述了根据本公开的实施方式的模型训练方法300、模型训练方法400、模型训练方法500和模型训练方法600的细节。在下文中，将参见图7描述模型训练装置中的各个模块。

图7是根据本公开实施例的模型训练装置700的示意性框图。如图7所示，模型训练装置700可以包括：第一词向量集合获取模块710，被配置为获取与第一词集合对应的第一词向量集合，第一词集合来自第一语料，并且第一词集合中的词在语言学上不具有顺序关系；以及第一参数调整模块720，被配置为针对第一词向量集合中的每个词向量，基于词嵌入模型生成降低维度的词向量，基于降低维度的词向量生成第一词向量集合中的其他词向量在第一词向量集合中的第一概率分布，以及调整词嵌入模型的参数，使得使用经调整的词嵌入模型生成的第一概率分布与通过第一词向量集合中的词向量的数量确定的其他词向量的第二概率分布的差别尽可能小。

在一个或多个实施例中，第一参数调整模块720包括：损失分数确定模块(未示出)，被配置为使用损失函数，针对第一概率分布和第二概率分布确定概率分布损失分数；以及第二参数调整模块(未示出)，被配置为调整参数，使得针对使用经调整的词嵌入模型生成的第一概率分布和第二概率分布确定的概率分布损失分数尽可能小。

在一个或多个实施例中，模型训练装置700还包括：第一对照词集合确定模块(未示出)，被配置为针对第一词集合中的每个词，在第一词集合所属于的词全集中确定对照词集合，对照词集合与第一词集合不具有相同的词；对照词向量集合获取模块(未示出)，被配置为获取与对照词集合对应的对照词向量集合；概率确定模块(未示出)，被配置为使用词嵌入模型生成对照词集合中的每个词向量在第一词向量集合中出现的概率；以及第三参数调整模块(未示出)，被配置为调整参数，使得使用经调整的词嵌入模型生成的对照词集合中的每个词向量在第一词向量集合中出现的概率尽可能小。

在一个或多个实施例中，其中对照词集合中的词的数量与第一词集合中的词的数量成预定比例。

在一个或多个实施例中，其中对照词集合为词全集中、除第一词集合中的词以外的所有词。

在一个或多个实施例中，其中对照词集合确定模块包括：采样概率确定模块(未示出)，被配置为通过词在第一语料中的出现次数以及词全集中的每个词在第一语料中的出现次数，确定采样概率；以及第二对照词集合确定模块(未示出)，被配置为使用采样概率在词全集中、除第一词集合中的词以外的词中采样，以确定对照词集合。

在一个或多个实施例中，模型训练装置700还包括：第二词向量集合获取模块(未示出)，被配置为获取与第二词集合对应的第二词向量集合，第二词集合来自第二语料，第二词集合中的词在语言学上不具有顺序关系，并且第二词集合与第一词集合相关联；第三概率分布生成模块(未示出)，被配置为针对第二词向量集合中的每个词向量，使用词嵌入模型生成降低维度的词向量，并且使用降低维度的词向量生成第二词向量集合中的其他词向量在第二词向量集合中的第三概率分布；以及第四参数调整模块(未示出)，被配置为调整词嵌入模型的参数，使得使用经调整的词嵌入模型生成的第三概率分布与通过第二词向量集合中的词向量的数量确定的其他词向量的第四概率分布的差别尽可能小。

在一个或多个实施例中，模型训练装置700还包括：第二词向量集合获取模块(未示出)，被配置为获取与第二词集合对应的第二词向量集合，第二词集合来自第二语料，第二词集合中的词在语言学上不具有顺序关系，并且第二词集合与第一词集合相关联；第五概率分布生成模块(未示出)，被配置为针对第一词集合和第二词向量集合的词向量并集中的每个词向量，使用词嵌入模型生成降低维度的词向量，并且使用降低维度的词向量生成词向量并集中的其他词向量在词向量并集中的第五概率分布；以及第五参数调整模块(未示出)，被配置为调整词嵌入模型的参数，使得使用经调整的词嵌入模型生成的第五概率分布与通过词向量并集中的词向量的数量确定的其他词向量的第六概率分布的差别尽可能小。

在一个或多个实施例中，其中第一参数调整模块被配置为使用梯度下降方法调整参数。

在一个或多个实施例中，其中词为技能词。

通过以上参考图1至图7的描述，根据本公开的实施方式的技术方案相对于传统方案具有诸多优点。例如，利用根据本公开的实施方式的技术方案，可以针对在语言学上不具有顺序关系的词来训练词嵌入模型，以针对输入的高维词向量获取降低维度的词向量，并且可以同时针对多个语料进行训练，并且可以考虑多个语料之间的关联性。

根据本公开的实施方式的技术方案可以实现更好的语义可计算性。具体而言，根据本公开的实施方式的技术方案通过利用多个语料之间的对应关系信息，构建了跨越不同语料的语义窗口，在构建的语义窗口基础上，利用负采样技术构建训练需要的正负样例，并且通过利用神经网络完成正负样例的分类任务得到最终的词嵌入向量。根据本公开的实施方式的技术方案所得到的词嵌入向量，可以将来自不同语料的词嵌入向量拉到近似同一个语义空间，使得不同语料上的词嵌入向量具有可计算性，向量点积的大小可以在一定程度上反映语义相关性。

根据本公开的实施方式的技术方案还具有更强的词嵌入向量表达能力。使用根据本公开的实施方式的技术方案的基于多语料的词嵌入方法，能够充分利用语料信息和不同语料之间的对应关系信息进行建模，使得模型训练得到的词嵌入向量表达能力更强，在机器学习关键指标和语义相关性测试用例上有更好的表现。

根据本公开的实施方式的技术方案还使得语义窗口定义更加合理。与固定的滑动窗口不同，根据本公开的实施方式的技术方案重新定义了语义窗口单元，其更加适用于技能词嵌入场景。

根据本公开的实施例，本公开还提供了一种使用根据本公开的模型训练方法300、模型训练方法400、模型训练方法500或者模型训练方法600而被训练的词嵌入模型来确定降低维度的词向量的词向量确定方法、一种被配置为使用由根据本公开的模型训练装置600训练的词向量确定模型来针对词向量确定降低维度的词向量的词向量确定装置、一种电子设备、一种计算机可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。例如，如图1所示的计算设备110和如图7所示的模型训练装置700可以由电子设备800来实施。电子设备800旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如方法300、400、500和600。例如，在一些实施例中，方法300、400、500和600可以被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的方法300、400、500和600的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法300、400、500和600。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种模型训练方法，包括：

获取与第一词集合对应的第一词向量集合，所述第一词集合来自第一语料，并且所述第一词集合中的词在语言学上不具有顺序关系；以及

针对所述第一词向量集合中的每个词向量，

基于词嵌入模型生成降低维度的词向量，

基于所述降低维度的词向量生成所述第一词向量集合中的其他词向量在所述第一词向量集合中的第一概率分布，以及

调整所述词嵌入模型的参数，使得使用经调整的所述词嵌入模型生成的所述第一概率分布与通过所述第一词向量集合中的词向量的数量确定的所述其他词向量的第二概率分布的差别尽可能小。

2.根据权利要求1所述的方法，其中调整所述参数包括：

使用损失函数，针对所述第一概率分布和所述第二概率分布确定概率分布损失分数；以及

调整所述参数，使得针对使用经调整的所述词嵌入模型生成的所述第一概率分布和所述第二概率分布确定的所述概率分布损失分数尽可能小。

3.根据权利要求1所述的方法，还包括：

针对所述第一词集合中的每个词，在所述第一词集合所属于的词全集中确定对照词集合，所述对照词集合与所述第一词集合不具有相同的词；

获取与所述对照词集合对应的对照词向量集合；

使用所述词嵌入模型生成所述对照词集合中的每个词向量在所述第一词向量集合中出现的概率；以及

调整所述参数，使得使用经调整的所述词嵌入模型生成的所述对照词集合中的每个词向量在所述第一词向量集合中出现的概率尽可能小。

4.根据权利要求3所述的方法，其中所述对照词集合中的词的数量与所述第一词集合中的词的数量成预定比例。

5.根据权利要求3所述的方法，其中所述对照词集合为所述词全集中、除所述第一词集合中的词以外的所有词。

6.根据权利要求3所述的方法，其中确定所述对照词集合包括：

通过所述词在所述第一语料中的出现次数以及所述词全集中的每个词在所述第一语料中的出现次数，确定采样概率；以及

使用所述采样概率在所述词全集中、除所述第一词集合中的词以外的词中采样，以确定所述对照词集合。

7.根据权利要求1所述的方法，还包括：

获取与第二词集合对应的第二词向量集合，所述第二词集合来自第二语料，所述第二词集合中的词在语言学上不具有顺序关系，并且所述第二词集合与所述第一词集合相关联；

针对所述第二词向量集合中的每个词向量，使用所述词嵌入模型生成降低维度的词向量，并且使用所述降低维度的词向量生成所述第二词向量集合中的其他词向量在所述第二词向量集合中的第三概率分布；以及

调整所述词嵌入模型的参数，使得使用经调整的所述词嵌入模型生成的所述第三概率分布与通过所述第二词向量集合中的词向量的数量确定的所述其他词向量的第四概率分布的差别尽可能小。

8.根据权利要求1所述的方法，还包括：

针对所述第一词集合和所述第二词向量集合的词向量并集中的每个词向量，使用所述词嵌入模型生成降低维度的词向量，并且使用所述降低维度的词向量生成所述词向量并集中的其他词向量在所述词向量并集中的第五概率分布；以及

调整所述词嵌入模型的参数，使得使用经调整的所述词嵌入模型生成的所述第五概率分布与通过所述词向量并集中的词向量的数量确定的所述其他词向量的第六概率分布的差别尽可能小。

9.根据权利要求1所述的方法，其中调整所述参数包括使用梯度下降方法调整所述参数。

10.根据权利要求1所述的方法，其中所述词为技能词。

11.一种词向量确定方法，包括使用根据权利要求1至10中的任一权利要求而被训练的词嵌入模型，针对词向量确定降低维度的词向量。

12.一种模型训练装置，包括：

第一词向量集合获取模块，被配置为获取与第一词集合对应的第一词向量集合，所述第一词集合来自第一语料，并且所述第一词集合中的词在语言学上不具有顺序关系；以及

第一参数调整模块，被配置为针对所述第一词向量集合中的每个词向量，

基于词嵌入模型生成降低维度的词向量，

13.根据权利要求12所述的装置，其中所述第一参数调整模块包括：

损失分数确定模块，被配置为使用损失函数，针对所述第一概率分布和所述第二概率分布确定概率分布损失分数；以及

第二参数调整模块，被配置为调整所述参数，使得针对使用经调整的所述词嵌入模型生成的所述第一概率分布和所述第二概率分布确定的所述概率分布损失分数尽可能小。

14.根据权利要求12所述的装置，还包括：

第一对照词集合确定模块，被配置为针对所述第一词集合中的每个词，在所述第一词集合所属于的词全集中确定对照词集合，所述对照词集合与所述第一词集合不具有相同的词；

对照词向量集合获取模块，被配置为获取与所述对照词集合对应的对照词向量集合；

概率确定模块，被配置为使用所述词嵌入模型生成所述对照词集合中的每个词向量在所述第一词向量集合中出现的概率；以及

第三参数调整模块，被配置为调整所述参数，使得使用经调整的所述词嵌入模型生成的所述对照词集合中的每个词向量在所述第一词向量集合中出现的概率尽可能小。

15.根据权利要求14所述的装置，其中所述对照词集合中的词的数量与所述第一词集合中的词的数量成预定比例。

16.根据权利要求14所述的装置，其中所述对照词集合为所述词全集中、除所述第一词集合中的词以外的所有词。

17.根据权利要求14所述的装置，其中所述对照词集合确定模块包括：

采样概率确定模块，被配置为通过所述词在所述第一语料中的出现次数以及所述词全集中的每个词在所述第一语料中的出现次数，确定采样概率；以及

第二对照词集合确定模块，被配置为使用所述采样概率在所述词全集中、除所述第一词集合中的词以外的词中采样，以确定所述对照词集合。

18.根据权利要求12所述的装置，还包括：

第二词向量集合获取模块，被配置为获取与第二词集合对应的第二词向量集合，所述第二词集合来自第二语料，所述第二词集合中的词在语言学上不具有顺序关系，并且所述第二词集合与所述第一词集合相关联；

第三概率分布生成模块，被配置为针对所述第二词向量集合中的每个词向量，使用所述词嵌入模型生成降低维度的词向量，并且使用所述降低维度的词向量生成所述第二词向量集合中的其他词向量在所述第二词向量集合中的第三概率分布；以及

第四参数调整模块，被配置为调整所述词嵌入模型的参数，使得使用经调整的所述词嵌入模型生成的所述第三概率分布与通过所述第二词向量集合中的词向量的数量确定的所述其他词向量的第四概率分布的差别尽可能小。

19.根据权利要求12所述的装置，还包括：

第五概率分布生成模块，被配置为针对所述第一词集合和所述第二词向量集合的词向量并集中的每个词向量，使用所述词嵌入模型生成降低维度的词向量，并且使用所述降低维度的词向量生成所述词向量并集中的其他词向量在所述词向量并集中的第五概率分布；以及

第五参数调整模块，被配置为调整所述词嵌入模型的参数，使得使用经调整的所述词嵌入模型生成的所述第五概率分布与通过所述词向量并集中的词向量的数量确定的所述其他词向量的第六概率分布的差别尽可能小。

20.根据权利要求12所述的装置，其中所述第一参数调整模块被配置为使用梯度下降装置调整所述参数。

21.根据权利要求12所述的装置，其中所述词为技能词。

22.一种词向量确定装置，被配置为使用由根据权利要求12至21中的任一权利要求所述的模型训练装置训练训练的词嵌入模型，针对词向量确定降低维度的词向量。

23.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。

24.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求11所述的方法。

25.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-10中任一项所述的方法。

26.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求11所述的方法。

27.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时，执行权利要求1-10中任一项所述的方法。

28.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时，执行权利要求11所述的方法。