CN112668320B

CN112668320B - 基于词嵌入的模型训练方法、装置、电子设备及存储介质

Info

Publication number: CN112668320B
Application number: CN202011560095.4A
Authority: CN
Inventors: 陈浩; 谯轶轩; 高鹏
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2024-02-02
Anticipated expiration: 2040-12-25
Also published as: CN112668320A; WO2022134360A1

Abstract

本申请适用于人工智能技术领域，提供一种基于词嵌入的模型训练方法、装置、电子设备及存储介质，其中方法包括：基于查询项及与查询项匹配的数据匹配项，分词得到模型训练词表；将模型训练词表中的目标词输入至待训练模型，分别从待训练模型中已初始化的词向量矩阵、查询项向量矩阵及数据匹配项向量矩阵中获取与目标词关联的向量表示；对向量表示进行拼接，并通过待训练模型进行特征交叉融合，得到目标词向量表示；基于目标词向量表示，获取待训练模型中查询项向量矩阵及数据匹配项向量矩阵中的向量表示参数，得到包含所述向量表示参数的训练后的模型。该方案能够提升文本匹配结果的准确度，满足文本匹配需求。

Description

基于词嵌入的模型训练方法、装置、电子设备及存储介质

技术领域

本申请属于人工智能技术领域，尤其涉及一种基于词嵌入的模型训练方法、装置、电子设备及存储介质。

背景技术

文本匹配一直以来是搜索引擎、推荐系统等信息检索领域的热点任务之一，主要是针对用户给定的查询项(query)，利用模型从数据库中匹配出相似度较高的文档(document)返回给用户。整个流程中包括用于将文本进行匹配筛选和将召回结果进行排序的召回及排序两个模式。

在召回模式中，现有的基于词嵌入召回方法主要是利用word2vec模型获取每个词的向量表示，然后将query和document中的所有词向量求和取均值，进而得到query和document的向量表示，最后通过计算向量相似性，选取相似度较高的document作为该模式的召回结果。该方法的主要优势在于能够通过无监督的训练模式，既不需要考量具体query和document等文本级别之间的匹配程度，也不需要大量的标注文本。

但在实际的真实场景中，每个query都蕴含着用户搜索信息，而数据库中的document则蕴含着笔者的主题思想，现有的词嵌入召回方法仅仅是依赖文本中的词向量信息，在基于词向量信息求和取均值得到的query和document的向量表示进行相似度匹配时，往往造成query和document之间仅能实现字面匹配，但核心思想却相差甚远，导致匹配结果准确度欠佳，不能满足文本匹配需求。

发明内容

本申请实施例提供了一种基于词嵌入的模型训练方法、装置、电子设备及存储介质，以解决现有技术中查询项与匹配内容之间仅能实现字面匹配，核心思想却相差甚远，匹配结果准确度欠佳，不能满足文本匹配需求的问题。

本申请实施例的第一方面提供了一种基于词嵌入的模型训练方法，包括：

基于查询项及与所述查询项匹配的数据匹配项，分词得到模型训练词表；

将所述模型训练词表中的目标词输入至待训练模型，分别从所述待训练模型中已初始化的词向量矩阵、查询项向量矩阵及数据匹配项向量矩阵中获取与所述目标词关联的向量表示；

对所述向量表示进行拼接，并将拼接后的向量表示通过所述待训练模型进行特征交叉融合，得到目标词向量表示；

基于所述目标词向量表示，在确定损失函数达到收敛状态时获取所述待训练模型中所述查询项向量矩阵及所述数据匹配项向量矩阵中的向量表示参数，得到包含所述向量表示参数的训练后的模型。

本申请实施例的第二方面提供了一种基于词嵌入的模型训练装置，包括：

分词模块，用于基于查询项及与所述查询项匹配的数据匹配项，分词得到模型训练词表；

第一模型训练模块，用于将所述模型训练词表中的目标词输入至待训练模型，分别从所述待训练模型中已初始化的词向量矩阵、查询项向量矩阵及数据匹配项向量矩阵中获取与所述目标词关联的向量表示；

第二模型训练模块，用于对所述向量表示进行拼接，并将拼接后的向量表示通过所述待训练模型进行特征交叉融合，得到目标词向量表示；

第三模型训练模块，用于基于所述目标词向量表示，在确定损失函数达到收敛状态时获取所述待训练模型中所述查询项向量矩阵及所述数据匹配项向量矩阵中的向量表示参数，得到包含所述向量表示参数的训练后的模型。

本申请实施例的第三方面提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述方法的步骤。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述方法的步骤。

本申请的第五方面提供了一种计算机程序产品，当所述计算机程序产品在电子设备上运行时，使得所述电子设备执行上述第一方面所述方法的步骤。

由上可见，本申请实施例中，基于查询项及与查询项匹配的数据匹配项，分词得到模型训练词表，将模型训练词表中的目标词输入至待训练模型，分别从待训练模型中已初始化的词向量矩阵、查询项向量矩阵及数据匹配项向量矩阵中获取与目标词关联的向量表示，对向量表示进行拼接，并通过待训练模型进行特征交叉融合，得到目标词向量表示，基于目标词向量表示，在确定损失函数达到收敛状态时获取待训练模型中查询项向量矩阵及数据匹配项向量矩阵中的向量表示参数，得到包含该些向量表示参数的训练后的模型。该过程中，在模型中词向量矩阵基础上增加查询项向量矩阵及数据匹配项向量矩阵，并在模型训练过程中实现将词向量表示、查询项向量表示及数据匹配项向量表示三者进行特征融合，在模型实现收敛时，借助于模型训练的完成，实现对模型中查询项向量矩阵及数据匹配项向量矩阵中向量表示参数的确定，使其具备有特征融合特性，能够有效地将查询项中用户的搜索信息和匹配文档中笔者的主题思想融入到各自对应的向量表示中，提升文本匹配结果的准确度，满足文本匹配需求。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种基于词嵌入的模型训练方法的流程图一；

图2是本申请实施例提供的待训练模型的架构图；

图3是本申请实施例提供的一种基于词嵌入的模型训练方法的流程图二；

图4是本申请实施例提供的一种基于词嵌入的模型训练装置的结构图；

图5是本申请实施例提供的一种电子设备的结构图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

具体实现中，本申请实施例中描述的电子设备包括但不限于诸如具有触摸敏感表面(例如，触摸屏显示器和/或触摸板)的移动电话、膝上型计算机或平板计算机之类的其它便携式设备。还应当理解的是，在某些实施例中，所述设备并非便携式通信设备，而是具有触摸敏感表面(例如，触摸屏显示器和/或触摸板)的台式计算机。

在接下来的讨论中，描述了包括显示器和触摸敏感表面的电子设备。然而，应当理解的是，电子设备可以包括诸如物理键盘、鼠标和/或控制杆的一个或多个其它物理用户接口设备。

电子设备支持各种应用程序，例如以下中的一个或多个：绘图应用程序、演示应用程序、文字处理应用程序、网站创建应用程序、盘刻录应用程序、电子表格应用程序、游戏应用程序、电话应用程序、视频会议应用程序、电子邮件应用程序、即时消息收发应用程序、锻炼支持应用程序、照片管理应用程序、数码相机应用程序、数字摄影机应用程序、web浏览应用程序、数字音乐播放器应用程序和/或数字视频播放器应用程序。

可以在电子设备上执行的各种应用程序可以使用诸如触摸敏感表面的至少一个公共物理用户接口设备。可以在应用程序之间和/或相应应用程序内调整和/或改变触摸敏感表面的一个或多个功能以及电子设备上显示的相应信息。这样，电子设备的公共物理架构(例如，触摸敏感表面)可以支持具有对用户而言直观且透明的用户界面的各种应用程序。

应理解，本实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

为了说明本申请所述的技术方案，下面通过具体实施例来进行说明。

参见图1，图1是本申请实施例提供的一种基于词嵌入的模型训练方法的流程图一。如图1所示，一种基于词嵌入的模型训练方法，该方法包括以下步骤：

步骤101，基于查询项及与查询项匹配的数据匹配项，分词得到模型训练词表。

该查询项可以是在搜索引擎或者页面搜索栏中输入的查询语句，该数据匹配项为与查询项中查询条件相匹配的搜索结果或页面内容。

例如，采用百度搜索，输入一个查询文本(query)，搜索引擎返回对应的答案列表就可以表示为数据匹配项(documents)列表，每个答案的曝光和点击数量后台是可以统计出来的，将符合条件的内容作为与查询项匹配的数据匹配项。我们的目的是计算出每个query的向量表示，和每个document的向量表示，然后算相似性。以能够在后续模型训练完毕后，某个用户搜索一个query，就能直接获取与这个query相似性较高的document并展示给该用户。

作为一可选的实施方式，其中，该基于查询项及与查询项匹配的数据匹配项，分词得到模型训练词表，包括：

获取数据集，该数据集中包含查询项及与每一查询项相匹配的数据匹配项；对数据集中每一查询项及相匹配的数据匹配项进行分词处理，得到语句构建词；对任一语句构建词，依照设定大小的选取窗口从语句构建词的上下文中选取第一目标词作为正样例，从语句构建词的非上下文中选取第二目标词作为负样例；将语句构建词及与每一语句构建词对应的正样例及负样例作为目标词，生成包含该目标词的模型训练词表。

在对模型训练语料(即模型训练词表)进行构建时，除了将分词得到的词本身作为目标词，还将从各个词的上下文中选取出的关联词作为正样例，将从各个词的非上下文中选取出的非关联词作为负样例。以在后续模型训练过程中，正样例与负样例构成各个词的参照量。

具体地，其中，获取数据集时，需要对数据集进行构造。具体为：

获取搜索引擎中搜索频率在前α_q％的热门query，且统计query下每个文本的点击率ρ，其中，ρ＝n_c/n_s，n_c和n_s分别表示该文本的点击数量和曝光数量，对于每个query，本发明选取n_s≥α_s且ρ≥α_ρ的文本作为该query的document。

其中，α_q，α_s,α_ρ分别表query，曝光数量和点击率的筛选阈值。最终本发明的数据集G具体可表示为：G＝{(q₁,D₁),…,(q_i,D_i),…,(q_n,D_n)}，其中，(q_i,D_i)表示数据集G中第i个query和其所对应的document列表，n表示数据集中query个数，D_i＝[d_i1,…,d_ij,…d_im]，d_ij表示第i个query对应的第j条document，m则表示该query对应的document条数。

数据集构造完毕后，对其中的数据做分词处理。由于互联网数据中蕴含着大量的无用字符，因此需要对数据集G中的任一query和document文本先进行包括去停用词、去标点符号等在内的预处理，预处理完毕后对其进行分词。最终的数据集G中文本可表示为[w₁,w₂,…,w_l],其中，w表示为预处理后的词或者词语(token)，l表示预处理后的文本长度。

统计分词后得到的数据集G中每个token的频率，选取词频大于δ的词构建初始词表V，初始词表中词的总个数为q。且对于其中的任一tokenw，取其上下文窗口为ε的tokenw_p作为正样例,即w_p∈(w；ε)，然后随机抽取非w上下文的token w_n作为负样例,即将该正样例、负样例及初始词表中的词均作为目标词，得到包含该目标词的模型训练词表。在后续模型训练过程中，一个词与其对应的正样例与负样例作为一组数据，正样例与负样例均需输入至模型中得到对应的结果，该结果形成为该一个词输出至模型后所输出结果的正负参照。

步骤102，将模型训练词表中的目标词输入至待训练模型，分别从待训练模型中已初始化的词向量矩阵、查询项向量矩阵及数据匹配项向量矩阵中获取与目标词关联的向量表示。

结合图2所示，该待训练模型中，与传统的词嵌入矩阵不同，本申请实施例中在基本的词向量矩阵E_t的基础上，引入了针对文本匹配中的查询项向量矩阵E_q和数据匹配项向量矩阵E_d，其中，E_t∈R^(q+1)×k,E_q∈R^(n+1)×k,E_d∈R^(τ+1)×k,q为V中token的总个数，n为数据集G中query个数，τ则为数据集G中document个数，k表示模型向量矩阵维度，其中考虑到后续中可能会需要在数据集中添加未出现的token、query和document的数据，这里每个向量矩阵都特别增加一维度。

其中，该待训练模型中的上述三个向量矩阵是后续要训练的模型参数，在训练结束后会得到。

在基于模型训练词对模型进行训练时，需要先对待训练模型中上述三个模型矩阵中的数值进行初始化。在将模型训练词表中的目标词输入至待训练模型之后，分别从三个矩阵中获取与目标词自身对应的向量表示。

其中，词向量矩阵、查询项向量矩阵及数据匹配项向量矩阵中均包含若干个向量表示。其中的每一个词向量表示对应一个目标词，每一个查询项向量表示对应于一个查询项，每一个数据匹配项向量表示对应一条数据匹配项。

由于目标词为对数据集G中所包含的每一查询项及数据匹配项进行分词处理得到的内容，因此目标词包含于查询项或数据匹配项中，而查询项与数据匹配项之间又具有互相匹配的关联关系，因此基于该些关系，可以从已初始化的词向量矩阵、查询项向量矩阵及数据匹配项向量矩阵中找到与目标词相关联的向量表示。

对应地，作为一可选的实施方式，该分别从待训练模型中已初始化的词向量矩阵、查询项向量矩阵及数据匹配项向量矩阵中获取与目标词关联的向量表示，包括：

从词向量矩阵中查找与目标词对应的词向量表示；从查询项向量矩阵中查找与包含该目标词的第一查询项对应的第一查询项向量表示；从该数据匹配项向量矩阵中查找与第一查询项匹配的第一数据匹配项对应的第一数据匹配项向量表示。

或者，该分别从待训练模型中已初始化的词向量矩阵、查询项向量矩阵及数据匹配项向量矩阵中获取与目标词关联的向量表示，包括：

从词向量矩阵中查找与目标词对应的词向量表示；从数据匹配项向量矩阵中查找与包含目标词的第二数据匹配项对应的第二数据匹配项向量表示；从查询项向量矩阵中查找与第二数据匹配项匹配的第二查询项对应的第二查询项向量表示。

步骤103，对向量表示进行拼接，并将拼接后的向量表示通过待训练模型进行特征交叉融合，得到目标词向量表示。

这里，需要对上一步骤中得到的三个向量表示进行拼接，以对拼接后的向量表示进行特征交叉融合，将查询项和数据匹配项中所包含的笔者思想融合至最终得到的词向量表示中。

该过程实现词嵌入融合。具体地，对于任一tokenw，分别从token向量矩阵和query向量矩阵以及document向量矩阵获取其对应的向量表示，融合方式为向量拼接，同时如果一个token出现在多个query或者document中，则将对应的多个query或者多个document的向量表示取平均值得到对应的query向量表示或document向量表示。

例如为“高兴”这个token出现在两个query中。

query1:今天是周末，你高兴吗？

query2:我看到了明星，非常高兴。

那么，‘高兴’这个token的query向量表示，就是将query1和query2两个句子向量求和除2(即取平均值)。

进一步地，将向量表示的拼接结果输入多层感知机网络(multi layer perceptron，mlp)中，可以将多维度的向量特征相互交叉融合，利用激活函数做非线性转换，最终表示为：

w^*＝f(E_t(w)||E_q(w)||(E_d(w))

其中，||表示向量拼接操作，w^*∈R^k，f表示多层感知机网络。不失一般性，将前述中的正样例w_p和负样例w_n输入至待训练模型中，结合图2所示，分别通过输入到模型中的向量矩阵和多层感知机网络中，得到其对应的向量表示，可表示为和/>

步骤104，基于目标词向量表示，在确定损失函数达到收敛状态时获取待训练模型中查询项向量矩阵及数据匹配项向量矩阵中的向量表示参数，得到包含该些向量表示参数的训练后的模型。

该步骤中，基于前述过程中构造的数据集G，通过构造的损失函数，利用Adamoptimizer和Tensor Flow框架进行模型训练，迭代更新模型参数，直到模型的损失收敛为止。

该过程中，在训练词向量的时候，对于某个query或document，假设里面包含某个关键词token，模型在更新token词向量的时候，同时也在更新该query或document的向量表示。通过在模型中设置除词向量矩阵之外的查询项向量矩阵及数据匹配项向量矩阵，借助于模型中词向量矩阵的参数训练完成，在使得词向量表示具有特征融合特性，能够体现出笔者主题思想的情况下，在模型实现收敛时，同时实现对模型中查询项向量矩阵及数据匹配项向量矩阵中模型参数(即向量表示参数)的确定，使其同样具备有特征融合特性，能够有效地将查询项中用户的搜索信息和匹配文档中笔者的主题思想融入到各自对应的向量表示中，提升模型利用时文本匹配结果的准确度，满足文本匹配需求。

作为一可选的实施方式，其中目标词向量中包括基于语句构建词生成的第一目标词向量表示、基于正样例生成的第二目标词向量表示及基于负样例生成的第三目标词向量表示。即，在将语句构建词输入至模型中的同时，也将与其对应的正样例和负样例输入至模型中，分别得到当前的语句构建词及其正样例、负样例所分别对应的目标词向量表示。

对应地，在该前提下，基于目标词向量表示，确定损失函数达到收敛状态，包括：

通过第一目标词向量表示、第二目标词向量表示及第三目标词向量表示，确定如下交叉熵损失函数达到收敛状态：

其中，w^*为第一目标词向量表示，为第二目标词向量表示，/>为第三目标词向量表示，w为语句构建词，w_p为正样例，w_n为负样例，ε为选取窗口的设定大小，θ为模型训练的参数，包括词向量矩阵、查询项向量矩阵及数据匹配项向量矩阵的参数和mlp网络中的参数，特别地，这里主要包括述待训练模型中查询项向量矩阵及数据匹配项向量矩阵中的向量表示参数。

其中，设置正样例w_p的标签定义为1，负样例w_n的标签则为0。将正样例的输出结果负样例的输出结果/>作为语句构建词的输出结果w^*的参照，以对当前语句构建词最终生成的目标词向量表示做出0、1判断，去指导模型参数的调整优化。

本申请实施例中，基于查询项及与查询项匹配的数据匹配项，分词得到模型训练词表，将模型训练词表中的目标词输入至待训练模型，分别从待训练模型中已初始化的词向量矩阵、查询项向量矩阵及数据匹配项向量矩阵中获取与目标词关联的向量表示，对向量表示进行拼接，并通过待训练模型进行特征交叉融合，得到目标词向量表示，基于目标词向量表示，在确定损失函数达到收敛状态时获取待训练模型中查询项向量矩阵及数据匹配项向量矩阵中的向量表示参数，得到训练后的模型。该过程中，在模型中词向量矩阵基础上增加查询项向量矩阵及数据匹配项向量矩阵，并在模型训练过程中实现将词向量表示、查询项向量表示及数据匹配项向量表示三者进行特征融合，在模型实现收敛时，借助于模型训练的完成，实现对模型中查询项向量矩阵及数据匹配项向量矩阵中向量表示参数的确定，使其具备有特征融合特性，能够有效地将查询项中用户的搜索信息和匹配文档中笔者的主题思想融入到各自对应的向量表示中，提升文本匹配结果的准确度，满足文本匹配需求。

本申请实施例中还提供了基于词嵌入的模型训练方法的不同实施方式。

参见图3，图3是本申请实施例提供的一种一种基于词嵌入的模型训练方法的流程图二。如图3所示，一种基于词嵌入的模型训练方法，该方法包括以下步骤：

步骤301，基于查询项及与查询项匹配的数据匹配项，分词得到模型训练词表。

该步骤的实现过程与前述实施方式中的步骤101的实现过程相同，此处不再赘述。

步骤302，将模型训练词表中的目标词输入至待训练模型，分别从待训练模型中已初始化的词向量矩阵、查询项向量矩阵及数据匹配项向量矩阵中获取与目标词关联的向量表示。

该步骤的实现过程与前述实施方式中的步骤102的实现过程相同，此处不再赘述。

步骤303，对向量表示进行拼接，并将拼接后的向量表示通过待训练模型进行特征交叉融合，得到目标词向量表示。

该步骤的实现过程与前述实施方式中的步骤103的实现过程相同，此处不再赘述。

步骤304，基于目标词向量表示，在确定损失函数达到收敛状态时获取待训练模型中查询项向量矩阵及数据匹配项向量矩阵中的向量表示参数，得到包含该些向量表示参数的训练后的模型。

该步骤的实现过程与前述实施方式中的步骤104的实现过程相同，此处不再赘述。

步骤305，获取前端输入的目标查询项，及待与目标查询项匹配的目标数据匹配项。

这里，在当待训练模型训练完毕，确定出模型参数之后，可以对训练好的模型中的模型参数进行利用。

具体地，后续步骤中具体应用的是待训练模型中查询项向量矩阵及数据匹配项向量矩阵中的向量表示参数。

该待与目标查询项匹配的目标数据匹配项，为需要与前端输入的目标查询项进行匹配的目标数据匹配项。该目标数据匹配项为多个，需要从中选取出相似度位于前若干位的匹配项作为匹配结果进行输出。

步骤306，基于查询项向量矩阵与数据匹配项向量矩阵中的向量表示参数，生成与目标查询项对应的目标查询项向量及与目标数据匹配项对应的目标数据匹配项向量。

在获取到当前用户输入的目标查询项之后，即可利用具备特征融合特性的该些查询项向量矩阵的向量表示参数，将目标查询项输入至具备该向量表示参数的查询项向量矩阵中得到对应的目标查询项向量；在获取到当前用户输入的目标查询项之后，即可利用具备特征融合特性的该些数据匹配项向量矩阵的向量表示参数，将待与目标查询项匹配的目标数据匹配项输入至具备该向量表示参数的数据匹配项向量矩阵中得到对应的目标数据匹配项向量，以通过向量进行相似度判断。

步骤307，基于目标查询项向量与目标数据匹配项向量的内积，对目标数据匹配项进行相似度排序，得到排序结果。

步骤308，根据排序结果，从目标数据匹配项中确定目标数据，并将目标数据输出至前端。

该过程，促进在利用该些向量表示参数获取查询项与匹配内容的向量表示时，能够确保得到的向量表示中能够体现出句子蕴含的核心思想，进而提高文本匹配任务的精确度。

上述各步骤在训练词向量阶段，相较传统word2vec模型，本申请实施例提出的方法能够将query信息和document信息融入到词向量中，可以有效的将多个信息融合，方便其在下游任务中直接使用，使其更适用于信息检索任务中的文本匹配场景，有效的提高了下游文本任务模型的精确度和匹配效率。

本申请实施例通过模型训练，能够通过确定得到的矩阵参数，在后续运用时直接获取query和document对应的向量表示，也能将文本中的token信息有效融合其中，减少了现有技术对词向量取均值间接生成query和document向量表示过程中词语间信息的损失，能够有效的将用户的搜索信息和笔者的主题思想进行匹配。

参见图4，图4是本申请实施例提供的一种基于词嵌入的模型训练装置的结构图，为了便于说明，仅示出了与本申请实施例相关的部分。

该基于词嵌入的模型训练方法装置400包括：

分词模块401，用于基于查询项及与所述查询项匹配的数据匹配项，分词得到模型训练词表；

第一模型训练模块402，用于将所述模型训练词表中的目标词输入至待训练模型，分别从所述待训练模型中已初始化的词向量矩阵、查询项向量矩阵及数据匹配项向量矩阵中获取与所述目标词关联的向量表示；

第二模型训练模块403，用于对所述向量表示进行拼接，并将拼接后的向量表示通过所述待训练模型进行特征交叉融合，得到目标词向量表示；

第三模型训练模块404，用于基于所述目标词向量表示，在确定损失函数达到收敛状态时获取所述待训练模型中所述查询项向量矩阵及所述数据匹配项向量矩阵中的向量表示参数，得到包含所述向量表示参数的训练后的模型。

该装置还包括：数据查询模块，用于：

获取前端输入的目标查询项，及待与所述目标查询项匹配的目标数据匹配项；

基于所述查询项向量矩阵与所述数据匹配项向量矩阵中的向量表示参数，生成与所述目标查询项对应的目标查询项向量及与所述目标数据匹配项对应的目标数据匹配项向量；

基于所述目标查询项向量与所述目标数据匹配项向量的内积，对所述目标数据匹配项进行相似度排序，得到排序结果；

根据所述排序结果，从所述目标数据匹配项中确定目标数据，并将所述目标数据输出至所述前端。

其中，第一模型训练模块402，具体用于：

从所述词向量矩阵中查找与所述目标词对应的词向量表示；

从所述查询项向量矩阵中查找与包含所述目标词的第一查询项对应的第一查询项向量表示；

从所述数据匹配项向量矩阵中查找与所述第一查询项匹配的第一数据匹配项对应的第一数据匹配项向量表示。

其中，第一模型训练模块402，还具体用于：

从所述词向量矩阵中查找与所述目标词对应的词向量表示；

从所述数据匹配项向量矩阵中查找与包含所述目标词的第二数据匹配项对应的第二数据匹配项向量表示；

从所述查询项向量矩阵中查找与所述第二数据匹配项匹配的第二查询项对应的第二查询项向量表示。

其中，分词模块401，具体用于：

获取数据集，所述数据集中包含查询项及与每一所述查询项相匹配的数据匹配项；

对所述数据集中每一所述查询项及相匹配的数据匹配项进行分词处理，得到语句构建词；

对任一所述语句构建词，依照设定大小的选取窗口从所述语句构建词的上下文中选取第一目标词作为正样例，从所述语句构建词的非上下文中选取第二目标词作为负样例；

将所述语句构建词及与每一所述语句构建词对应的正样例及负样例作为所述目标词，生成包含所述目标词的模型训练词表。

其中，所述目标词向量表示中包括基于所述语句构建词生成的第一目标词向量表示、基于所述正样例生成的第二目标词向量表示及基于所述负样例生成的第三目标词向量表示。

其中，第三模型训练模块404，具体用于：

通过所述第一目标词向量表示、所述第二目标词向量表示及所述第三目标词向量表示，确定如下交叉熵损失函数达到收敛状态：

其中，w^*为所述第一目标词向量表示，为所述第二目标词向量表示，/>为所述第三目标词向量表示，w为所述语句构建词，w_p为所述正样例，w_n为所述负样例，ε为所述选取窗口的设定大小，θ为所述待训练模型中的训练参数，所述训练参数包括所述向量表示参数。

本申请实施例提供的基于词嵌入的模型训练装置能够实现上述基于词嵌入的模型训练方法的实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

图5是本申请实施例提供的一种电子设备的结构图。如该图所示，该实施例的电子设备5包括：至少一个处理器50(图5中仅示出一个)、存储器51以及存储在所述存储器51中并可在所述至少一个处理器50上运行的计算机程序52，所述处理器50执行所述计算机程序52时实现上述任意各个方法实施例中的步骤。

所述电子设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述电子设备5可包括，但不仅限于，处理器50、存储器51。本领域技术人员可以理解，图5仅仅是电子设备5的示例，并不构成对电子设备5的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述电子设备还可以包括输入输出设备、网络接入设备、总线等。

所述处理器50可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器51可以是所述电子设备5的内部存储单元，例如电子设备5的硬盘或内存。所述存储器51也可以是所述电子设备5的外部存储设备，例如所述电子设备5上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器51还可以既包括所述电子设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机程序以及所述电子设备所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/电子设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/电子设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序产品来实现，当计算机程序产品在电子设备上运行时，使得所述电子设备执行时实现可实现上述各个方法实施例中的步骤。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种基于词嵌入的模型训练方法，其特征在于，包括：

基于所述目标词向量表示，在确定损失函数达到收敛状态时获取所述待训练模型中所述查询项向量矩阵及所述数据匹配项向量矩阵中的向量表示参数，得到包含所述向量表示参数的训练后的模型；

其中，所述基于查询项及与所述查询项匹配的数据匹配项，分词得到模型训练词表，包括：

将所述语句构建词及与每一所述语句构建词对应的正样例及负样例作为所述目标词，生成包含所述目标词的模型训练词表；

所述目标词向量表示中包括基于所述语句构建词生成的第一目标词向量表示、基于所述正样例生成的第二目标词向量表示及基于所述负样例生成的第三目标词向量表示；

基于所述目标词向量表示，确定损失函数达到收敛状态，包括：

2.根据权利要求1所述的模型训练方法，其特征在于，所述基于所述目标词向量表示，在确定损失函数达到收敛状态时获取所述待训练模型中所述查询项向量矩阵及所述数据匹配项向量矩阵中的向量表示参数之后，还包括：

3.根据权利要求1所述的模型训练方法，其特征在于，所述分别从所述待训练模型中已初始化的词向量矩阵、查询项向量矩阵及数据匹配项向量矩阵中获取与所述目标词关联的向量表示，包括：

从所述词向量矩阵中查找与所述目标词对应的词向量表示；

4.根据权利要求1所述的模型训练方法，其特征在于，所述分别从所述待训练模型中已初始化的词向量矩阵、查询项向量矩阵及数据匹配项向量矩阵中获取与所述目标词关联的向量表示，包括：

从所述词向量矩阵中查找与所述目标词对应的词向量表示；

5.一种基于词嵌入的模型训练装置，其特征在于，包括：

第三模型训练模块，用于基于所述目标词向量表示，在确定损失函数达到收敛状态时获取所述待训练模型中所述查询项向量矩阵及所述数据匹配项向量矩阵中的向量表示参数，得到包含所述向量表示参数的训练后的模型；

所述分词模块，具体用于：

其中，所述目标词向量表示中包括基于所述语句构建词生成的第一目标词向量表示、基于所述正样例生成的第二目标词向量表示及基于所述负样例生成的第三目标词向量表示；

其中，所述第三模型训练模块，具体用于：

6.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述方法的步骤。

7.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述方法的步骤。