CN112380319B

CN112380319B - 一种模型训练的方法及相关装置

Info

Publication number: CN112380319B
Application number: CN202011261109.2A
Authority: CN
Inventors: 谯轶轩; 陈浩; 高鹏
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2023-10-17
Anticipated expiration: 2040-11-12
Also published as: WO2021204014A1; CN112380319A

Abstract

本申请实施例提供了一种模型训练的方法及相关装置。上述方法包括：从待处理数据集中获取待训练样本，使用第一模型获得用于表示上述待训练样本的向量，上述待处理数据集包含的样本包括正样本和负样本；在上述待训练样本为正样本的情况下，将上述表示上述待训练样本的向量输入第二模型生成用于表示上述待训练样本的对抗样本的向量；将上述用于表示上述待训练样本的对抗样本的向量输入第三模型，得到输出值；根据上述输出值确定上述第一模型，上述第二模型和上述第三模型收敛。本申请所提供的方法和装置，通过改进模型训练中样本的生成方法，提高模型训练的难度，从而增强模型的鲁棒性。

Description

一种模型训练的方法及相关装置

技术领域

本发明实施例涉及信息检索领域，具体涉及一种基于对抗的模型训练的方法及相关装置。

背景技术

文本匹配是信息检索领域的核心问题。文本匹配可以归结为查询项和文档的匹配，即通过文本匹配模型对查询项和文档给出匹配分数，匹配分数越高，查询项与文档的相关性越强。

基于BM25(一种用来评价搜索词和文档之间相关性的算法)的文本匹配模型只能在查询项和文档具有重复词的情况下对两者进行匹配；基于深度学习的文本匹配模型则可以将语义相似的词或词组进行匹配。深度学习模型本身参数量大，需要大量数据对模型进行充分训练，对上述基于深度学习的文本匹配模型构建样本进行训练时，正样本为用户真实点击的文档，负样本为所有文档中随机抽取的文档；但是，随着上述负样本数量的增加，上述基于深度学习的文本匹配模型对查询项和相对应的真实文档之间的语义理解能力下降，对相似的文档给出的匹配分数差别大，即模型的鲁棒性降低。

发明内容

本申请实施例公开了一种模型训练的方法及相关装置，通过改进模型训练中样本的生成方法，提高模型训练的难度，从而增强模型的鲁棒性。

第一方面，本申请实例公开了一种模型训练的方法，包括：

获取待处理数据集，上述待处理数据集包含的样本包括正样本和负样本；

从上述待处理数据集中获取待训练样本，使用第一模型获得用于表示上述待训练样本的向量；

在上述待训练样本为正样本的情况下，将上述表示上述待训练样本的向量输入第二模型生成用于表示上述待训练样本的对抗样本的向量；

将上述用于表示上述待训练样本的对抗样本的向量输入第三模型，得到输出值；

根据上述输出值确定上述待训练样本的分损失值，计算上述待处理数据集中所有样本的分损失值求和，得到总损失值；

在前后两次获得的总损失值之间的差值小于阈值的情况下，确定上述第一模型，上述第二模型和上述第三模型收敛。

本申请实施例中，由第三模型输出的值都统一称为输出值，根据上述输出值确定的分损失值都统一称为上述待训练样本的分损失值，不特殊区分上述待处理数据集中样本是否经过对抗样本的生成处理。

在第一方面的又一种可能的实施方式中，上述方法还包括：

将上述对抗样本标记为上述待处理数据集的负样本。

在第一方面的又一种可能的实施方式中，上述在上述待训练样本为正样本的情况下，将上述表示上述待训练样本的向量输入第二模型生成用于表示上述待训练样本的对抗样本的向量，包括：

在上述待训练样本为正样本的情况下，对服从伯努利分布的随机变量抽取参考值，所述伯努利分布服从的参数小于第二阈值；

在上述参考值为1的情况下，将上述表示上述待训练样本的向量输入第二模型生成用于表示上述待训练样本的对抗样本的向量。

在第一方面的又一种可能的实施方式中，上述方法还包括：

在上述参考值为0的情况下，将上述表示上述待训练样本的向量输入第三模型，得到输出值。

在第一方面的又一种可能的实施方式中，上述方法还包括：

在上述待训练样本为负样本的情况下，将上述用于表示上述待训练样本的向量输入第三模型，得到输出值。

在第一方面的又一种可能的实施方式中，上述待训练样本包含查询项和文档项；

上述表示上述待训练样本的向量包括：上述查询项对应的向量，以及上述文档项对应的向量；

上述第一模型包括循环神经网络模型，上述第二模型包括变分编解码模型，上述第三模型包括深度神经网络模型。

在第一方面的又一种可能的实施方式中，上述用第一模型获得用于表示上述待训练样本的向量，包括：

将上述查询项和上述文档项输入循环神经网络模型得到上述查询项对应的向量作为第三向量，以及得到上述文档项对应的向量作为第四向量。

在第一方面的又一种可能的实施方式中，上述将上述用于表示上述待训练样本的向量输入第三模型，得到输出值，包括：

将上述第三向量和上述第四向量合并得到第五向量，将上述第五向量输入深度卷积模型得到向量作为输出值。

在第一方面的又一种可能的实施方式中，上述用于表示上述待训练样本的对抗样本的向量包括上述第三向量，以及表示上述待训练样本对应的对抗文档的向量。

在第一方面的又一种可能的实施方式中，上述将上述用于表示上述待训练样本的对抗样本的向量输入第三模型，得到输出值，包括：

将上述第三向量和上述表示上述待训练样本对应的对抗文档的向量合并得到第六向量，将上述第六向量输入第三模型得到的向量作为输出值。

在第一方面的又一种可能的实施方式中，上述根据上述输出值确定上述待训练样本的分损失值，计算上述待处理数据集中所有样本的分损失值求和，得到总损失值，包括：

将上述输出值对应的向量作为第一向量，将上述待训练样本的标签进行独热编码得到第二向量，上述第一向量与上述二向量的向量维数相同；

将上述第一向量与上述第二向量中相同维数的值相乘再相加，得到上述待训练样本的分损失值；

计算上述待处理数据集中所有样本的分损失值求和，得到总损失值。

第二方面，本申请实施例公开了一种模型训练的装置，包括：

获取单元，用于获取待处理数据集，从上述待处理数据集中获取待训练样本，使用第一模型获得用于表示上述待训练样本的向量，上述待处理数据集包含的样本包括正样本和负样本；

处理单元，用于在上述待训练样本为正样本的情况下，将上述表示上述待训练样本的向量输入第二模型生成用于表示上述待训练样本的对抗样本的向量；将上述用于表示上述待训练样本的对抗样本的向量输入第三模型，得到输出值；

计算单元，用于根据上述输出值确定上述待训练样本的分损失值，计算上述待处理数据集中所有样本的分损失值求和，得到总损失值；

确定单元，用于在前后两次获得的总损失值之间的差值小于阈值的情况下，确定上述第一模型，上述第二模型和上述第三模型收敛。

在第二方面的又一种可能的实施方式中，上述装置还包括：

标记单元，用于将上述对抗样本标记为上述待处理数据集的负样本。

在第二方面的又一种可能的实施方式中，上述处理单元，还用于在上述待训练样本为正样本的情况下，对服从伯努利分布的随机变量抽取参考值，所述伯努利分布服从的参数小于第二阈值；在上述参考值为1的情况下，将上述表示上述待训练样本的向量输入第二模型生成用于表示上述待训练样本的对抗样本的向量。

在第二方面的又一种可能的实施方式中，上述处理单元，还用于在上述参考值为0的情况下，将上述表示上述待训练样本的向量输入第三模型，得到输出值。

在第二方面的又一种可能的实施方式中，上述处理单元，还用于在上述待训练样本为负样本的情况下，将上述用于表示上述待训练样本的向量输入第三模型，得到输出值。

在第二方面的又一种可能的实施方式中，上述待训练样本包含查询项和文档项；上述表示上述待训练样本的向量包括：上述查询项对应的向量，以及上述文档项对应的向量；上述第一模型包括循环神经网络模型，上述第二模型包括变分编解码模型，上述第三模型包括深度神经网络模型。

在第二方面的又一种可能的实施方式中，上述处理单元，还用于将上述查询项和上述文档项输入循环神经网络模型得到上述查询项对应的向量作为第三向量，以及得到上述文档项对应的向量作为第四向量。

在第二方面的又一种可能的实施方式中，上述处理单元，还用于将上述第三向量和上述第四向量合并得到第五向量，将上述第五向量输入深度卷积模型得到向量作为输出值。

在第二方面的又一种可能的实施方式中，上述用于表示上述待训练样本的对抗样本的向量包括上述第三向量，以及表示上述待训练样本对应的对抗文档的向量。

在第二方面的又一种可能的实施方式中，上述处理单元，还用于将上述第三向量和上述表示上述待训练样本对应的对抗文档的向量合并得到第六向量，将上述第六向量输入第三模型得到的向量作为输出值。

在第二方面的又一种可能的实施方式中，上述装置还包括：

编码单元，用于将上述输出值对应的向量作为第一向量，将上述待训练样本的标签进行独热编码得到第二向量，上述第一向量与上述二向量的向量维数相同；

上述计算单元，还用于将上述第一向量与上述第二向量中相同维数的值相乘再相加，得到上述待训练样本的分损失值；计算上述待处理数据集中所有样本的分损失值求和，得到总损失值。

第三方面，本申请实施例公开了一种服务器，包括：处理器和存储器，其中，上述存储器中存储有计算机程序，上述处理器调用上述存储器中存储的计算机程序，用于执行如第一方面或者第一方面的任意一种可能的实施方式中的方法。。

第四方面，本申请实施例公开了一种计算机可读存储介质，上述计算机可读存储介质中存储有计算机程序，当上述计算机程序在一个或多个处理器上运行时，执行如第一方面或者第一方面的任意一种可能的实施方式中的方法。

第五方面，本申请实施例公开了一种计算机程序产品，上述计算机程序产品包括程序指令，上述程序指令当被处理器执行时使上述处理器执行如第一方面或者第一方面的任意一种可能的实施方式中的方法。

综上所述，本申请提出的模型训练方法，基于数据集中的正样本生成对抗样本，可以提高生成的对抗文档与正样本原有文档的相似度，将对抗样本作为数据集的负样本，可以提高模型训练中负样本的质量；利用包含以对抗样本为负样本的数据集对模型进行训练，一方面可以提高模型训练的难度，从而提升模型的参数的更新效率；另一方面可以提高模型对边界数据的处理能力，从而提高模型的鲁棒性。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图作简单的介绍。

图1是本申请实施例公开的一种模型训练方法的流程示意图；

图2是本申请实施例公开的一种损失值计算方法的流程示意图；

图3是本申请实施例公开的另一种模型训练方法的流程示意图；

图4是本申请实施例公开的又一种模型训练方法的流程示意图；

图5是本申请实施例公开的一种模型训练的装置的结构示意图；

图6是本申请实施例公开的一种服务器的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地描述。

本申请的说明书、权利要求书及附图中的术语“第一”和“第二”等仅用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备等，没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元等，或可选地还包括对于这些过程、方法、产品或设备等固有的其它步骤或单元。

在本文中提及的“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现上述短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员可以显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上，“至少两个(项)”是指两个或三个及三个以上，“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”。

本申请实施例提供了一种模型训练的方法，通过改进模型训练中样本的生成方法，提高模型训练的难度，从而增强模型的鲁棒性。为了更清楚地描述本申请的方案，接下来将结合本申请实施例中的附图对本申请实施例进行描述。

请参阅图1，图1是本申请实施例公开的一种模型训练方法的流程示意图。如图1所示，上述方法包括：

S101：获取待处理数据集。

对于基于深度学习的模型来说，需要大量的数据对模型进行训练。上述训练模型的数据的集合可以称为数据集，为了模型的训练更加有效，需要对数据集进行处理，得到对模型的训练有效的正样本和负样本，本申请的处理方法包括：

从微软的文档排序任务公开数据集获取初始数据，上述数据集可以表示为M＝{(q₁，s₁)，(q₂，s₂)，...，(q_i，s_i)，...，(q_n，s_n)}，其中，q_i表示用户搜索的文本，即查询项；s_i表示搜索引擎返回的结果，即文档列表，n表示上述数据集中查询项的个数。对于任意一个由搜索引擎返回的结果s_i可以表示为：s_i＝{(d_i1，l_i1)，(d_i2，l_i2)，...，(d_ij，l_ij)，...，(d_im，l_im)}，其中，d_ij表示第i个查询项对应的第j个搜索结果，即文档项；l_ij为标签项，l_ij为1时，表示用户点击了该搜索结果，l_ij为0时，表示用户未点击该搜索结果；m表示该搜索结果中文档项的个数。

由于上述数据集中数据量庞大，每个查询项对应的文档项中可能包含了冗余信息，需要对上述数据集进行处理，得到对模型训练有效的正样本和负样本，具体的处理步骤包括：

1、对数据集中的查询项和文档项分别进行分词。

在上述分词部分，可以采用的分词工具包括结巴分词、盘古分词等，可以采用结巴分词模型对上述查询项和文档项分别进行分词，结巴分词基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况构成的有向无环图，再动态规划查找最大概率路径，找出基于词频的最大切分组合，由于上述结巴分词是一种非常典型的分词工具，具体原理这里不再赘述。

2、去掉上述分词的结果中的停用词。

常见的停用词表包括哈工大停用词表、百度停用词表、四川大学机器智能实验室停用词库等，可以首先采用哈工大停用词表对上述分词的结果进行初步过滤，再根据正则表达式以及人工筛选的方式，过滤掉上述分词结果中高频的网络词汇。由于上述过滤停用词的方法是非常典型的处理步骤，这里不再赘述。

3、对上述去除停用词的结果进行字体转换。

其中，可以采用opencc工具包将文本中的繁体中文转化为简体，同时，将文本中的大写英文字母转换为小写英文字母。由于上述方法是非常典型的处理步骤，这里不再赘述。

4、对数据集中的样本进行过滤。

一般情况下，对于某个具体的查询项q_i，搜索引擎返回的文档列表s_i的文档数量较大，并且包含大量无用的结果，可以采用文本匹配模型过滤的方式对数据集进行过滤，筛选出数据集中质量较高的结果。对于任一查询项q_i和与之对应的文档d_ij，两者的匹配分数可以表示为：

r_ij＝F(q_i，d_ij)

其中，r_ij表示查询项q_i和与之对应的文档d_ij的匹配分数，F为文本匹配模型BM25，上述BM25是一种用来评价搜索词和文档之间相关性的算法，通过对查询项进行分词，对每个分词与文档项的相关度对应的值进行加权求和得到查询项与文档项之间的匹配分数，由于上述BM25算法是典型的算法，具体原理这里不再赘述；可以对上述匹配分数设置阈值，将匹配分数超过阈值的查询项和文档项保留，作为数据集的样本。

通过上述文本匹配模型BM25对数据集进行过滤后，每一个查询项q_i对应的文档依然包含多个，但是相较于过滤之前，过滤之后的文档列表的文档数量少于过滤之前的文档列表的文档数量，并且，文档列表中的文档相对于查询项为质量较高的文档。

对于通过上述文本匹配模型BM25筛选出来的任一文档d_ij，将与之对应的查询项q_i和对应的用户点击结果l_ij组成的三元组(q_i，d_ij，l_ij)作为数据集中的一个样本，在l_ij为1时，表示用户点击了该搜索结果，该样本为正样本，l_ij为0时，表示用户未点击该搜索结果，该样本为负样本。过滤之后含有N个样本的数据集可以表示为：

M＝{(q₁，d₁，l₁)，(q₂，d₂，l₂)，...，(q_i，d_i，l_i)，...，(q_N，d_N，l_N)}

S102：从上述待处理数据集中获取待训练样本，使用第一模型获得用于表示上述待训练样本的向量。

其中，上述待训练样本为上述待处理数据集中任意一个样本；与步骤101中数据集的处理结果相对应，上述待训练样本包括查询项、文档项、标签项。

使用第一模型获得用于表示上述待训练样本的向量的具体实现方式为，将上述待训练样本的查询项和文档项输入第一模型，分别得到上述待训练样本的查询项对应的向量和上述待训练样本的文档项对应的向量，所以，用于表示上述待训练样本的向量包括上述查询项对应的向量和上述文档项对应的向量；上述第一模型包括循环神经网络(RecurrentNeural Network，RNN)模型，需要说明的是，除了上述RNN模型，还可以采用上述RNN模型变体模型：长短期记忆(Long short-term memory，LSTM)模型和门控循环单元(Gatedrecurrent unit，GRU)模型等；将上述查询项和文档项输入第一模型得到的用于表示上述待训练样本的向量相比未输入上述第一模型之前的查询项和文档项，包含了更多的信息，可以提高模型训练的效率。

S103：在上述待训练样本为正样本的情况下，将上述表示上述待训练样本的向量输入第二模型生成用于表示上述待训练样本的对抗样本的向量。

其中，可以通过标签项的取值来确定上述待训练样本是否为正样本，在上述待训练样本为1的情况下，上述待训练样本为正样本；在上述待训练样本为0的情况下，上述待训练样本为负样本，后续对待训练样本的类别判断方法相同。

将上述表示上述待训练样本的向量输入第二模型生成用于表示上述待训练样本的对抗样本的向量，包括将上述待训练样本的查询项的向量和上述待训练样本的文档项的向量合并，再输入第二模型，生成用于表示上述待训练样本的文档项对应的对抗文档的向量，得到用于表示上述待训练样本的对抗样本的向量，其中，用于表示上述待训练样本的对抗样本的向量包括上述待训练样本的查询项对应的向量和上述用于表示上述待训练样本的的文档项对应的对抗文档的向量。

上述第二模型包括变分编解码模型(Variational Encoder-Decoder，VED)，需要说明的是，除了上述VED模型用作对抗样本的生成器模型之外，还可以采用生成式对抗网络(Generative Adversarial Network，GAN)模型、自然语言处理领域的生成式的预训练(Generative Pre-Training，GPT)系列的模型，由于上述GAN模型、GPT系列的模型本身的计算量和参数量较大，训练难度较大，对于训练样本的文档相对较短的情况，上述VED模型为优选模型。

S104：将上述用于表示上述待训练样本的对抗样本的向量输入第三模型，得到输出值。

其中，上述第三模型包括深度神经网络(Deep Neural Networks，DNN)模型；上述输出值为一个维数大于或等于2的向量，本申请对上述向量具体的维数不作任何限定，将上述向量设定为二维向量为本申请的优选方式。

特别地，将上述待训练样本的对抗样本的向量输入第三模型时，将上述待训练样本的对抗样本的向量标记为负样本，以提高数据集中负样本的质量，从而提高模型训练的效率。

特别地，在上述待训练的样本为负样本的情况下，将上述用于表示上述待训练样本的向量输入第三模型，得到输出值。

S105：根据上述输出值确定上述待训练样本的分损失值，计算上述待处理数据集中所有样本的分损失值求和，得到总损失值。

需要说明的是，由第三模型输出的值都统一称为输出值，根据上述输出值确定的分损失值都统一称为上述待训练样本的分损失值，不特殊区分上述数据集中样本是否经过对抗样本的生成处理。

上述步骤的具体实现过程请参阅图2，图2是本申请实施例公开的一种损失值计算方法的流程示意图，如图所示，上述方法包括：

S201：将输出值对应的向量作为第一向量，将待训练样本的标签进行独热编码得到第二向量。

根据上述步骤104的描述，输出值对应的向量优选为一个二维向量，即第一向量；将待训练样本的标签进行独热编码，可以得到一个与输出值对应的向量相同维数的二维向量，即第二向量；独热编码用于优化离散型特征之间的距离，由于上述独热编码是一种常见的编码方式，具体原理不再赘述；具体实现过程中，在上述待训练样本为正样本，即标签为1的情况下，经过独热编码得到向量[1,0]，在上述待训练样本为负样本，即标签为0的情况下，经过独热编码得到向量[0,1]。

S202：将上述第一向量与上述第二向量中相同维数的值相乘再相加，得到上述待训练样本的分损失值。

由于上述第一向量与上述第二向量的维数相同，且优选为二维向量，将上述两个向量第一维的数据相乘，得到第一结果，将上述两个向量的第二维的数据相乘得到第二结果，上述第一结果加上上述第二结果即为上述待训练样本的分损失值。

特别地，具体过程中上述方法包括，在上述用于表示上述待训练样本的对抗样本的向量输入DNN模型后，首先得到一个二维预测向量，再将上述二维预测向量输入softmax(一种逻辑回归模型)层将上述二维预测向量中的每个值映射为大于0小于1之间的数，作为上述输出值对应的向量，即上述第一向量。例如上述DNN模型首先输出的二维预测向量为[1,1]，经过softmax层之后，上述向量被转换为[0.5,0.5]。

上述将上述第一向量和上述第二向量相同维数的数据相乘，再对上述结果求和得到上述待训练样本的分损失值包括，先将上述第二向量的每个维数对应的数值取对数，优选情况下，取以10为底数的对数，将上述取对数后的向量与上述第一向量相同维数的数据相乘，最后对上述结果求和，将上述求和结果的相反数作为上述待训练样本的分损失值。

例如，上述待训练样本为正样本，那么，对标签进行独热编码后得到的向量为[1,0],上述待训练样本经过上述DNN模型首先输出的二维预测向量为[1,1]，经过softmax层的处理之后，上述向量被转换为[0.5,0.5]，即上述第二向量为[0.5,0.5],上述第一向量为[1,1]；首先对上述第二向量取以10为底数的对数，得到向量[log0.5，log0.5]，上述向量[log0.5，log0.5]与上述第一向量[1，1]的维数相同，在上述步骤中，向量中第一维的数据相乘即为1乘以log0.5，向量中第二维的数据相乘即为1乘以log0.5，那么，最后上述待训练样本的分损失值为-(1*log0.5+1*log0.5)。

S203：计算上述待处理数据集中所有样本的分损失值求和，得到总损失值。

将上述数据集中所有样本对应的分损失相加，即为一次训练中得到的总损失值。上述总损失值的计算公式可以为：

其中，L表示一次训练中，数据集中所有样本的损失值之和，即数据集的总损失值；N表示数据集中样本总数；y_i是上述待训练样本输入上述DNN模型得到二维预测向量；i表示上述待训练样本本为待处理数据集中第i个样本；k表示取向量的第k维的数据，而不是常规的取次方运算，例如，对于向量[1，2，3]，[1，2，3]¹表示取向量的第一维的值1，而[1，2，3]²表示取向量的第二维的值2；ll_i是原始标签l_i通过独热编码得到二维向量，在l_i＝1的情况下，ll_i＝[1，0]；在l_i＝0的情况下，ll_i＝[0，1]。例如，经过softmax层之后得到的向量为[0.2，0.8]，上述向量ll_i＝[1，0]，那么上述待训练样本的分损失值为-(1*log0.2+0*log0.8)。

将上述待处理数据集中N个样本的分损失值求和得到总损失值，本申请实施例中，优选利用亚当优化器(Adam optimizer)和pytorch(一种机器学习库)框架进行训练，迭代更新模型参数，在相邻的两次训练中，上述总损失值之间的差值的绝对值小于第一阈值，即可确定上述第一模型、第二模型、第三模型收敛；上述第一阈值为大于0的数，一般情况下，上述第一阈值取0.01，为了提升模型训练的效果，也可以取比0.01更小的值，比如0.001等，本申请不作任何限制。

在一种可能的实现方式中，对待处理数据集中的正样本进行生成对抗样本处理时，只从正样本集合中随机抽取一部分进行生成对抗样本处理，这样既保证了模型训练的负样本为高质量样本，又可以控制模型训练的难度。请参阅图3，图3是本申请实施例公开的另一种模型训练方法的流程示意图，如图3所示，上述方法包括：

S301：获取待处理数据集。

S302：从上述待处理数据集中获取待训练样本，使用第一模型获得用于表示上述待训练样本的向量。

上述步骤301和步骤302在前文中已经给出解释，这里不再赘述。

S303：在上述待训练样本为正样本的情况下，对服从伯努利分布的随机变量抽取参考值。

由于只需要对正样本进行生成对抗样本处理，那么在上述待训练样本为正样本的情况下，对服从伯努利分布的随机变量抽取参考值。其中，伯努利分布是一种离散型概率分布，如果随机变量服从参数为P的伯努利分布，那么，随机变量分别以概率P取1为值，以概率1-P取0为值；本申请实施例中，伯努利分布服从的参数P小于第二阈值，上述第二阈值为大于0且小于1的数。

S304：在上述参考值为1的情况下，将上述表示上述待训练样本的向量输入第二模型生成用于表示上述待训练样本的对抗样本的向量。

由于上述随机变量分别以概率P取1为值，在上述参考值为1的情况下，将上述表示上述待训练样本的向量输入第二模型生成用于表示上述待训练样本的对抗样本的向量，即在上述参考值为1的情况下，对上述正样本进行生成对抗样本处理；那么，对于任意一个正样本来说，需要进行生成对抗样本处理的概率为P，对于上述待处理数据集的正样本的集合来说，相当于抽取100*P％的正样本进行生成对抗样本处理；相对应的，在上述参考是为0的情况下，将上述表示上述待训练样本的向量输入第三模型，得到输出值。具体步骤在前文已经解释，这里不再赘述。

优选情况下，上述随机变量服从参数为0.5的伯努利分布，那么在上述待训练样本为正样本的情况下，对服从参数为0.5的伯努利分布抽取参考值时，对于任意一个正样本，有0.5的概率需要进行生成对抗样本处理，对于上述待处理数据集的正样本的集合来说，相当于从上述正样本的集合中随机抽取一半的正样本进行生成对抗样本的处理。将伯努利分布服从的参数设置为0.5，可以让模型训练的难度适中，提高模型训练的效率。

需要说明的是，除了上述通过从伯努利分布中抽取参考值，再通过参考值确定是否对正样本进行对抗样本生成处理之外，也可以采用其他的概率分布，只需要根据实验要求对参考值设置条件即可。比如从标准正态分布中抽取参考值，在参考值大于0的情况下对正样本进行生成对抗样本处理，这样的方法同样可以实现将待处理数据集中一半的正样本进行对抗样本生成处理；或者从在0到1上服从均匀分布的随机变量中抽取参数值，在上述参考值大于或等于0.3且小于或等于1的情况下，对正样本进行对抗样本生成处理，这样就相当于从正样本的集合中随机抽取70％的正样本进行对抗样本生成处理，也可以在参考值大于或等于0.8且小于或等于1的情况下，对正样本进行对抗样本生成处理，这样就相当于从正样本的集合中随机抽取20％的正样本进行对抗样本生成处理，以此达到控制模型训练难度的目的。

S305：将上述用于表示上述待训练样本的对抗样本的向量输入第三模型，得到输出值

S306：根据上述输出值确定上述待训练样本的分损失值，计算上述待处理数据集中所有样本的分损失值求和，得到总损失值。

S307：在前后两次获得的总损失值之间的差值小于阈值的情况下，确定上述第一模型，上述第二模型和上述第三模型收敛。

上述步骤305、步骤306、步骤307在前文中已经给出解释，这里不再赘述。

以上对本申请实施提供的方法中各个步骤进行了详细的解释，接下来对本申请实施例提供的方法做整体的介绍，请参阅图4，图4是本申请实施例公开的又一种模型训练方法的流程示意图，如图所示，上述方法包括：

首先构造模型训练需要的数据集，数据集中的样本包括正样本和负样本，每条样本包括查询项，文档项、标签项，标签项用于表示样本的类别，在标签为1的情况下，样本为正样本，在标签为0的情况下，样本为负样本，具体构造步骤请参阅前文步骤101部分的说明。

然后对数据集进行分词、去停用词、字体转换以及过滤处理，得到样本总数为N的数据集，如图4中步骤401、步骤402、步骤403、步骤404，对上述步骤的具体解释清参阅前文步骤101部分的说明，对数据集进行上述处理之后，即步骤404之后的查询项和文档项相较于与步骤401之前的查询项和文档项包含的信息为有效信息，有利于模型的训练。

对于数据集中每一条样本，仅仅采取三种处理方式中的一种，具体采取哪种方式取决于样本的类别，即样本为正样本还是负样本，以及正样本的集合中需要进行对抗样本生成处理的正样本数量。对于数据集中每一条样本具体流程如下：

将查询项和文档项输入RNN模型，分别得到查询项对应的向量和文档项对应的向量，如图4中步骤405。

对上述样本的标签进行判断，确定上述样本的类别，如图4中步骤406。

在上述样本为负样本，即标签为0的情况下，对样本不作任何处理，直接将上述查询项对应的向量和文档项对应的向量输入DNN模型，得到样本对应的输出向量。

在上述样本为正样本，即标签为1的情况下，根据随机变量的取值决定是否对上述正样本进行对抗样本生成处理，从而控制对抗样本生成比例，达到控制模型训练难度的目的。本申请实施例中优选将正样本的集合中，一半的正样本进行对抗样本生成处理，即对服从参数为0.5的伯努利分布的随机变量抽取参考值，如图4中步骤407。

在上述参考值为1的情况下，将上述查询项对应的向量和文档项对应的向量输入VED模型，得到上述正样本的对抗文档对应的向量，如图4中步骤408，再将上述查询项对应的向量和上述对抗文档对应的向量输入DNN模型，并且，将上述正样本标记为负样本，得到样本对应的输出向量。

在上述参考值为0的情况下，对样本不作任何处理，直接将上述查询项对应的向量和文档项对应的向量输入DNN模型，得到样本对应的输出向量。

再根据上述输出向量，利用交叉损失函数计算上述样本对应的分损失值。最后根据上述分损失值计算一次训练中的总损失值，本申请实施例中，优选利用Adam optimizer和pytorch框架进行训练，迭代更新模型参数，直到模型收敛。

需要说明的是，对数据集的样本进行第一次遍历之后，模型的参数会有相应的更新，在后续对模型的训练中，对进行对抗样本生成的正样本的比例的选择可以采取与第一次相同的方法，也可以根据实验要求对上述比例进行调整，比如第一次训练中，对正样本的集合中50％的正样本进行生成对抗样本处理，在第二次训练中，对正样本的集合中60％的正样本进行生成对抗样本处理，后续步骤中依次增加，以此循序渐进增加模型训练的难度。

综上所述，本申请提出的模型训练方法，基于数据集中的正样本生成对抗样本，可以提高生成的对抗文档与正样本原有文档的相似度；将对抗样本作为数据集的负样本，可以提高模型训练中负样本的质量；利用包含以对抗样本为负样本的数据集对模型进行训练，一方面可以提高模型训练的难度，从而提升模型的参数的更新效率；另一方面可以提高模型对边界数据的处理能力，从而提高模型的鲁棒性。

在模型的训练过程中，上述VED模型的参数也会更新，经过充分训练的VED模型可以单数拆解出来，直接用于给定的正样本的对抗样本生成处理，从而提高模型训练的效率，缩短项目的生命周期。

上述详细阐述了本申请实施例的方法，下面提供本申请实施例的装置。

请参阅图5，图5为本申请实施例公开的一种模型训练的装置的结构示意图，上述数据转发的装置110可以包括获取单元501、处理单元502、计算单元503，确定单元504，其中，各个单元的描述如下：

获取单元501，用于获取待处理数据集，从上述待处理数据集中获取待训练样本，使用第一模型获得用于表示上述待训练样本的向量，上述待处理数据集包含的样本包括正样本和负样本；

处理单元502，用于在上述待训练样本为正样本的情况下，将上述表示上述待训练样本的向量输入第二模型生成用于表示上述待训练样本的对抗样本的向量；将上述用于表示上述待训练样本的对抗样本的向量输入第三模型，得到输出值；

计算单元503，用于根据上述输出值确定上述待训练样本的分损失值，计算上述待处理数据集中所有样本的分损失值求和，得到总损失值；

确定单元504，用于在前后两次获得的总损失值之间的差值小于阈值的情况下，确定上述第一模型，上述第二模型和上述第三模型收敛。

在一种可能的实施方式中，上述装置还包括：

标记单元505，用于将上述对抗样本标记为上述待处理数据集的负样本。

在一种可能的实施方式中，上述处理单元502，还用于在上述待训练样本为正样本的情况下，对服从伯努利分布的随机变量抽取参考值，所述伯努利分布服从的参数小于第二阈值；在上述参考值为1的情况下，将上述表示上述待训练样本的向量输入第二模型生成用于表示上述待训练样本的对抗样本的向量。

在一种可能的实施方式中，上述处理单元502，还用于在上述参考值为0的情况下，将上述表示上述待训练样本的向量输入第三模型，得到输出值。

在一种可能的实施方式中，上述处理单元502，还用于在上述待训练样本为负样本的情况下，将上述用于表示上述待训练样本的向量输入第三模型，得到输出值。

在一种可能的实施方式中，上述待训练样本包含查询项和文档项；上述表示上述待训练样本的向量包括：上述查询项对应的向量，以及上述文档项对应的向量；上述第一模型包括循环神经网络模型，上述第二模型包括变分编解码模型，上述第三模型包括深度神经网络模型。

在一种可能的实施方式中，上述处理单502元，还用于将上述查询项和上述文档项输入循环神经网络模型得到上述查询项对应的向量作为第三向量，以及得到上述文档项对应的向量作为第四向量。

在一种可能的实施方式中，上述处理单元502，还用于将上述第三向量和上述第四向量合并得到第五向量，将上述第五向量输入深度卷积模型得到向量作为输出值。

在一种可能的实施方式中，上述用于表示上述待训练样本的对抗样本的向量包括上述第三向量，以及表示上述待训练样本对应的对抗文档的向量。

在一种可能的实施方式中，上述处理单元502，还用于将上述第三向量和上述表示上述待训练样本对应的对抗文档的向量合并得到第六向量，将上述第六向量输入第三模型得到的向量作为输出值。

在一种可能的实施方式中，上述装置还包括：

编码单元506，用于将上述输出值对应的向量作为第一向量，将上述待训练样本的标签进行独热编码得到第二向量，上述第一向量与上述二向量的向量维数相同；

上述计算单元503，还用于将上述第一向量与上述第二向量中相同维数的值相乘再相加，得到上述待训练样本的分损失值；计算上述待处理数据集中所有样本的分损失值求和，得到总损失值。

请参阅图6，图6是本申请实施例公开的一种服务器的结构示意图。上述服务器60可以包括存储器601、处理器602。进一步可选的，还可以包含通信接口603以及总线604，其中，存储器601、处理器602以及通信接口603通过总线604实现彼此之间的通信连接。通信接口603用于与时空数据查询装置进行数据交互。

其中，存储器601用于提供存储空间，存储空间中可以存储操作系统和计算机程序等数据。存储器601包括但不限于是随机存储记忆体(random access memory，RAM)、只读存储器(read-only memory，ROM)、可擦除可编程只读存储器(erasable programmable readonly memory，EPROM)、或便携式只读存储器(compact disc read-only memory，CD-ROM)。

处理器602是进行算术运算和逻辑运算的模块，可以是中央处理器(centralprocessing unit，CPU)、显卡处理器(graphics processing unit，GPU)或微处理器(microprocessor unit，MPU)等处理模块中的一种或者多种的组合。

存储器601中存储有计算机程序，处理器602调用存储器601中存储的计算机程序，以执行以下操作：

需要说明的是，服务器60的具体实现还可以对应参照图2、图3、图4所示的方法实施例的相应描述。

本申请实施例还提供一种计算机可读存储介质，上述计算机可读存储介质中存储有计算机程序，当上述计算机程序在一个或多个处理器上运行时，可以实现图1、图2、图3以及图4所示的模型训练的方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，上述流程可以由计算机程序相关的硬件完成，上述计算机程序可存储于计算机可读取存储介质中，上述计算机程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：只读存储器ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储计算机程序代码的介质。

Claims

1.一种模型训练的方法，其特征在于，包括：

从文档排序任务公开数据集获取初始数据，所述数据集为M＝{(q₁，s₁)，(q₂，s₂)，...，(q_i，s_i)，...，(q_n，s_n)}，其中，q_i为查询项，所述查询项表示用户搜索的文本；s_i表示为文档列表，所述文档列表表示搜索引擎返回的结果，n表示所述数据集中查询项的个数；对于任意一个由搜索引擎返回的结果s_i可以表示为：s_i＝{(d_i1，l_i1)，(d_i2，l_i2)，...，(d_ij，l_ij)，...，(d_im，l_im)}，其中，d_ij为文档项，所述文档项表示第i个查询项对应的第j个搜索结果；l_ij为标签项，l_ij为l时，表示用户点击了该搜索结果，l_ij为0时，表示用户未点击该搜索结果；m表示该搜索结果中文档项的个数；

对于任一查询项q_i和与所述查询项q_i对应的文档项d_ij，两者的匹配分数表示为：

r_ij＝F(q_i，d_ij)

其中，r_ij表示查询项q_i和与所述查询项q_i对应的文档项d_ij的匹配分数，F为文本匹配模型BM25；

将匹配分数超过阈值的查询项和文档项保留；

对于保留的任一文档项d_ij，将与保留的所述任一文档项d_ij对应的查询项q_i和对应的用户点击结果l_ij组成的三元组(q_i，d_ij，l_ij)作为待处理数据集中的一个样本，在l_ij为1时，表示用户点击了该搜索结果，该样本为正样本，l_ij为0时，表示用户未点击该搜索结果，该样本为负样本；含有N个样本的待处理数据集表示为：M＝{(q₁，d₁，l₁)，(q₂，d₂，l₂)，...，(q_i，d_i，l_i)，...，(q_N，d_N，l_N)}；

从所述待处理数据集中获取待训练样本，使用第一模型获得用于表示所述待训练样本的向量；

在所述待训练样本为正样本的情况下，将所述表示所述待训练样本的向量输入第二模型生成用于表示所述待训练样本的对抗样本的向量；

将所述用于表示所述待训练样本的对抗样本的向量输入第三模型，得到输出值；

将所述输出值对应的向量作为第一向量，将所述待训练样本的标签项进行独热编码得到第二向量，所述第一向量和所述第二向量维数相同；将所述第一向量与所述第二向量中相同维数的值相乘再相加，得到所述待训练样本的分损失值；计算所述待处理数据集中所有样本的分损失值求和，得到总损失值，所述总损失值的计算公式为：

其中，L表示一次训练中所述待处理数据集的总损失值；N表示所述待处理数据集中样本总数；y_i是所述待训练样本输入DNN模型得到的二维预测向量；i表示所述待训练样本为待处理数据集中第i个样本；k表示取向量的第k维的数据，ll_i是标签项l_i通过独热编码得到的二维向量；

在前后两次获得的总损失值之间的差值小于第一阈值的情况下，确定所述第一模型，所述第二模型和所述第三模型收敛。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述对抗样本标记为所述待处理数据集的负样本。

3.根据权利要求2所述的方法，其特征在于，所述在所述待训练样本为正样本的情况下，将所述表示所述待训练样本的向量输入第二模型生成用于表示所述待训练样本的对抗样本的向量，包括：

在所述待训练样本为正样本的情况下，对服从伯努利分布的随机变量抽取参考值，所述伯努利分布服从的参数小于第二阈值；

在所述参考值为1的情况下，将所述表示所述待训练样本的向量输入第二模型生成用于表示所述待训练样本的对抗样本的向量。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

在所述参考值为0的情况下，将所述表示所述待训练样本的向量输入第三模型，得到输出值。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

在所述待训练样本为负样本的情况下，将所述用于表示所述待训练样本的向量输入第三模型，得到输出值。

6.根据权利要求5所述的方法，其特征在于，所述待训练样本包含查询项和文档项；

所述表示所述待训练样本的向量包括：所述查询项对应的向量，以及所述文档项对应的向量；

所述第一模型包括循环神经网络模型，所述第二模型包括变分编解码模型，所述第三模型包括深度神经网络模型。

7.一种模型训练的装置，其特征在于，所述模型训练的装置用于实现如权利要求1-6任一项所述的方法，所述装置包括：

获取单元，用于获取待处理数据集，从所述待处理数据集中获取待训练样本，使用第一模型获得用于表示所述待训练样本的向量，所述待处理数据集包含的样本包括正样本和负样本；

处理单元，用于在所述待训练样本为正样本的情况下，将所述表示所述待训练样本的向量输入第二模型生成用于表示所述待训练样本的对抗样本的向量；将所述用于表示所述待训练样本的对抗样本的向量输入第三模型，得到输出值；

计算单元，用于根据所述输出值确定所述待训练样本的分损失值，计算所述待处理数据集中所有样本的分损失值求和，得到总损失值；

确定单元，用于在前后两次获得的总损失值之间的差值小于阈值的情况下，确定所述第一模型，所述第二模型和所述第三模型收敛。

8.一种服务器，其特征在于，所述服务器包括处理器和存储器，其中，所述存储器中存储有计算机程序，所述处理器调用所述存储器中存储的计算机程序，用于执行如权利要求1-6中任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，当所述计算机程序在一个或多个处理器上运行时，执行如权利要求1-6中任一项所述的方法。