CN112434213A

CN112434213A - 网络模型的训练方法、信息推送方法及相关装置

Info

Publication number: CN112434213A
Application number: CN202011105734.8A
Authority: CN
Inventors: 杨敏; 原发杰; 刘夺; 李成明; 姜青山
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2021-03-02
Anticipated expiration: 2040-10-15
Also published as: CN112434213B

Abstract

本申请涉及计算机领域，公开了网络模型的训练方法、信息推送方法及相关装置。该训练方法包括：采用第一训练数据对网络模型进行训练，得到第一输出信息；对第一训练数据添加随机噪声，得到第二训练数据，采用第二训练数据对网络模型进行训练，得到第二输出信息；根据第一输出信息和第二输出信息，确定扰动信息；对第一训练数据或第二训练数据添加扰动信息，得到第三训练数据，采用第三训练数据对网络模型进行训练，得到第三输出信息；根据第三输出信息与预设输出信息之间的差异，调整网络模型的参数。通过上述方式，能够提升网络模型的鲁棒性和预测的准确性。

Description

网络模型的训练方法、信息推送方法及相关装置

技术领域

本申请涉及计算机技术领域，特别是涉及一种网络模型的训练方法、信息推送方法及相关装置。

背景技术

近年来，随着计算机领域的快速发展，信息的爆炸式增长所产生的海量信息数据如何有效利用成为研究热点。相关机构预测，全球数据圈将从2018年的33ZB增至2025年的175ZB。要从海量的数据中获取到需求的信息就需要借助一定的搜索和推荐算法来帮助解决。目前众多的推荐算法被学术界和工业界研究和使用，并取得了很好的效果。

目前提出的训练方法解决了传统网络模型的一些缺点，但是这些网络模型在取得高性能的同时，一些问题也随之到来。例如：在电商场景下，如果恶意用户成功攻击推荐系统来达到一些目的，并且使得下一个item的推荐都是这个恶意用户指定的item，网络模型的鲁棒性问题将会造成严重损失。在新闻推荐领域，如果推荐系统遭到恶意攻击，使得线上的新闻推荐系统给用户推荐攻击者所展示的内容，或者和正常用户不相关的内容，就会严重影响推荐的可靠性，造成巨大的损失。

发明内容

本申请主要解决的技术问题是提供网络模型的训练方法、信息推送方法及相关装置，能够提升网络模型的鲁棒性和预测的准确性。

本申请采用的一种技术方案是提供一种网络模型的训练方法，该方法包括：采用第一训练数据对网络模型进行训练，得到第一输出信息；对第一训练数据添加随机噪声，得到第二训练数据，采用第二训练数据对网络模型进行训练，得到第二输出信息；根据第一输出信息和第二输出信息，确定扰动信息；对第一训练数据或第二训练数据添加扰动信息，得到第三训练数据，采用第三训练数据对网络模型进行训练，得到第三输出信息；根据第三输出信息与预设输出信息之间的差异，调整网络模型的参数。

其中，采用第一训练数据对网络模型进行训练，得到第一输出信息，包括：从训练数据集中获取预设数量的目标训练数据作为第一训练数据；将预设数量的目标训练数据进行序列化处理，以形成第一向量矩阵；采用第一向量矩阵对网络模型进行训练，得到第一输出信息；其中，输出信息为概率矩阵，概率矩阵用于表示网络模型基于目标训练数据的预测信息。

其中，对第一训练数据添加随机噪声，得到第二训练数据，采用第二训练数据对网络模型进行训练，得到第二输出信息，包括：对第一向量矩阵中的每个元素添加随机噪声，得到第二向量矩阵，将第二向量矩阵作为第二训练数据；采用第二向量矩阵对网络模型进行训练，得到第二输出信息；其中，输出信息为概率矩阵，概率矩阵用于表示网络模型基于第二向量矩阵的预测信息。

其中，对第一训练数据或第二训练数据添加扰动信息，得到第三训练数据，采用第三训练数据对网络模型进行训练，得到第三输出信息，包括：对第一向量矩阵或第二向量矩阵添加扰动信息，得到第三向量矩阵，将第三向量矩阵作为第三训练数据；采用第三向量矩阵对网络模型进行训练，得到第三输出信息；其中，输出信息为概率矩阵，概率矩阵用于表示网络模型基于第三向量矩阵的预测信息。

其中，对第一向量矩阵或第二向量矩阵添加扰动信息，得到第三向量矩阵，将第三向量矩阵作为第三训练数据，包括：对第一向量矩阵或第二向量矩阵添加扰动信息，得到第三向量矩阵；若第三向量矩阵与第一向量矩阵或第二向量矩阵的相似度满足约束条件，则确定第三向量矩阵为第三训练数据。

其中，根据第一输出信息和第二输出信息，确定扰动信息，包括：确定第一输出信息的第一分布以及第二输出信息的第二分布；计算第一分布与第二分布的相似度，得到第一相似度；基于第一相似度确定扰动信息。

其中，基于第一相似度确定扰动信息，包括：利用第一相似度进行梯度更新计算，以得到第一扰动值；其中，在利用第一相似度进行梯度更新计算时，网络模型的网络参数不进行更新；对第一扰动值进行求导得到第二扰动值，并利用第一控制数值对第二扰动值进行加权，得到第三扰动值；将第三扰动值确定为扰动信息。

其中，根据第三输出信息与预设输出信息之间的差异，调整网络模型的参数，包括：利用第一输出信息与预设输出信息之间的差异，得到第一损失值，并利用第二控制数值对第一损失值进行加权，得到第二损失值；利用第三输出信息与预设输出信息之间的差异，得到第三损失值，并利用第三控制数值对第二损失值进行加权，得到第四损失值；利用第二损失值和第四损失值，调整网络模型的网络参数。

其中，利用第三输出信息与预设输出信息之间的差异，得到第三损失值，并利用第三控制数值对第二损失值进行加权，得到第四损失值之后，包括：根据第三训练数据与第一训练数据或第二训练数据得到第二相似度，并利用第三控制数值对第二相似度进行加权，得到第五损失值；利用第二损失值、第四损失值，调整网络模型的网络参数，包括：利用第二损失值、第四损失值和第五损失值，调整网络模型的网络参数。

本申请采用的另一种技术方案是提供一种信息推送方法，该方法包括：获取用户的历史操作信息；对历史操作信息进行序列化处理，以形成向量矩阵；将向量矩阵输入至如上述技术方案提供的方法训练得到的网络模型，以得到推荐信息。

本申请采用的另一种技术方案是提供一种电子设备，该电子设备包括处理器以及与处理器耦接的存储器；其中，存储器用于存储程序数据，处理器用于执行程序数据，以实现如上述技术方案提供的任意一种方法。

本申请采用的另一种技术方案是提供一种计算机可读存储介质，该计算机可读存储介质用于存储程序数据，程序数据在被处理器执行时，用于实现如上述技术方案提供的任意一种方法。

本申请的有益效果是：区别于现有技术的情况，本申请的一种网络模型的训练方法，该方法包括：采用第一训练数据对网络模型进行训练，得到第一输出信息；对第一训练数据添加随机噪声，得到第二训练数据，采用第二训练数据对网络模型进行训练，得到第二输出信息；根据第一输出信息和第二输出信息，确定扰动信息；对第一训练数据或第二训练数据添加扰动信息，得到第三训练数据，采用第三训练数据对网络模型进行训练，得到第三输出信息；根据第三输出信息与预设输出信息之间的差异，调整网络模型的参数。通过上述方式，利用随机噪声生成的扰动信息来作为虚拟标签参与网络模型的训练，一方面解决相关技术中真实标签泄露的问题，进而提升网络模型的鲁棒性，另一方面，增加训练数据的数量，改善系统冷启动问题，提高网络模型的预测的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：

图1是本申请提供的网络模型的训练方法第一实施例的流程示意图；

图2是本申请提供的网络模型的训练方法第二实施例的流程示意图；

图3是本申请提供的图2中步骤26的具体流程示意图；

图4是本申请提供的图2中步骤29的具体流程示意图；

图5是本申请提供的信息推送方法第一实施例的流程示意图；

图6是本申请提供的电子设备一实施例的结构示意图；

图7是本申请提供的计算机可读存储介质一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。可以理解的是，此处所描述的具体实施例仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了解决上述问题，本申请基于随机噪声生成扰动信息，将扰动信息作为虚拟标签参与网络模型的训练，解决相关技术中真实标签泄露的问题，进而提升网络模型的鲁棒性。具体实施方式请详见下述实施例。

参阅图1，图1是本申请提供的网络模型的训练方法第一实施例的流程示意图。该方法包括：

步骤11：采用第一训练数据对网络模型进行训练，得到第一输出信息。

在一些实施例中，根据网络模型领域不同，训练数据的类型也不尽相同。如在图像处理领域，训练数据可以是图像，如图片，图片可以是彩色图片也可以黑白图片；在自动控制领域，训练数据可以采集的自动控制设备的运行参数；在NLP(Natural LanguageProcessing，自然语言处理)领域，训练数据可以是词语、句子和文章等；在推荐系统领域，训练数据可以是用户相关的操作数据以及相应操作对应的产品信息，如，在新闻推荐领域，训练数据是用户观看的新闻类型和观看的时间，如新闻类型有国际新闻、民生新闻、体育新闻等。

在一些实施例中，网络模型可以是神经网络模型，如DNN(Deep Neural Networks，深度神经网络)，CNN(Convolutional Neural Networks，卷积神经网络)，RNN(RecurrentNeural Network，循环神经网络)。

步骤12：对第一训练数据添加随机噪声，得到第二训练数据，采用第二训练数据对网络模型进行训练，得到第二输出信息。

在一些实施例中，随机噪声可以是高斯分布的随机变量。可以理解，在一些应用场景中，第一训练数据的数量为至少一个，因此，在对第一训练数据添加随机噪声时，需要对每一个第一训练数据都添加随机噪声。

在一些实施例中，对随机噪声的强度进行控制，以保证后续训练。

步骤13：根据第一输出信息和第二输出信息，确定扰动信息。

在一些实施例中，可以通过计算第一输出信息和第二输出信息的相似度，得到第一输出信息和第二输出信息的相似度结果。利用该相似度结果进行梯度更新计算，求出对应的扰动信息。

步骤14：对第一训练数据或第二训练数据添加扰动信息，得到第三训练数据，采用第三训练数据对网络模型进行训练，得到第三输出信息。

在一些实施例中，将扰动信息添加至第一训练数据，得到第三训练数据，采用第三训练数据对网络模型进行训练，得到第三输出信息。

可以理解，把扰动信息添加至第一训练数据，得到第三训练数据，采用第三训练数据对网络模型进行训练，得到第三输出信息，此时第三输出信息为预测概率矩阵，根据预测概率矩阵与真实标签计算出损失值，在后续训练使这个损失值最小。

在一些实施例中，将扰动信息添加至第二训练数据，得到第三训练数据，采用第三训练数据对网络模型进行训练，得到第三输出信息。

步骤15：根据第三输出信息与预设输出信息之间的差异，调整网络模型的参数。

可选的，预设输出信息可以是真实标签。

在一些实施例中，可以根据第三输出信息与预设输出信息之间的差异，调整网络模型的训练次数，进而起到调整网络模型的网络参数。如，预设输出信息为A、第三输出信息为B，则此时可以调整网络模型的训练次数，进而起到调整网络模型的网络参数；如预设输出信息为A、第三输出信息为B，但是置信度低于设定阈值，则调整网络模型的训练次数，进而起到调整网络模型的网络参数。

在一些实施例中，可以根据第三输出信息与预设输出信息之间的差异，调整网络模型的网络参数，如网络模型中有卷积神经网络，则可以设置卷积核的数量、步长、填充，调整激励函数，调整池化层的参数等。

在一些实施例中，还可以通过第三输出信息与预设输出信息的数据进行损失值的计算，若损失值与预设的损失阈值存在差异，则调整网络模型的网络参数。

在一应用场景中，本申请应用于序列化推荐模型。首先将推荐系统原始离散数据转化为一个可训练的embedding向量，然后经过一些序列化推荐的模型CNN/RNN进行表示，从而得到一个当前序列的隐向量表达，通过进行SoftMax操作得到当前模型预测的第一概率矩阵，通过真实标签和第一概率矩阵进行交叉熵得到第一损失值。然后将随机噪声添加至embedding向量，形成新的embedding向量，然后经过一些序列化推荐的模型CNN/RNN进行表示，从而得到一个当前序列的隐向量表达，通过进行SoftMax操作得到当前模型预测的第二概率矩阵；求出第一概率矩阵与第二概率矩阵的相似度，以生成扰动信息。然后将扰动信息加到原始的embedding向量上得到扰动后的embedding向量，输入至网络模型中进行预测下一个item的第三概率矩阵；第三概率矩阵和真实标签做交叉熵得到第二损失值，然后第一损失值和第二损失值通过加权求和就得到了最终的训练损失值，通过上述方式对网络模型进行训练。

区别于现有技术，本实施例的一种网络模型的训练方法，该方法包括：采用第一训练数据对网络模型进行训练，得到第一输出信息；对第一训练数据添加随机噪声，得到第二训练数据，采用第二训练数据对网络模型进行训练，得到第二输出信息；根据第一输出信息和第二输出信息，确定扰动信息；对第一训练数据或第二训练数据添加扰动信息，得到第三训练数据，采用第三训练数据对网络模型进行训练，得到第三输出信息；根据第三输出信息与预设输出信息之间的差异，调整网络模型的参数。通过上述方式，利用随机噪声来作为虚拟标签参与网络模型的训练，一方面解决相关技术中真实标签泄露的问题，进而提升网络模型的鲁棒性，另一方面，增加训练数据的数量，改善系统冷启动问题，提高网络模型的预测的准确性，另一方面，通过单次迭代就能得到扰动信息，提高网络模型的训练效率。

在一些实施例中，还可以通过多次迭代的方式来得到扰动信息。

参阅图2，图2是本申请提供的网络模型的训练方法第二实施例的流程示意图。该方法包括：

步骤21：从训练数据集中获取预设数量的目标训练数据作为第一训练数据。

训练数据集的训练数据均对应的真实标签，该真实标签用于标注该训练数据的类别等信息。训练数据的真实标签可以通过人工标注的方式完成。

在一些实施例中，在进行网络模型训练时，除了训练数据集还包括测试数据集。使用训练数据集中的数据来训练网络模型，然后用测试数据集上的误差作为最终该网络模型在应对现实场景中的泛化误差。有了测试数据集，想要验证模型的最终效果，只需将训练好的网络模型在测试数据集上计算误差，即可认为此误差为泛化误差的近似，只需让训练好的网络模型在测试数据集上的误差最小即可。

在一些实施例中，通常将数据集中的80％的数据作为训练数据集，20％的数据作为测试数据集；在开始构建网络模型之前把数据集进行划分，以划分为训练数据集和测试数据集，防止数据窥探偏误，这样可以避免了解太多关于测试集中的样本特点，防止人为的挑选有助于测试数据集中数据的网络模型，网络模型的测试结果会过于乐观，但是实际上并没有预期的效果。在构建网络模型的时候需要将数据进行处理，包括数据的清洗，数据的特征缩放，此时需要在训练数据集上进行上述操作，然后将其在训练数据集上得到的参数应用到测试数据集中，也就是说，在训练过程中，不能使用在测试数据集上计算的得到的任何结果。比如：属性中可能有缺失值，因为在这些操作之前，我们已经把数据集分成了训练数据集和测试数据集，通常的做法是通过计算属性值的中位数来填充缺失值，注意此时计算属性值的中位数是通过训练数据集上的数据进行计算的，如果想要测试网络模型的测试误差来近似泛化误差的时候，可能此时的测试数据集也会有一些缺失值，此时对应属性的缺失值是通过训练数据集计算的中位数来进行填充的。由于测试数据集作为对泛化误差的近似，所以训练好网络模型后，最后在测试集上近似估计网络模型的泛化能力。此时假设有两个不同的类型的网络模型，可以通过训练两个模型，然后对比他们在测试数据上的泛化误差，选择泛化能力强的网络模型。

可以理解，在步骤21中，由于训练数据集的数据量较多，则从训练数据集中获取预设数量的目标训练数据作为第一训练数据。具体地，根据网络模型实际的设置，来确定预设数量。如，网络模型包括embedding层，embedding的大小为128，则从训练数据集中获取128个目标训练数据作为第一训练数据，将第一训练数据转换为向量，以形成向量矩阵。

步骤22：将预设数量的目标训练数据进行序列化处理，以形成第一向量矩阵。

在一些实施例中，每个目标训练数据均有生成的时间，则按照时间序列进行排序，排序完成后进行向量转换。

在一些实施例中，还可以将序列化处理后的目标训练数据进行归一化处理，以形成第一向量矩阵。在一应用场景中，第一向量矩阵可以是embedding向量矩阵。

步骤23：采用第一向量矩阵对网络模型进行训练，得到第一输出信息。

在一些实施例中，将第一向量矩阵输入网络模型，从而得到一个第一向量矩阵的隐向量表达，然后通过进行软极大值或软非极大值操作得到该网络模型预测的第一输出信息。其中，输出信息为概率矩阵，概率矩阵用于表示网络模型基于目标训练数据的预测信息。

在一音乐推荐场景中，目标训练数据为音乐相关数据，将目标训练数据输入至网络模型进行训练，则该模型输出第一输出信息，该第一输出信息为根据目标训练数据的推荐信息，可以是预测出的下一个音乐的概率。如可以是不同音乐的概率矩阵。

步骤24：对第一向量矩阵中的每个元素添加随机噪声，得到第二向量矩阵，将第二向量矩阵作为第二训练数据。

在一些实施例中，随机噪声可以是椒盐噪声、高斯噪声、泊松噪声和乘性噪声等。将这些噪声中的至少一种或多种加入到第一向量矩阵中的每个元素，以使其发生变化，得到第二向量矩阵，将第二向量矩阵作为第二训练数据。

在一些实施例中，将变化后的第二向量矩阵与第一向量矩阵进行比较，若两者之间的相似度大于预设阈值，则确认第二向量矩阵符合要求，将第二向量矩阵作为第二训练数据。若两者之间的相似度等于或小于预设阈值，则确认第二向量矩阵不符合要求，则重新对第一向量矩阵中的每个元素添加随机噪声，得到第二向量矩阵，并将第二向量矩阵与第一向量矩阵进行比较。

可以理解，通过上述方式可控制随机噪声的属性，以保证加入随机噪声后第一向量矩阵的语义不发生改变。

步骤25：采用第二向量矩阵对网络模型进行训练，得到第二输出信息。

在一些实施例中，将第二向量矩阵输入网络模型，从而得到一个第二向量矩阵的隐向量表达，然后通过进行软极大值或软非极大值操作得到该网络模型预测的第二输出信息。其中，输出信息为概率矩阵，概率矩阵用于表示网络模型基于第二向量矩阵的预测信息。

在一音乐推荐场景中，将第二向量矩阵输入至网络模型进行训练，则该模型输出第二输出信息，该第二输出信息为根据第二向量矩阵的推荐信息，可以是预测出的下一个音乐的概率。如可以是不同音乐的概率矩阵。

步骤26：根据第一输出信息和第二输出信息，确定扰动信息。

在一些实施例中，第一输出信息为第一概率矩阵，第二输出信息为第二概率矩阵。可以通过计算第一概率矩阵和第二概率矩阵的相似度，以确定扰动信息。

在一些实施例中，参阅图3，步骤26可以为如下步骤：

步骤261：确定第一输出信息的第一分布以及第二输出信息的第二分布。

可以理解，因第一输出信息可以是概率矩阵，假定其符合泊松分布(Poissondistribution)，则可以确定出第一输出信息对应的第一分布。同理，可以确定出第二输出信息对应的第二分布。

步骤262：计算第一分布与第二分布的相似度，得到第一相似度。

在一些实施例中，计算第一分布和第二分布之间的散度，散度用于衡量第一分布和第二分布之间的差异性。

在一些实施例中，可以使用KL(Kullback-Leibler)散度、JS(Jensen-Shannon)散度。如，使用以下公式计算KL散度：

L_KL(ξ,E,θ)＝KL[p(x_n+1|E；θ)||P(x_n+1|E+ξ；θ)]。

其中，ξ表示随机噪声；E表示第一向量矩阵或第一训练数据；θ表示网络模型的当前参数；E+ξ表示第二向量矩阵或第二训练数据；KL[·]表示期望函数；p(x_n+1|E；θ)表示第一分布；P(x_n+1|E+ξ；θ)表示第二分布；x表示E或E+ξ中的元素，n表示E或E+ξ中的元素的数量。

步骤263：利用第一相似度进行梯度更新计算，以得到第一扰动值。

在一些实施例中，在利用第一相似度进行梯度更新计算时，网络模型的网络参数不进行更新。

在一些实施例中，使用以下公式计算第一扰动值：

其中，

表示网络模型的梯度更新；L_KL(·)表示第一相似度；

表示网络模型的当前参数只参与计算，不对网络模型进行更新。

步骤264：对第一扰动值进行求导得到第二扰动值，并利用第一控制数值对第二扰动值进行加权，得到第三扰动值。

步骤265：将第三扰动值确定为扰动信息。

在一些实施例中，使用以下公式计算第三扰动值：

其中，α表示第一控制数值，g表示第一扰动值，α表示第一控制数值。

在一些实施例中，第一控制数值可以为0.1、0.3、0.5、1等任一数值，根据实际需求进行设置。

将第三扰动值δ确定为扰动信息。

步骤27：对第一向量矩阵或第二向量矩阵添加扰动信息，得到第三向量矩阵，将第三向量矩阵作为第三训练数据。

在一些实施例中，若第三向量矩阵与第一向量矩阵或第二向量矩阵的相似度满足约束条件，则确定第三向量矩阵为第三训练数据。可以通过计算第三向量矩阵与第一向量矩阵或第二向量矩阵的KL散度来确定相似度。

例如，对第一向量矩阵添加扰动信息，得到第三向量矩阵，将第三向量矩阵作为第三训练数据。将添加扰动变化后的第三向量矩阵与第一向量矩阵进行比较，若两者之间的相似度大于预设阈值，则确认第三向量矩阵符合要求，将第三向量矩阵作为第三训练数据。

可以理解，通过上述方式对第三向量矩阵与第一向量矩阵的差异进行约束，以保证第三向量矩阵的语义不发生改变，提升后续训练的速度以及准确性。

又例如，对第二向量矩阵添加扰动信息，得到第三向量矩阵，将第三向量矩阵作为第三训练数据。将添加扰动变化后的第三向量矩阵与第二向量矩阵进行比较，若两者之间的相似度大于预设阈值，则确认第三向量矩阵符合要求，将第三向量矩阵作为第三训练数据。

可以理解，通过上述方式对第三向量矩阵与第二向量矩阵的差异进行约束，以保证第三向量矩阵的语义不发生改变，提升后续训练的速度以及准确性。

通过上述方式，在对数据有限的扰动下尽可能大的提升网络模型性能，使得网络模型在根据网络模型本身的抗扰动情况来调节正则化的强度，起到了更好地优化效果。

步骤28：采用第三向量矩阵对网络模型进行训练，得到第三输出信息。

输出信息为概率矩阵，所述概率矩阵用于表示所述网络模型基于所述第三向量矩阵的预测信息。

步骤29：根据第三输出信息与预设输出信息之间的差异，调整网络模型的参数。

在一些实施例中，利用损失函数求出第三输出信息与预设输出信息之间的差异，得到损失值，根据损失值来调整网络模型的参数。

在一些实施例中，参阅图4，步骤29可以为如下步骤：

步骤291：利用第一输出信息与预设输出信息之间的差异，得到第一损失值，并利用第二控制数值对第一损失值进行加权，得到第二损失值。

在一些实施例中，预设输出信息可以为真实标签。步骤291可以在步骤23后执行。

在一些实施例中，采用以下公式表示步骤291的运算过程：

L₁＝λL(E,Y,θ)；

其中，L₁表示第二损失值，λ表示第二控制数值，E表示第一输出信息或第一向量矩阵，Y表示真实标签或预设输出信息，θ表示网络模型的当前参数。

步骤292：利用第三输出信息与预设输出信息之间的差异，得到第三损失值，并利用第三控制数值对第二损失值进行加权，得到第四损失值。

在一些实施例中，采用以下公式表示步骤292的运算过程：

L₂＝(1-λ)L(E+δ,Y,θ)；

其中，L₂表示第四损失值，1-λ表示第三控制数值，E+δ表示第三输出信息或第三向量矩阵，Y表示真实标签或预设输出信息，θ表示网络模型的当前参数。

步骤293：利用第二损失值和第四损失值，调整网络模型的网络参数。

在一些实施例中，将第二损失值和第四损失值求和，得到本次训练的最终损失值，基于最终损失值调整网络模型的网络参数。

在一些实施例中，根据第三训练数据与第一训练数据或第二训练数据得到第二相似度，并利用第三控制数值对第二相似度进行加权，得到第五损失值；利用第二损失值、第四损失值和第五损失值，调整网络模型的网络参数。其中，采用以下公式表示第五损失值的运算过程：

L₃＝γKL(E||E+δ)；

其中，γ表示第三控制数值。

在一些实施例中，上述第五损失值的运算过程，可以在形成第三训练数据时进行计算。

可以理解，在上述步骤21-29完成后，将再次对剩余的训练数据集中的数据执行步骤21-29，以完成网络模型的训练。

在本实施例中，通过添加随机噪声的方式来获得扰动信息，解决了真实标签泄露的问题，并使训练时的数据扩大了一倍。并且网络模型在训练的时候就已经学习到了会有什么样的扰动样本，然后在训练过程中予以纠正，从而在测试阶段会有更好的效果表现。提升网络模型的准确性。将其应用于序列化推荐模型时，通过对序列化推荐模型的适配，能够加强目前所有类型的序列化推荐模型。缓解了目前序列化推荐模型中的易过拟合和鲁棒性问题。同时通过上述方式解决序列化推荐模型学习过程中所产生的过拟合问题，能够使得网络模型泛化性能更好，提升网络模型的准确性。

参阅图5，图5是本申请提供的信息推送方法第一实施例的流程示意图。该方法包括：

步骤51：获取用户的历史操作信息。

在一些实施例中，历史操作信息可以是用户在界面上的点击信息。如，在视频推荐领域，这些历史操作信息可以是用户历史观看的视频信息。如视频类型，观看时长等。如在购物推荐领域，这些历史操作信息可以是用户历史观看的商品信息和购买的商品信息。如商品类型，购买数量。如，在音乐推荐领域，这些历史操作信息可以是用户历史播放的音乐信息。如音乐类型，播放时长等。

步骤52：对历史操作信息进行序列化处理，以形成向量矩阵。

在一些实施例中，通过对历史操作信息进行序列化处理，以形成向量矩阵。

步骤53：将向量矩阵输入至网络模型，以得到推荐信息。

在一些实施例中，网络模型可以是利用上述方法训练得到的网络模型。

区别于现有技术，本实施例提供的推送方法，通过利用上述方法训练得到的网络模型来得到推荐信息，能够减少运行过程中噪声、扰动等带来的影响，提升推荐信息的准确性，提升用户使用体验。并且在用户的历史操作信息较少的情况下，使用上述方法训练得到的网络模型来得到推荐信息，能够改善系统冷启动的问题，提高推荐信息的准确性。

下面介绍下本申请的训练方法的应用实验数据。

本申请提出一种使用网络模型的训练方法，并使其适配到序列化推荐模型中，所提出的适配方案和训练方法很好地缓解了目前序列化推荐模型中的问题。

通过以下实验，发现本申请在数据量较少时会有更好的效果，即冷启动情况下会有更好的表现。同时本申请提出的训练方法可以更好地增强系统的鲁棒性，并且使得预测的准确率也有较好地提升。为了检测本申请网络模型的训练方法的通用性，对序列化推荐中的经典模型进行了实验，主要是以RNN为基础的代表模型Gru4Rec。使得其在不同的数据集上都取得了很好的效果，主要是在音乐推荐的数据集以及电影推荐的数据集上做了实验。评价指标有MAP(Mean Average Precision，平均准确率)、Recall(召回率)和NDCG(Normalized Discounted cumulative gain，归一化折损累计增益)。同时，针对推荐系统的网络模型原有的训练方法，针对冷启动问题的实验，单独设置了取部分的训练数据进行测试(比如取训练数据集的10％、50％和100％来做对比实验)。

我们主要对比的baseline(基础)有不加任何对抗训练的原始模型效果。经过我们的一些尝试把之前的对抗训练方法适配到序列化推荐领域的原始对抗训练效果，还有本申请提出的网络模型的训练方法都进行了对比。

实验具体设置：首先收集本次实验使用的数据集。根据用户的点击序列生成了数据集，并过滤掉使用频率很低的用户及其数据。处理完以后该数据集有79559个item，然后140788条数据。将数据集切分为训练数据集为80％，验证数据集为10％，测试数据集为10％。对所有实验数据进行公平比较，embedding设置为512，学习率为0.001，batch size设置为128。所有实验都是使用的tensorflow来实现，使用GPU Tesla P100进行加速计算。

对下述表1-至表7中的部分内容进行说明：

Model模型总称，具体有Gru4Rec、Gru4Rec-ADV、Gru4Rec-Ours。其中，Gru4Rec表示原始推荐模型；Gru4Rec-ADV表示利用本申请改进的基础推荐模型，其中，由于推荐系统原始的训练方法直接应用到序列化推荐模型效果不佳，该模型为根据本申请进行相应改进适配的方法，如，去掉数据预处理阶段，去掉L2正则化的配合，加上embedding的归一化等操作；Gru4Rec-Ours表示采用本申请的网络模型的训练方法设置的模型。

实验1：本申请提出的网络模型的训练方法可以用于提升序列化推荐模型的整体准确率和鲁棒性，具体参阅表1和表2，本申请的方法在电影推荐和音乐推荐的数据集上都取得了很好的效果。

表1：电影推荐数据集在不同网络模型的实验结果

Model	MRR	HR	NDCG
				Gru4Rec	0.0838	0.1426	0.0983
Gru4Rec-ADV	0.0882	0.1497	0.1034
				Gru4Rec-Ours	0.0908	0.1545	0.1065

表2：音乐推荐数据集在不同网络模型的实验结果：

如表1和表2所示，本申请提出的网络模型的训练方法在不同类型的数据集的各个指标上都有较好地提升。尤其是对于原始模型会有很大的性能提升。另外可以观察到，原有的基础推荐模型经过适配使其可以在序列化推荐有较好效果，作为一个基础方法，可以有效提升模型性能，但实验结果表明本申请提出的网络模型的训练方法训练的网络模型比另外两种网络模型有更好的表现。

实验2：本申请提出的网络模型的训练方法可以当作一种增强模型可靠性的训练策略，使得通过该方法训练的序列化推荐模型能够有更好的鲁棒性。这个在不同推荐系统可靠性要求比较高的领域都可以使用本申请的方法来提升其网络模型抵抗噪声和恶意攻击的能力。该实验设置使用最原始的对抗攻击方法，把攻击参数设置为0.8去扰动下列不同的网络模型，实验结果参阅表3。

表3：电影推荐数据集在扰动情况下的对比实验结果：

Model	MRR	HR	NDCG
				Gru4Rec	-33.61％	-31.34％	-32.86％
Gru4Rec-ADV	-19.88％	-17.73％	-19.07％
				Gru4Rec-Ours	-14.80％	-13.34％	-14.32

通过实验2可以发现，当加上一个微小的扰动的时候(此实验加的是0.8*归一化后的扰动)模型准确率出现了明显的下降。原始模型下降了百分之30左右的准确率。经过本申请提出的方法进行训练，可以把这个错误率降低一倍。有效增强了网络模型的鲁棒性，使得训练出的网络模型在实际生产应用中推荐的结果更加可靠。

实验3：本申请提出的网络模型的训练方法可以作为一种数据增强的算法，来解决推荐系统的冷启动问题。尤其是当系统数据量比较小的时候，准确率和鲁棒性表现更好。把训练数据集进行切分，分别划分了10％和50％的数据集样本来模拟当数据量仅有原始数据量的10％，50％时具体的推荐效果，以及本申请所提出方法进行一些相应的对比实验。实验结果参阅表4-表7。

表4：电影推荐数据集切分10％下的实验结果：

Model	MRR	HR	NDCG
				Gru4Rec	0.0416	0.0786	0.0507
Gru4Rec-ADV	0.0487	0.0847	0.0576
				Gru4Rec-Ours	0.0491	0.0903	0.0592

表5：音乐推荐数据集切分10％下的实验结果：

Model	MRR	HR	NDCG
				Gru4Rec	0.1539	0.1852	0.1618
Gru4Rec-ADV	0.217	0.254	0.2262
				Gru4Rec-Ours	0.2276	0.2648	0.2369

表6：电影推荐数据集切分50％下的实验结果：

Model	MRR	HR	NDCG
				Gru4Rec	0.0727	0.1242	0.0854
Gru4Rec-ADV	0.0779	0.1322	0.0913
				Gru4Rec-Ours	0.0817	0.1361	0.0951

表7：音乐推荐数据集切分50％下的实验结果：

Model	MRR	HR	NDCG
				Gru4Rec	0.281	0.3365	0.2948
Gru4Rec-ADV	0.2954	0.3507	0.3092
				Gru4Rec-Ours	0.3044	0.3636	0.3191

通过上述表4-表7的数据可以发现，当数据量越来越小的时候，网络模型效果受到了很大的影响。但是相应的本申请的方法可以更大程度地进行性能提升，对比原始模型可达到提升20％的效果，使得当系统冷启动情况下，能够最大限度地利用现有数据来提升网络模型地推荐效果。

可以理解，上述实验中的模型仅仅是用于实验，在实际应用中可以是其他类型的模型。

参阅图6，图6是本申请提供的电子设备一实施例的结构示意图。该电子设备60包括处理器61以及与处理器61耦接的存储器62；其中，存储器61用于存储程序数据，处理器61用于执行程序数据，以实现如下方法步骤：

采用第一训练数据对网络模型进行训练，得到第一输出信息；对第一训练数据添加随机噪声，得到第二训练数据，采用第二训练数据对网络模型进行训练，得到第二输出信息；根据第一输出信息和第二输出信息，确定扰动信息；对第一训练数据或第二训练数据添加扰动信息，得到第三训练数据，采用第三训练数据对网络模型进行训练，得到第三输出信息；根据第三输出信息与预设输出信息之间的差异，调整网络模型的参数；

或，获取用户的历史操作信息；对历史操作信息进行序列化处理，以形成向量矩阵；将向量矩阵输入至网络模型，以得到推荐信息。

可以理解，处理器61还用于执行程序数据，以实现上述任一实施例的方法。

参阅图7，图7是本申请提供的计算机可读存储介质一实施例的结构示意图。该计算机可读存储介质70用于存储程序数据71，程序数据71在被处理器执行时，用于实现如下方法步骤：

可以理解，程序数据71在被处理器执行时，还用于实现上述任一实施例的方法。

在本申请所提供的几个实施方式中，应该理解到，所揭露的方法以及设备，可以通过其它的方式实现。例如，以上所描述的设备实施方式仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述其他实施方式中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种网络模型的训练方法，其特征在于，所述方法包括：

采用第一训练数据对网络模型进行训练，得到第一输出信息；

对所述第一训练数据添加随机噪声，得到第二训练数据，采用所述第二训练数据对所述网络模型进行训练，得到第二输出信息；

根据所述第一输出信息和所述第二输出信息，确定扰动信息；

对所述第一训练数据或所述第二训练数据添加所述扰动信息，得到第三训练数据，采用所述第三训练数据对所述网络模型进行训练，得到第三输出信息；

根据所述第三输出信息与预设输出信息之间的差异，调整所述网络模型的参数。

2.根据权利要求1所述的方法，其特征在于，

所述采用第一训练数据对网络模型进行训练，得到第一输出信息，包括：

从训练数据集中获取预设数量的目标训练数据作为第一训练数据；

将预设数量的所述目标训练数据进行序列化处理，以形成第一向量矩阵；

采用所述第一向量矩阵对所述网络模型进行训练，得到第一输出信息；其中，输出信息为概率矩阵，所述概率矩阵用于表示所述网络模型基于所述目标训练数据的预测信息。

3.根据权利要求2所述的方法，其特征在于，

所述对所述第一训练数据添加随机噪声，得到第二训练数据，采用所述第二训练数据对所述网络模型进行训练，得到第二输出信息，包括：

对所述第一向量矩阵中的每个元素添加随机噪声，得到第二向量矩阵，将所述第二向量矩阵作为第二训练数据；

采用所述第二向量矩阵对所述网络模型进行训练，得到第二输出信息；其中，输出信息为概率矩阵，所述概率矩阵用于表示所述网络模型基于所述第二向量矩阵的预测信息。

4.根据权利要求3所述的方法，其特征在于，

所述对所述第一训练数据或所述第二训练数据添加所述扰动信息，得到第三训练数据，采用所述第三训练数据对所述网络模型进行训练，得到第三输出信息，包括：

对所述第一向量矩阵或所述第二向量矩阵添加所述扰动信息，得到第三向量矩阵，将所述第三向量矩阵作为第三训练数据；

采用所述第三向量矩阵对所述网络模型进行训练，得到第三输出信息；其中，输出信息为概率矩阵，所述概率矩阵用于表示所述网络模型基于所述第三向量矩阵的预测信息。

5.根据权利要求4所述的方法，其特征在于，

所述对所述第一向量矩阵或所述第二向量矩阵添加所述扰动信息，得到第三向量矩阵，将所述第三向量矩阵作为第三训练数据，包括：

对所述第一向量矩阵或所述第二向量矩阵添加所述扰动信息，得到第三向量矩阵；

若所述第三向量矩阵与所述第一向量矩阵或所述第二向量矩阵的相似度满足约束条件，则确定所述第三向量矩阵为所述第三训练数据。

6.根据权利要求1所述的方法，其特征在于，

所述根据所述第一输出信息和所述第二输出信息，确定扰动信息，包括：

确定所述第一输出信息的第一分布以及所述第二输出信息的第二分布；

计算所述第一分布与所述第二分布的相似度，得到第一相似度；

基于所述第一相似度确定扰动信息。

7.根据权利要求6所述的方法，其特征在于，

所述基于所述第一相似度确定扰动信息，包括：

利用所述第一相似度进行梯度更新计算，以得到第一扰动值；其中，在利用所述第一相似度进行梯度更新计算时，所述网络模型的网络参数不进行更新；

对所述第一扰动值进行求导得到第二扰动值，并利用第一控制数值对所述第二扰动值进行加权，得到第三扰动值；

将所述第三扰动值确定为所述扰动信息。

8.根据权利要求1所述的方法，其特征在于，

所述根据所述第三输出信息与预设输出信息之间的差异，调整所述网络模型的参数，包括：

利用第一输出信息与预设输出信息之间的差异，得到第一损失值，并利用第二控制数值对所述第一损失值进行加权，得到第二损失值；

利用第三输出信息与预设输出信息之间的差异，得到第三损失值，并利用第三控制数值对所述第二损失值进行加权，得到第四损失值；

利用所述第二损失值和所述第四损失值，调整所述网络模型的网络参数。

9.根据权利要求8所述的方法，其特征在于，

所述利用第三输出信息与预设输出信息之间的差异，得到第三损失值，并利用第三控制数值对所述第二损失值进行加权，得到第四损失值之后，包括：

根据所述第三训练数据与所述第一训练数据或所述第二训练数据得到第二相似度，并利用第三控制数值对所述第二相似度进行加权，得到第五损失值；

所述利用所述第二损失值、第四损失值，调整所述网络模型的网络参数，包括：

所述利用所述第二损失值、第四损失值和所述第五损失值，调整所述网络模型的网络参数。

10.一种信息推送方法，其特征在于，所述方法包括：

获取用户的历史操作信息；

对所述历史操作信息进行序列化处理，以形成向量矩阵；

将所述向量矩阵输入至如权利要求1-9任一项所述的方法训练得到的网络模型，以得到推荐信息。

11.一种电子设备，其特征在于，所述电子设备包括处理器以及与所述处理器耦接的存储器；

其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据，以实现如权利要求1至9任一项所述的方法，或如权利要求10所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序数据，所述程序数据在被处理器执行时，用于实现如权利要求1-9任一项所述的方法，或权利要求10所述的方法。