CN112989186B

CN112989186B - 资讯信息推荐模型训练方法、装置、电子设备及存储介质

Info

Publication number: CN112989186B
Application number: CN202110214176.7A
Authority: CN
Inventors: 杜颖; 张伸正
Original assignee: Shenzhen Yayue Technology Co ltd
Current assignee: Shenzhen Yayue Technology Co ltd
Priority date: 2021-02-25
Filing date: 2021-02-25
Publication date: 2024-01-12
Anticipated expiration: 2041-02-25
Also published as: CN112989186A

Abstract

本发明提供了一种资讯信息推荐模型训练方法、装置、电子设备，方法包括：基于所述目标用户的行为长尾资讯信息，确定相应的伪训练样本；将所述伪训练样本与真实训练样本进行样本拼接处理，形成拼接训练样本；确定所述资讯信息推荐模型的初始模型参数；通过所述拼接训练样本对所述资讯信息推荐模型中的不同子网络进行训练，确定所述资讯信息推荐模型的更新参数；根据所述资讯信息推荐模型的更新参数，通过所述拼接训练样本对所述资讯信息推荐模型的初始参数进行迭代更新。由此，不但能够增强资讯信息推荐的准确性与时效性，有效提资讯信息的推荐的质量，提升用户的使用体验。

Description

资讯信息推荐模型训练方法、装置、电子设备及存储介质

技术领域

本发明涉及信息处理技术，尤其涉及资讯信息推荐模型训练方法、装置、及电子设备。

背景技术

人工智能（AI，Artificial Intelligence）是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，例如自然语言处理技术以及机器学习/深度学习等几大方向，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

传统技术中，各类资讯推荐系统向用户推荐相应的资讯过程中可以使用协同过滤的推荐方式，协同过滤作为有效的推荐方法在各类资讯推荐系统中广泛应用，但是这种基于用户兴趣的推荐，是利用用户历史行为建立用户在具体类目以及标签上的兴趣分数，在召回时如果新闻资讯中的标签信息命中相应的用户兴趣标签，则召回该资讯。但是这类表示方法比较粗放，并且分类标签信息需要提前设置并及时更新，所以对内容表示能力是有限的大量长尾文章曝光极低，甚至得不到投放，这些长尾很少或很难进入到模型样本中进行训练，导致模型对于长尾文章学习不足，对于长尾文章的预估能力很差。同时，在模型对于长尾文章预估能力很差的情况下，长尾获得展示的机会就会更少，形成恶性循环，导致文章的分发绝大部分都只集中在头部，造成生态的偏斜。

发明内容

有鉴于此，本发明实施例提供一种资讯信息推荐模型训练方法、装置、电子设备及存储介质，本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种资讯信息推荐模型训练方法包括：

获取资讯信息推荐模型使用环境中的长尾资讯信息；

基于所述目标用户的行为长尾资讯信息，确定相应的伪训练样本；

将所述伪训练样本与真实训练样本进行样本拼接处理，形成拼接训练样本；

确定所述资讯信息推荐模型的初始模型参数；

通过所述拼接训练样本对所述资讯信息推荐模型中的不同子网络进行训练，确定所述资讯信息推荐模型的更新参数；

根据所述资讯信息推荐模型的更新参数，通过所述拼接训练样本对所述资讯信息推荐模型的初始参数进行迭代更新，以实现所述资讯信息推荐模型能够对使用环境中的长尾资讯信息进行推荐。

本发明实施例还提供了一种资讯信息推荐模型训练装置，包括：

信息传输模块，用于获取资讯信息推荐模型使用环境中的长尾资讯信息；

信息处理模块，用于基于所述目标用户的行为长尾资讯信息，确定相应的伪训练样本；

所述信息处理模块，用于将所述伪训练样本与真实训练样本进行样本拼接处理，形成拼接训练样本；

所述信息处理模块，用于确定所述资讯信息推荐模型的初始模型参数；

所述信息处理模块，用于通过所述拼接训练样本对所述资讯信息推荐模型中的不同子网络进行训练，确定所述资讯信息推荐模型的更新参数；

所述信息处理模块，用于根据所述资讯信息推荐模型的更新参数，通过所述拼接训练样本对所述资讯信息推荐模型的初始参数进行迭代更新，以实现所述资讯信息推荐模型能够对使用环境中的长尾资讯信息进行推荐。

上述方案中，

所述信息处理模块，用于根据所述资讯信息推荐模型使用环境，确定与所述资讯信息推荐模型使用环境相匹配的曝光阈值；

所述信息处理模块，用于获取所述资讯信息源中的不同资讯信息所携带的曝光量参数；

所述信息处理模块，用于通过所述曝光阈值对所述不同资讯信息所携带的曝光量参数进行遍历，确定所述资讯信息推荐模型使用环境中的长尾资讯信息。

上述方案中，

所述信息处理模块，用于根据所述资讯信息推荐模型使用环境，确定与所述资讯信息推荐模型相匹配的样本混合方式，其中，所述与所述资讯信息推荐模型相匹配的样本混合方式包括：原始样本迭代排序，或者洗牌函数排序；

所述信息处理模块，用于根据与所述资讯信息推荐模型相匹配的样本混合方式，对所述伪训练样本与真实训练样本进行样本拼接处理。

上述方案中，

所述信息处理模块，用于将所述拼接训练样本中的真实训练样本和伪训练样本分别带入所述资讯信息推荐模型中的不同子网络进行训练，确定不同子网络的损失函数；

所述信息处理模块，用于对所述不同子网络的损失函数进行加和，确定所述资讯信息推荐模型的多任务损失函数；

所述信息处理模块，用于基于所述资讯信息推荐模型的多任务损失函数，对所述资讯信息推荐模型的网络参数进行调整；

直至所述资讯信息推荐模型对应的不同维度的损失函数达到相应的收敛条件；以实现通过所述资讯信息推荐模型能够对使用环境中的长尾资讯信息进行推荐。

上述方案中，

所述信息处理模块，用于将所述拼接训练样本中的真实训练样本，带入所述资讯信息推荐模型中的第一时长预测网络；

所述信息处理模块，用于确定所述第一时长预测网络的损失函数满足收敛条件时，对应所述第一时长预测网络的损失函数。

上述方案中，

所述信息处理模块，用于将所述拼接训练样本中的伪训练样本，带入所述资讯信息推荐模型中的第二时长预测网络；

所述信息处理模块，用于对所述第一时长预测网络的损失函数进行数据蒸馏处理，根据时长蒸馏损失函数调整所述第二时长预测网络的模型参数；

所述信息处理模块，用于确定所述第二时长预测网络的损失函数满足收敛条件时，对应所述第二时长预测网络的损失函数。

上述方案中，

所述信息处理模块，用于将所述拼接训练样本中的真实训练样本，带入所述资讯信息推荐模型中的第一点击率预测网络；

所述信息处理模块，用于确定所述第一点击率预测网络的损失函数满足收敛条件时，对应所述第一点击率预测网络的损失函数。

上述方案中，

所述信息处理模块，用于将所述拼接训练样本中的伪训练样本，带入所述资讯信息推荐模型中的第二点击率预测网络；

所述信息处理模块，用于对所述第一点击率预测网络的损失函数进行数据蒸馏处理，根据点击率蒸馏损失函数调整所述第二点击率预测网络的模型参数；

所述信息处理模块，用于确定所述第二点击率预测网络的损失函数满足收敛条件时，对应所述第二点击率预测网络的损失函数。

上述方案中，

所述信息处理模块，用于对所述第一点击率预测网络的损失函数、第二点击率预测网络的损失函数、第一时长预测网络的损失函数、第二时长预测网络的损失函数、点击率蒸馏损失函数以及时长蒸馏损失函数进行加和，确定所述资讯信息推荐模型的损失函数；

所述信息处理模块，用于确定所述资讯信息推荐模型的损失函数满足收敛条件时对应所述资讯信息推荐模型的模型参数为所述资讯信息推荐模型的更新参数。

上述方案中，

所述信息处理模块，用于当所述资讯信息推荐模型应用于视频信息推荐进程中时，确定与所述视频信息推荐进程相匹配的动态噪声阈值；

所述信息处理模块，用于根据所述动态噪声阈值对第一训练样本集合进行去噪处理，以形成与所述动态噪声阈值相匹配的第二训练样本集合。

上述方案中，

所述信息处理模块，用于当所述资讯信息推荐模型应用于新闻信息推荐进程中时，确定与所述新闻信息推荐进程相对应的固定噪声阈值，并根据所述固定噪声阈值对第一训练样本集合进行去噪处理，以形成与所述固定噪声阈值相匹配的第二训练样本集合。

上述方案中，

所述信息处理模块，用于当向所述目标用户输出所述待推荐资讯信息时，监测所述目标用户的操作信息；其中，对所述目标用户的操作信息的监测操作是合法的；

所述信息处理模块，用于基于所监测的所述目标用户的操作信息，确定所述待推荐资讯信息的点击率与浏览时间。

本发明实施例还提供了一种电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现前述的资讯信息推荐模型训练方法。

本发明实施例还提供了一种计算机可读存储介质，存储有可执行指令，所述可执行指令被处理器执行时实现前述的资讯信息推荐模型训练方法。

本发明实施例具有以下有益效果：

本发明通过获取资讯信息推荐模型使用环境中的长尾资讯信息；基于所述目标用户的行为长尾资讯信息，确定相应的伪训练样本；将所述伪训练样本与真实训练样本进行样本拼接处理，形成拼接训练样本；确定所述资讯信息推荐模型的初始模型参数；通过所述拼接训练样本对所述资讯信息推荐模型中的不同子网络进行训练，确定所述资讯信息推荐模型的更新参数；根据所述资讯信息推荐模型的更新参数，通过所述拼接训练样本对所述资讯信息推荐模型的初始参数进行迭代更新，由此，可以实现所述资讯信息推荐模型能够对使用环境中的长尾资讯信息进行推荐，同时增强了资讯信息推荐的准确性与时效性，有效提资讯信息的推荐的质量，提升用户的使用体验。

附图说明

图1为本发明实施例提供的资讯信息推荐模型训练方法的使用场景示意图；

图2为本发明实施例提供的资讯信息推荐模型训练装置的组成结构示意图；

图3为本发明实施例提供的资讯信息推荐模型训练方法一个可选的流程示意图；

图4为本发明实施例中资讯信息推荐模型的一个可选的模型结构示意图；

图5为本发明中资讯信息推荐模型一个可选的模型结构示意图；

图6为本发明实施例提供的资讯信息推荐模型训练方法一个可选的流程示意图；

图7为本发明实施例中资讯信息推荐模型的训练方法的应用环境示意图；

图 8为本发明实施例所提供的资讯信息推荐方法一个可选的工作流程示意图；

图 9为本发明实施例所提供的资讯信息推荐方法的工作过程示意图；

图10是本发明实施例提供的目标对象确定装置100的架构示意图；

图11是本发明实施例提供的区块链网络200中区块链的结构示意图；

图12是本发明实施例提供的区块链网络200的功能架构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解， “一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1）响应于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

2）基于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

3）模型训练，对图像数据集进行多分类学习。该模型可采用Tensor Flow、torch等深度学习框架进行构建，使用CNN等神经网络层的多层结合组成多分类模型。模型的输入为图像经过openCV等工具读取形成的三通道或原通道矩阵，模型输出为多分类概率，通过softmax等算法最终输出网页类别。在训练时，模型通过交叉熵等目标函数向正确趋势逼近。

4）神经网络（Neural Network，NN）：人工神经网络（Artificial Neural Network，ANN），简称神经网络或类神经网络，在机器学习和认知科学领域，是一种模仿生物神经网络（动物的中枢神经系统，特别是大脑）的结构和功能的数学模型或计算模型，用于对函数进行估计或近似。

其中，本发明实施例可结合云技术实现，云技术(Cloud technology)是指在广域网或局域网内将硬件、软件及网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术，也可理解为基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术及应用技术等的总称。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站，因此云技术需要以云计算作为支撑。

需要说明的是，云计算是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。作为云计算的基础能力提供商，会建立云计算资源池平台，简称云平台，一般称为基础设施即服务(IaaS，Infrastructure as a Service)，在资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(可为虚拟化机器，包含操作系统)、存储设备和网络设备。

5）资讯信息，互联网中可获取的各种形式的资讯，如客户端或者智能设备中呈现的视频文件、多媒体信息、新闻信息等。

6）聚类，根据n个数据的邻域密度或数据之间的距离，把数据聚合成N个类别，其中N远小于n

图1为本发明实施例提供的资讯信息推荐模型训练方法的使用场景示意图，参见图1，终端（包括终端10-1和终端10-2）上设置有能够显示相应不同资讯信息的软件的客户端，例如视频播放的客户端或插件，用户通过相应的客户端可以获得不同资讯信息（例如不同的短视频信息或者新闻信息）并进行展示；终端通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。

作为一个示例，服务器200用于布设相应的资讯信息推荐模型以实现本发明所提供的资讯信息推荐模型训练方法，或者布设资讯信息推荐模型训练装置，以实现资讯信息推荐模型训练方法，具体的，通过资讯信息推荐处理包括：获取资讯信息推荐模型使用环境中的长尾资讯信息；基于所述目标用户的行为长尾资讯信息，确定相应的伪训练样本；将所述伪训练样本与真实训练样本进行样本拼接处理，形成拼接训练样本；确定所述资讯信息推荐模型的初始模型参数；通过所述拼接训练样本对所述资讯信息推荐模型中的不同子网络进行训练，确定所述资讯信息推荐模型的更新参数；根据所述资讯信息推荐模型的更新参数，通过所述拼接训练样本对所述资讯信息推荐模型的初始参数进行迭代更新，以实现所述资讯信息推荐模型能够对使用环境中的长尾资讯信息进行推荐，并通过终端（终端10-1和/或终端10-2）展示输出与所述目标用户相匹配的待推荐资讯信息。以短视频资讯信息为例，本发明所提供的资讯信息推荐模型可以应用于短视频播放，在短视频播放中通常会对不同数据来源的不同短视频资讯信息进行处理，最终在用户界面UI（User Interface）上呈现出与相应的不同资讯信息以及相应的与相应短视频推荐进程相对应的待推荐视频，不同资讯信息相的特征的准确性与及时性直接影响了用户体验。视频播放的后台数据库每天都会收到大量不同来源的视频数据，所得到与向目标用户进行资讯信息推荐的不同资讯信息还可以供其他应用程序调用（例如短视频推荐进程的推荐结果迁移至长视频推荐进程或者新闻推荐进程），当然，与相应的目标用户相匹配的资讯信息推荐模型也可以迁移至不同的视频推荐进程（例如网页视频推荐进程、小程序视频推荐进程或者长视频客户端的视频推荐进程）。

其中，本申请实施例所提供的资讯信息推荐模型训练方法是基于人工智能实现的，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大资讯信息推荐模型训练技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，主要涉及的人工智能软件技术包括上述语音处理技术和机器学习等方向。例如，可以涉及语音技术(Speech Technology)中的语音识别技术(AutomaticSpeech Recognition，ASR)，其中包括语音信号预处理(Speech signal preprocessing)、语音信号频域分析(Speech signal frequency analyzing)、语音信号特征提取(Speechsignal feature extraction)、语音信号特征匹配/识别(Speech signal featurematching/recognition)、语音的训练(Speech training)等。

例如可以涉及机器学习(Machine learning，ML)，机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习通常包括深度学习(Deep Learning)等技术，深度学习包括人工神经网络(artificial neural network) ，例如卷积神经网络(ConvolutionalNeural Network，CNN)、循环神经网络(Recurrent Neural Network，RNN)、深度神经网络(Deep neural network，DNN)等。

可以理解的是，本申请提供的资讯信息推荐模型训练方法以及语音处理可以应用于智能设备(Intelligent device)上，智能设备可以是任何一种具有信息展示功能的设备，例如可以是智能终端、智能家居设备(如智能音箱、智能洗衣机等)、智能穿戴设备(如智能手表)、车载智能中控系统（通过执行不同任务的小程序向用户展示资讯信息）或者AI智能医疗设备（通过展示资讯信息展示治疗案例）等。

下面对本发明实施例的资讯信息推荐模型训练装置的结构做详细说明，资讯信息推荐模型训练装置可以各种形式来实施，如带有资讯信息推荐处理功能的专用终端，也可以为设置有资讯信息推荐模型训练装置处理功能的服务器，例如前序图1中的服务器200。图2为本发明实施例提供的资讯信息推荐模型训练装置的组成结构示意图，可以理解，图2仅仅示出了资讯信息推荐模型训练装置的示例性结构而非全部结构，根据需要可以实施图2示出的部分结构或全部结构。

本发明实施例提供的资讯信息推荐模型训练装置包括：至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。资讯信息推荐模型训练装置中的各个组件通过总线系统205耦合在一起。可以理解，总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统205。

其中，用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器202可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端（如10-1）的操作。这些数据的示例包括：用于在终端（如10-1）上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

在一些实施例中，本发明实施例提供的资讯信息推荐模型训练装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的资讯信息推荐模型训练装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的视频资讯信息推荐模型的训练方法。例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路（ASIC，Application Specific Integrated Circuit）、DSP、可编程逻辑器件（PLD，Programmable Logic Device）、复杂可编程逻辑器件（CPLD，Complex Programmable LogicDevice）、现场可编程门阵列（FPGA，Field-Programmable Gate Array）或其他电子元件。

作为本发明实施例提供的资讯信息推荐模型训练装置采用软硬件结合实施的示例，本发明实施例所提供的资讯信息推荐模型训练装置可以直接体现为由处理器201执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器202，处理器201读取存储器202中软件模块包括的可执行指令，结合必要的硬件（例如，包括处理器201以及连接到总线205的其他组件）完成本发明实施例提供的视频资讯信息推荐模型的训练方法。

作为示例，处理器201可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器（DSP，Digital Signal Processor），或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

作为本发明实施例提供的资讯信息推荐模型训练装置采用硬件实施的示例，本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成，例如，被一个或多个应用专用集成电路（ASIC，Application Specific Integrated Circuit）、DSP、可编程逻辑器件（PLD，Programmable Logic Device）、复杂可编程逻辑器件（CPLD，Complex Programmable Logic Device）、现场可编程门阵列（FPGA，Field-ProgrammableGate Array）或其他电子元件执行实现本发明实施例提供的视频资讯信息推荐模型的训练方法。

本发明实施例中的存储器202用于存储各种类型的数据以支持资讯信息推荐模型训练装置的操作。这些数据的示例包括：用于在资讯信息推荐模型训练装置上操作的任何可执行指令，如可执行指令，实现本发明实施例的从视频资讯信息推荐模型的训练方法的程序可以包含在可执行指令中。

在另一些实施例中，本发明实施例提供的资讯信息推荐模型训练装置可以采用软件方式实现，图2示出了存储在存储器202中的资讯信息推荐模型训练装置，其可以是程序和插件等形式的软件，并包括一系列的模块，作为存储器202中存储的程序的示例，可以包括资讯信息推荐模型训练装置，资讯信息推荐模型训练装置中包括以下的软件模块：

信息传输模块2081和信息处理模块2082。当资讯信息推荐模型训练装置中的软件模块被处理器201读取到RAM中并执行时，将实现本发明实施例提供的视频资讯信息推荐模型的训练方法，其中，资讯信息推荐模型训练装置中各个软件模块的功能，包括：信息传输模块，用于响应于资讯信息推荐请求，获取目标用户的行为参数信息；

信息传输模块2081，用于获取资讯信息推荐模型使用环境中的长尾资讯信息。

信息处理模块2082，用于基于所述目标用户的行为长尾资讯信息，确定相应的伪训练样本。

所述信息处理模块2082，用于将所述伪训练样本与真实训练样本进行样本拼接处理，形成拼接训练样本。

所述信息处理模块2082，用于确定所述资讯信息推荐模型的初始模型参数。

所述信息处理模块2082，用于通过所述拼接训练样本对所述资讯信息推荐模型中的不同子网络进行训练，确定所述资讯信息推荐模型的更新参数。

所述信息处理模块2082，用于根据所述资讯信息推荐模型的更新参数，通过所述拼接训练样本对所述资讯信息推荐模型的初始参数进行迭代更新，以实现所述资讯信息推荐模型能够对使用环境中的长尾资讯信息进行推荐。

结合图2示出的资讯信息推荐模型训练装置说明本发明实施例提供的资讯信息推荐模型训练方法，参见图3，图3为本发明实施例提供的资讯信息推荐模型训练方法一个可选的流程示意图，可以理解地，图3所示的步骤可以由运行资讯信息推荐模型训练装置的各种电子设备执行，例如可以是如带有资讯信息推荐模型训练装置的专用终端、服务器或者服务器集群，其中，带有资讯信息推荐模型训练装置的专用终端可以为前序图2所示的实施例中带有资讯信息推荐模型训练装置的电子设备。下面针对图3示出的步骤进行说明。

步骤301：资讯信息推荐模型训练装置接收终端发送的资讯信息推荐请求。

步骤302：资讯信息推荐模型训练装置响应于资讯信息推荐请求，获取资讯信息推荐模型使用环境中的长尾资讯信息。

在本发明的一些实施例中，可以通过不同的程序组件对相应的客户端所匹配的用户各类行为的收集，通过对用户行为数据的原始日志进行有效提取，例如提取用户的设备号（用户账号），资讯信息种类，资讯信息的浏览时长，以及资讯信息的浏览完整度参数。其中，用户的历史点击行为及对应资讯的浏览时长会通过订阅服务记录下来并存储在Redis中，在线推荐系统会在用户请求到来时，去拉取对应用户的历史点击行为。进一步地，可以根据所述资讯信息推荐模型使用环境，确定与所述资讯信息推荐模型使用环境相匹配的曝光阈值；获取所述资讯信息源中的不同资讯信息所携带的曝光量参数；通过所述曝光阈值对所述不同资讯信息所携带的曝光量参数进行遍历，确定所述资讯信息推荐模型使用环境中的长尾资讯信息。

步骤303：资讯信息推荐模型训练装置基于所述目标用户的行为长尾资讯信息，确定相应的伪训练样本，并将所述伪训练样本与真实训练样本进行样本拼接处理，形成拼接训练样本。

在本发明的一些实施例中，将所述伪训练样本与真实训练样本进行样本拼接处理，形成拼接训练样本，可以通过以下方式实现：

根据所述资讯信息推荐模型使用环境，确定与所述资讯信息推荐模型相匹配的样本混合方式，其中，所述与所述资讯信息推荐模型相匹配的样本混合方式包括：原始样本迭代排序，或者洗牌函数排序；根据与所述资讯信息推荐模型相匹配的样本混合方式，对所述伪训练样本与真实训练样本进行样本拼接处理，其中，预设的随机排序算法可以是多种的。示例性的，预设的随机排序算法可以是对原数组进行迭代的算法，具体可以包括：循环生成随机数，每生成一次随机数就将该随机数确定为原数组中元素的下标，将所确定的下标对应的元素添加至新数组，依次迭代，直到原数组为空，得到对原数组中的元素随机排序后的新数组。或者，示例性的，预设的随机排序算法可以是Shuffle(洗牌)函数，该函数可以利用散列算法计算数组中每个元素对应的key值，从而按照得到的key值对数组中的元素进行字典排序，得到对原数组中的元素随机排序后的新数组。任何能够实现随机排序的算法均可作为本发明中预设的随机排序算法，本实施例对此不作限制。

步骤304：资讯信息推荐模型训练装置确定所述资讯信息推荐模型的初始模型参数。

步骤305：资讯信息推荐模型训练装置通过所述拼接训练样本对所述资讯信息推荐模型中的不同子网络进行训练，确定所述资讯信息推荐模型的更新参数。

参考图4，图4为本发明中资讯信息推荐模型一个可选的模型结构示意图，其中，现有ranking模型对用户点击率和阅读完成度两种目标同时建模，采用的是MMOE多任务模型，MMOE模型基于shared-bottom和OMOE（One-gate Mixture-of-Experts）结构。通过共享底层，以及门控的方式来学习多任务之间的关联关系。每个任务使用单独的gatingnetworks，每个任务的gating networks通过最终输出权重不同实现对experts的选择性利用。不同任务的gating networks可以学习到不同的组合experts的模式。但是这类表示方法比较粗放，并且分类标签信息需要提前设置并及时更新，所以对内容表示能力是有限的大量长尾文章曝光极低，甚至得不到投放，这些长尾很少或很难进入到模型样本中进行训练，导致模型对于长尾文章学习不足，对于长尾文章的预估能力很差。同时，在模型对于长尾文章预估能力很差的情况下，长尾获得展示的机会就会更少，形成恶性循环，导致文章的分发绝大部分都只集中在头部，造成生态的偏斜。

参考图5，图5为本发明中资讯信息推荐模型一个可选的模型结构示意图，其中，确定资讯信息推荐模型的更新参数时，可以将所述拼接训练样本中的真实训练样本和伪训练样本分别带入所述资讯信息推荐模型中的不同子网络进行训练，确定不同子网络的损失函数；对所述不同子网络的损失函数进行加和，确定所述资讯信息推荐模型的多任务损失函数；基于所述资讯信息推荐模型的多任务损失函数，对所述资讯信息推荐模型的网络参数进行调整；直至所述资讯信息推荐模型对应的不同维度的损失函数达到相应的收敛条件；以实现通过所述资讯信息推荐模型能够对使用环境中的长尾资讯信息进行推荐。其中，可以通过推荐系统的排序模型对长尾训练样本进行采样打分处理，形成伪样本；然后，将伪样本加入真实样本中混合拼接后进行联合训练。资讯信息推荐模型采用双塔联合蒸馏多任务模型结构，具体分为：真实样本ctr预测任务，伪样本ctr预测任务，真实样本观看时长预测任务，伪样本观看时长预测任务，在真实样本ctr预测和伪样本ctr预测任务之间，以及真实样本观看时长预测和伪样本观看时长预测任务之间采用联合蒸馏的训练方式，使得真实样本任务的训练经验可以蒸馏给伪样本任务使用，达到更好的联合训练共同增益的目的，从而解决模型对于长尾预估能力差的问题。

结合图2示出的资讯信息推荐装置说明本发明实施例提供的资讯信息推荐模型训练方法，参见图6，图6为本发明实施例提供的资讯信息推荐模型训练方法一个可选的流程示意图，可以理解地，图6所示的步骤可以由运行资讯信息推荐装置的各种电子设备执行，例如可以是如带有资讯信息推荐装置的专用终端、服务器或者服务器集群，其中，带有资讯信息推荐装置的专用终端可以为前序图2所示的实施例中带有资讯信息推荐装置的电子设备。下面针对图6示出的步骤进行说明。

步骤601：将所述拼接训练样本中的真实训练样本，带入所述资讯信息推荐模型中的第一时长预测网络；

步骤602：确定所述第一时长预测网络的损失函数满足收敛条件时，对应所述第一时长预测网络的损失函数。

步骤603：将所述拼接训练样本中的伪训练样本，带入所述资讯信息推荐模型中的第二时长预测网络。

步骤604：对所述第一时长预测网络的损失函数进行数据蒸馏处理，根据时长蒸馏损失函数调整所述第二时长预测网络的模型参数。

由此，在真实样本ctr预测和伪样本ctr预测任务之间，以及真实样本观看时长预测和伪样本观看时长预测任务之间采用联合蒸馏的训练方式，使得真实样本任务的训练经验可以蒸馏给伪样本任务使用，达到更好的联合训练共同增益的效果。

步骤605：确定所述第二时长预测网络的损失函数满足收敛条件时，对应所述第二时长预测网络的损失函数。

进一步地，参考图5所示的资讯信息推荐模型的模型结构，可以将所述拼接训练样本中的真实训练样本，带入所述资讯信息推荐模型中的第一点击率预测网络；确定所述第一点击率预测网络的损失函数满足收敛条件时，对应所述第一点击率预测网络的损失函数。同时将所述拼接训练样本中的伪训练样本，带入所述资讯信息推荐模型中的第二点击率预测网络；对所述第一点击率预测网络的损失函数进行数据蒸馏处理，根据点击率蒸馏损失函数调整所述第二点击率预测网络的模型参数；确定所述第二点击率预测网络的损失函数满足收敛条件时，对应所述第二点击率预测网络的损失函数。

在本发明的一些实施例中，通过所述拼接训练样本对所述资讯信息推荐模型中的不同子网络进行训练，确定所述资讯信息推荐模型的更新参数，可以通过以下方式实现：

对所述第一点击率预测网络的损失函数、第二点击率预测网络的损失函数、第一时长预测网络的损失函数、第二时长预测网络的损失函数、点击率蒸馏损失函数以及时长蒸馏损失函数进行加和，确定所述资讯信息推荐模型的损失函数；确定所述资讯信息推荐模型的损失函数满足收敛条件时对应所述资讯信息推荐模型的模型参数为所述资讯信息推荐模型的更新参数。其中，资讯信息推荐模型的 loss=真实样本时长预测loss+伪样本时长预测loss +时长预测蒸馏loss +真实样本点击预测loss +伪样本点击预测loss +点击预测蒸馏loss，需要说明的是：蒸馏loss在梯度回传时候，将真实样本一侧的梯度回传阻断，保证是将真实样本的经验知识传递给伪样本一侧，避免影响到真实样本一侧的迭代处理。

在本发明的一些实施例中，当所述资讯信息推荐模型应用于视频信息推荐进程中时，确定与所述视频信息推荐进程相匹配的动态噪声阈值；根据所述动态噪声阈值对第一训练样本集合进行去噪处理，以形成与所述动态噪声阈值相匹配的第二训练样本集合。其中，例如，在资讯信息推荐模型的使用环境为长尾短视频推荐时，短视频进程中向用户推荐不同的短视频的过程中，短视频播放界面可以是相应的APP中所展现的，也可以是通过微信小程序所触发的（资讯信息推荐模型可以经过训练后封装于相应的APP或以插件形式保存于微信小程序中），随着短视频应用产品不断发展增多，视频信息的承载量远远大于文字信息，短视频服务器中的不同的类型的短视频可以通过相应的应用程序不间断地向用户进行推荐，而这一训练过程中，通过微信小程序触发短视频推荐的使用环境中，与所述资讯信息推荐模型的使用环境相匹配的动态噪声阈值需要小于直接在短视频客户端中向用户推荐短视频的动态噪声阈值。

在本发明的一些实施例中，当所述资讯信息推荐模型应用于新闻信息推荐进程中时，确定与所述新闻信息推荐进程相对应的固定噪声阈值，并根据所述固定噪声阈值对第一训练样本集合进行去噪处理，以形成与所述固定噪声阈值相匹配的第二训练样本集合。其中，当资讯信息推荐模型固化于相应的硬件机构（例如新闻阅读终端、电子书终端、财经新闻终端）中，使用环境为通过新闻阅读终端或电子书终端向用户推送不同的新闻资讯时，通过固定资讯信息推荐模型相对应的固定噪声阈值，能够有效提升资讯信息推荐模型的训练速度，减少用户的等待时间。其中，当噪声固定的使用环境中，训练样本集合可以来自目标用户的历史数据，历史的推荐资讯信息浏览数据可以是曾经为目标用户推荐推荐资讯信息时产生的推荐资讯信息查看行为数据，可以从历史浏览日志中提取。这里历史的推荐资讯信息浏览数据可以是全部的历史的推荐资讯信息浏览数据；也可以考虑到行为数据的时效性，仅包括预设时间段内的历史的推荐资讯信息浏览数据，比如一周内的历史的推荐资讯信息浏览数据等。以财经新闻终端为例，对应的财经新闻用户簇还可以继续细分为本地财经新闻用户簇，股票财经新闻用户簇，以及期货财经新闻用户簇，本可以根据用户自行设定的用户簇分类进行标记。

步骤306：资讯信息推荐模型训练装置根据所述资讯信息推荐模型的更新参数，通过所述拼接训练样本对所述资讯信息推荐模型的初始参数进行迭代更新。由此，可以实现所述资讯信息推荐模型能够对使用环境中的长尾资讯信息进行推荐。

下面以短视频播放界面中的视频新闻资讯推荐场景为例对本发明实施例所提供的资讯信息推荐模型的训练方法进行说明，其中，图7为本发明实施例中资讯信息推荐模型的训练方法的应用环境示意图，其中，如图7所示，视频新闻资讯播放界面可以是相应的APP中所展现的，也可以是通过微信小程序所触发的（资讯信息推荐模型可以经过训练后封装于相应的APP或以插件形式保存于微信小程序中，使用环境为长尾新闻资讯的推荐），随着短视频应用产品不断发展增多，视频新闻资讯信息的承载量远远大于文字信息，视频新闻资讯可以通过相应的应用程序不间断地向用户进行推荐。例如微信应用的发现页面中包括的“看一看”入口，或者音频应用的音频推荐入口，或者视频应用的视频推荐入口，或者直播应用的直播推荐入口等。目标终端在根据用户操作运行目标应用，并控制目标应用展示包括用于触发开启推荐内容展示页面的触发入口的应用页面时，可检测对该触发入口的触发操作。当产生对应于该触发入口的触发操作时，向服务器发送推荐请求，并在接收到服务器响应于该推荐请求反馈的推荐内容后，在推荐内容展示页面将推荐内容按照推荐顺序展示。

参考图8，图 8为本发明实施例所提供的资讯信息推荐方法一个可选的工作流程示意图，本申请所提供的资讯信息推荐方法中个性化新闻推荐可以分为召回和排序两个阶段，两个阶段各司其职，分别完成不同的任务，而且各自的侧重点也不同。具体来说：召回阶段，主要完成重要内容的过滤，其工作重点是如何快速有效的从海量新闻当中抽取出海量用户可能感兴趣的内容，难点是海量数据的匹配问题（直接面对海量新闻和海量用户），计算的复杂度是个必须考虑的问题。而排序侧的工作重点是全面准确的预估海量用户对召回的少量新闻的感兴趣的程度即CTR。如图 8所示的资讯信息推荐方法的工作流程，在个性化新闻推荐，首先要实现个性化新闻召回，具体来说，在个性化新闻推荐召回，通常需要实现为每一用户都召回最符合其兴趣偏好的新闻，同时对数据源中的长尾新闻进行推荐，以符合不同用户的使用需求。

参考图9，图 9为本发明实施例所提供的资讯信息推荐方法的工作过程示意图，下面结合图9所示的资讯信息推荐方法的对本发明所提供的资讯信息推荐模型的工作过程进行说明，具体包括以下步骤：

步骤901：获取视频新闻资讯训练集合，输入相应训练参数。

步骤902：获取长尾资讯信息，确定相应的伪训练样本。

步骤903：确定所述资讯信息推荐模型的初始模型参数。

步骤904：对所述资讯信息推荐模型中的4个不同子网络进行训练，确定所述资讯信息推荐模型的更新参数。

步骤905：根据所述资讯信息推荐模型的更新参数，通过所述拼接训练样本对所述资讯信息推荐模型的初始参数进行迭代更新。

步骤906：部署资讯信息推荐模型，对数据源中的长尾新闻资讯进行推荐。

结合前序图1所示，本发明实施例所提供的资讯信息推荐模型训练方法可以通过相应的云端设备实现，例如：终端（包括终端10-1和终端10-2）通过网络300连接位于云端的服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。值得说明的是，服务器200可为实体设备，也可为虚拟化设备。

在本发明的一些实施例中，资讯信息推荐模型训练方法还包括：

接收所述区块链网络中的其他节点的数据同步请求；响应于所述数据同步请求，对所述其他节点的权限进行验证；当所述其他节点的权限通过验证时，控制当前节点与所述其他节点之间进行数据同步，以实现所述其他节点获取目标用户标识、资讯信息推荐模型的模型参数、待推荐的长尾资讯信息。

响应于查询请求，解析所述查询请求以获取对应的对象标识；根据所述对象标识，获取区块链网络中的目标区块内的权限信息；对所述权限信息与所述对象标识的匹配性进行校验；当所述权限信息与所述对象标识相匹配时，在所述区块链网络中获取相应的目标用户标识、资讯信息推荐模型的模型参数、待推荐的长尾资讯信息；响应于所述查询指令，将所获取的相应的目标用户标识、资讯信息推荐模型的模型参数、待推荐的长尾资讯信息向相应的即时通讯客户端进行推送，以实现所述即时通讯客户端获取所述区块链网络中所保存的相应的目标用户标识、资讯信息推荐模型的模型参数、待推荐的长尾资讯信息，实现同一用户的通讯录数据在不同的终端（即时通讯客户端）之间进行数据迁移。

参见图10，图10是本发明实施例提供的目标对象确定装置100的架构示意图，包括区块链网络200（示例性示出了共识节点210-1至共识节点210-3）、认证中心300、业务主体400和业务主体500，下面分别进行说明。

区块链网络200的类型是灵活多样的，例如可以为公有链、私有链或联盟链中的任意一种。以公有链为例，任何业务主体的电子设备例如用户终端和服务器，都可以在不需要授权的情况下接入区块链网络200；以联盟链为例，业务主体在获得授权后其下辖的电子设备（例如终端/服务器）可以接入区块链网络200，此时，成为区块链网络200中的客户端节点。

在一些实施例中，客户端节点可以只作为区块链网络200的观察者，即提供支持业务主体发起交易（例如，用于上链存储数据或查询链上数据）功能，对于区块链网络200的共识节点210的功能，例如排序功能、共识服务和账本功能等，客户端节点可以缺省或者有选择性（例如，取决于业务主体的具体业务需求）地实施。从而，可以将业务主体的数据和业务处理逻辑最大程度迁移到区块链网络200中，通过区块链网络200实现数据和业务处理过程的可信和可追溯。

区块链网络200中的共识节点接收来自不同业务主体（例如图1中示出的业务主体400和业务主体500）的客户端节点（例如，图1中示出的归属于业务主体400的客户端节点410、以及归属于电子设备的系统500的客户端节点510）提交的交易，执行交易以更新账本或者查询账本，执行交易的各种中间结果或最终结果可以返回业务主体的客户端节点中显示。

例如，客户端节点410/510可以订阅区块链网络200中感兴趣的事件，例如区块链网络200中特定的组织/通道中发生的交易，由共识节点210推送相应的交易通知到客户端节点410/510，从而触发客户端节点410/510中相应的业务逻辑。

下面以多个业务主体接入区块链网络以实现目标对象确定结果的管理为例，说明区块链网络的示例性应用。

参见图10，管理环节涉及的多个业务主体，如业务主体400可以是基于人工智能的目标对象确定装置，业务主体500可以是带有目标对象确定功能的显示系统，从认证中心300进行登记注册获得各自的数字证书，数字证书中包括业务主体的公钥、以及认证中心300对业务主体的公钥和身份信息签署的数字签名，用来与业务主体针对交易的数字签名一起附加到交易中，并被发送到区块链网络，以供区块链网络从交易中取出数字证书和签名，验证消息的可靠性（即是否未经篡改）和发送消息的业务主体的身份信息，区块链网络会根据身份进行验证，例如是否具有发起交易的权限。业务主体下辖的电子设备（例如终端或者服务器）运行的客户端都可以向区块链网络200请求接入而成为客户端节点。

业务主体400的客户端节点410用于获取与不同对象相对应的资源交易数据；根据所述资源交易数据，确定所述不同对象的级别信息，并根据所述级别信息确定所述不同对象中的基础对象；根据所述资源交易数据，确定与所述不同对象相匹配的差异特征向量；基于与所述不同对象相匹配的差异特征向量，确定所述不同对象之间的关联关系网络；响应于所述基础对象，确定所述不同对象之间的关联关系网络的聚类结果；根据所述不同对象之间的关联关系网络的聚类结果和相应的级别信息，确定所述不同对象中与所述基础对象相匹配的目标对象，将目标用户标识、资讯信息推荐模型的模型参数、待推荐的长尾资讯信息发送至区块链网络200。

其中，将目标用户标识、资讯信息推荐模型的模型参数、待推荐的长尾资讯信息发送至区块链网络200，可以预先在客户端节点410设置业务逻辑，当形成相应的目标对象确定结果时，客户端节点410将目标用户标识、资讯信息推荐模型的模型参数、待推荐的长尾资讯信息自动发送至区块链网络200，也可以由业务主体400的业务人员在客户端节点410中登录，手动打包将目标用户标识、资讯信息推荐模型的模型参数、待推荐的长尾资讯信息，并将其发送至区块链网络200。在发送时，客户端节点410根据将目标用户标识、资讯信息推荐模型的模型参数、待推荐的长尾资讯信息生成对应更新操作的交易，在交易中指定了实现更新操作需要调用的智能合约、以及向智能合约传递的参数，交易还携带了客户端节点410的数字证书、签署的数字签名（例如，使用客户端节点410的数字证书中的私钥，对交易的摘要进行加密得到），并将交易广播到区块链网络200中的共识节点210。

区块链网络200中的共识节点210中接收到交易时，对交易携带的数字证书和数字签名进行验证，验证成功后，根据交易中携带的业务主体400的身份，确认业务主体400是否是具有交易权限，数字签名和权限验证中的任何一个验证判断都将导致交易失败。验证成功后签署节点210自己的数字签名（例如，使用节点210-1的私钥对交易的摘要进行加密得到），并继续在区块链网络200中广播。

区块链网络200中的共识节点210接收到验证成功的交易后，将交易填充到新的区块中，并进行广播。区块链网络200中的共识节点210广播的新区块时，会对新区块进行共识过程，如果共识成功，则将新区块追加到自身所存储的区块链的尾部，并根据交易的结果更新状态数据库，执行新区块中的交易：对于提交更新将目标用户标识、资讯信息推荐模型的模型参数、待推荐的长尾资讯信息的交易，在状态数据库中添加包括将目标用户标识、资讯信息推荐模型的模型参数、待推荐的长尾资讯信息的键值对。

业务主体500的业务人员在客户端节点510中登录，输入目标对象确定结果或者目标对象查询请求，客户端节点510根据目标对象确定结果或者目标对象查询请求生成对应更新操作/查询操作的交易，在交易中指定了实现更新操作/查询操作需要调用的智能合约、以及向智能合约传递的参数，交易还携带了客户端节点510的数字证书、签署的数字签名（例如，使用客户端节点510的数字证书中的私钥，对交易的摘要进行加密得到），并将交易广播到区块链网络200中的共识节点210。

区块链网络200中的共识节点210中接收到交易，对交易进行验证、区块填充及共识一致后，将填充的新区块追加到自身所存储的区块链的尾部，并根据交易的结果更新状态数据库，执行新区块中的交易：对于提交的更新某一将目标用户标识、资讯信息推荐模型的模型参数、待推荐的长尾资讯信息的交易，根据人工识别结果更新状态数据库中该目标对象确定结果对应的键值对；对于提交的查询某个目标对象确定结果的交易，从状态数据库中查询目标对象确定结果对应的键值对，并返回交易结果。

值得说明的是，在图10中示例性地示出了将目标用户标识、资讯信息推荐模型的模型参数、待推荐的长尾资讯信息直接上链的过程，但在另一些实施例中，对于目标对象确定结果的数据量较大的情况，客户端节点410可将目标对象确定结果的哈希以及相应的目标对象确定结果的哈希成对上链，将原始的目标对象确定结果以及相应的目标对象确定结果存储于分布式文件系统或数据库。客户端节点510从分布式文件系统或数据库获取到目标对象确定结果以及相应的目标对象确定结果后，可结合区块链网络200中对应的哈希进行校验，从而减少上链操作的工作量。

作为区块链的示例，参见图11，图11是本发明实施例提供的区块链网络200中区块链的结构示意图，每个区块的头部既可以包括区块中所有交易的哈希值，同时也包含前一个区块中所有交易的哈希值，新产生的交易的记录被填充到区块并经过区块链网络中节点的共识后，会被追加到区块链的尾部从而形成链式的增长，区块之间基于哈希值的链式结构保证了区块中交易的防篡改和防伪造。

下面说明本发明实施例提供的区块链网络的示例性的功能架构，参见图12，图12是本发明实施例提供的区块链网络200的功能架构示意图，包括应用层201、共识层202、网络层203、数据层204和资源层205，下面分别进行说明。

资源层205封装了实现区块链网路200中的各个节点210的计算资源、存储资源和通信资源。

数据层204封装了实现账本的各种数据结构，包括以文件系统中的文件实现的区块链，键值型的状态数据库和存在性证明（例如区块中交易的哈希树）。

网络层203 封装了点对点（P2P，Point to Point）网络协议、数据传播机制和数据验证机制、接入认证机制和业务主体身份管理的功能。

其中，P2P网络协议实现区块链网络200中节点210之间的通信，数据传播机制保证了交易在区块链网络200中的传播，数据验证机制用于基于加密学方法（例如数字证书、数字签名、公/私钥对）实现节点210之间传输数据的可靠性；接入认证机制用于根据实际的业务场景对加入区块链网络200的业务主体的身份进行认证，并在认证通过时赋予业务主体接入区块链网络200的权限；业务主体身份管理用于存储允许接入区块链网络200的业务主体的身份、以及权限（例如能够发起的交易的类型）。

共识层202封装了区块链网络200中的节点210对区块达成一致性的机制（即共识机制）、交易管理和账本管理的功能。共识机制包括POS、POW和DPOS等共识算法，支持共识算法的可插拔。

交易管理用于验证节点210接收到的交易中携带的数字签名，验证业务主体的身份信息，并根据身份信息判断确认其是否具有权限进行交易（从业务主体身份管理读取相关信息）；对于获得接入区块链网络200的授权的业务主体而言，均拥有认证中心颁发的数字证书，业务主体利用自己的数字证书中的私钥对提交的交易进行签名，从而声明自己的合法身份。

账本管理用于维护区块链和状态数据库。对于取得共识的区块，追加到区块链的尾部；执行取得共识的区块中的交易，当交易包括更新操作时更新状态数据库中的键值对，当交易包括查询操作时查询状态数据库中的键值对并向业务主体的客户端节点返回查询结果。支持对状态数据库的多种维度的查询操作，包括：根据区块向量号（例如交易的哈希值）查询区块；根据区块哈希值查询区块；根据交易向量号查询区块；根据交易向量号查询交易；根据业务主体的账号（向量号）查询业务主体的账号数据；根据通道名称查询通道中的区块链。

应用层201 封装了区块链网络能够实现的各种业务，包括交易的溯源、存证和验证等。

由此，可以通过区块链网络存储资讯信息推荐模型的网络参数，便于在用户更换终端设备时，及时通过相应的资讯信息推荐模型对使用环境中的长尾资讯信息进行推荐，使得用户获得更好的使用感受。

有益技术效果：

通过获取资讯信息推荐模型使用环境中的长尾资讯信息；基于所述目标用户的行为长尾资讯信息，确定相应的伪训练样本；将所述伪训练样本与真实训练样本进行样本拼接处理，形成拼接训练样本；确定所述资讯信息推荐模型的初始模型参数；通过所述拼接训练样本对所述资讯信息推荐模型中的不同子网络进行训练，确定所述资讯信息推荐模型的更新参数；根据所述资讯信息推荐模型的更新参数，通过所述拼接训练样本对所述资讯信息推荐模型的初始参数进行迭代更新，由此，可以以实现所述资讯信息推荐模型能够对使用环境中的长尾资讯信息进行推荐，同时增强了资讯信息推荐的准确性与时效性，有效提资讯信息的推荐的质量，提升用户的使用体验

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种资讯信息推荐模型训练方法，其特征在于，所述方法包括：

获取资讯信息推荐模型使用环境中的长尾资讯信息；

基于目标用户的行为长尾资讯信息，确定相应的伪训练样本；

确定所述资讯信息推荐模型的初始模型参数；

根据所述资讯信息推荐模型的更新参数，通过所述拼接训练样本对所述资讯信息推荐模型的初始参数进行迭代更新，以实现所述资讯信息推荐模型能够对使用环境中的长尾资讯信息进行推荐；

所述通过所述拼接训练样本对所述资讯信息推荐模型中的不同子网络进行训练，确定所述资讯信息推荐模型的更新参数，包括：

将所述拼接训练样本中的真实训练样本和伪训练样本分别带入所述资讯信息推荐模型中的不同子网络进行训练，确定不同子网络的损失函数；对所述不同子网络的损失函数进行加和，确定所述资讯信息推荐模型的多任务损失函数；基于所述资讯信息推荐模型的多任务损失函数，对所述资讯信息推荐模型的网络参数进行调整；直至所述资讯信息推荐模型对应的不同维度的损失函数达到相应的收敛条件；以实现通过所述资讯信息推荐模型能够对使用环境中的长尾资讯信息进行推荐；

所述将所述拼接训练样本中的真实训练样本和伪训练样本分别带入所述资讯信息推荐模型中的不同子网络进行训练，确定不同子网络的损失函数，包括：

将所述拼接训练样本中的真实训练样本，带入所述资讯信息推荐模型中的第一时长预测网络；

确定所述第一时长预测网络的损失函数满足收敛条件时，对应所述第一时长预测网络的损失函数；

将所述拼接训练样本中的伪训练样本，带入所述资讯信息推荐模型中的第二时长预测网络；

对所述第一时长预测网络的损失函数进行数据蒸馏处理，根据时长蒸馏损失函数调整所述第二时长预测网络的模型参数；

确定所述第二时长预测网络的损失函数满足收敛条件时，对应所述第二时长预测网络的损失函数。

2.根据权利要求1所述的方法，其特征在于，所述获取资讯信息推荐模型使用环境中的长尾资讯信息，包括：

根据所述资讯信息推荐模型使用环境，确定与所述资讯信息推荐模型使用环境相匹配的曝光阈值；

获取资讯信息源中的不同资讯信息所携带的曝光量参数；

通过所述曝光阈值对所述不同资讯信息所携带的曝光量参数进行遍历，确定所述资讯信息推荐模型使用环境中的长尾资讯信息。

3.根据权利要求1所述的方法，其特征在于，所述将所述伪训练样本与真实训练样本进行样本拼接处理，形成拼接训练样本，包括：

根据所述资讯信息推荐模型使用环境，确定与所述资讯信息推荐模型相匹配的样本混合方式，其中，所述与所述资讯信息推荐模型相匹配的样本混合方式包括：原始样本迭代排序，或者洗牌函数排序；

根据与所述资讯信息推荐模型相匹配的样本混合方式，对所述伪训练样本与真实训练样本进行样本拼接处理。

4.根据权利要求1所述的方法，其特征在于，所述将所述拼接训练样本中的真实训练样本和伪训练样本分别带入所述资讯信息推荐模型中的不同子网络进行训练，确定不同子网络的损失函数，包括：

将所述拼接训练样本中的真实训练样本，带入所述资讯信息推荐模型中的第一点击率预测网络；

确定所述第一点击率预测网络的损失函数满足收敛条件时，对应所述第一点击率预测网络的损失函数。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

将所述拼接训练样本中的伪训练样本，带入所述资讯信息推荐模型中的第二点击率预测网络；

对所述第一点击率预测网络的损失函数进行数据蒸馏处理，根据点击率蒸馏损失函数调整所述第二点击率预测网络的模型参数；

确定所述第二点击率预测网络的损失函数满足收敛条件时，对应所述第二点击率预测网络的损失函数。

6.根据权利要求1所述的方法，其特征在于，所述通过所述拼接训练样本对所述资讯信息推荐模型中的不同子网络进行训练，确定所述资讯信息推荐模型的更新参数，包括：

对第一点击率预测网络的损失函数、第二点击率预测网络的损失函数、第一时长预测网络的损失函数、第二时长预测网络的损失函数、点击率蒸馏损失函数以及时长蒸馏损失函数进行加和，确定所述资讯信息推荐模型的损失函数；

确定所述资讯信息推荐模型的损失函数满足收敛条件时对应所述资讯信息推荐模型的模型参数为所述资讯信息推荐模型的更新参数。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述资讯信息推荐模型应用于视频信息推荐进程中时，确定与所述视频信息推荐进程相匹配的动态噪声阈值；

根据所述动态噪声阈值对第一训练样本集合进行去噪处理，以形成与所述动态噪声阈值相匹配的第二训练样本集合。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述资讯信息推荐模型应用于新闻信息推荐进程中时，确定与所述新闻信息推荐进程相对应的固定噪声阈值，并根据所述固定噪声阈值对第一训练样本集合进行去噪处理，以形成与所述固定噪声阈值相匹配的第二训练样本集合。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当向所述目标用户输出待推荐资讯信息时，监测所述目标用户的操作信息；

基于所监测的所述目标用户的操作信息，确定所述待推荐资讯信息的点击率与浏览时间。

10.一种资讯信息推荐模型训练装置，其特征在于，所述装置包括：

信息处理模块，用于基于目标用户的行为长尾资讯信息，确定相应的伪训练样本；

所述信息处理模块，用于根据所述资讯信息推荐模型的更新参数，通过所述拼接训练样本对所述资讯信息推荐模型的初始参数进行迭代更新，以实现所述资讯信息推荐模型能够对使用环境中的长尾资讯信息进行推荐；

直至所述资讯信息推荐模型对应的不同维度的损失函数达到相应的收敛条件；以实现通过所述资讯信息推荐模型能够对使用环境中的长尾资讯信息进行推荐；

所述信息处理模块，用于确定所述第一时长预测网络的损失函数满足收敛条件时，对应所述第一时长预测网络的损失函数；

11.根据权利要求10所述的装置，其特征在于，所述信息处理模块，用于根据所述资讯信息推荐模型使用环境，确定与所述资讯信息推荐模型使用环境相匹配的曝光阈值；

所述信息处理模块，用于获取资讯信息源中的不同资讯信息所携带的曝光量参数；

12.根据权利要求10所述的装置，其特征在于，所述信息处理模块，用于根据所述资讯信息推荐模型使用环境，确定与所述资讯信息推荐模型相匹配的样本混合方式，其中，所述与所述资讯信息推荐模型相匹配的样本混合方式包括：原始样本迭代排序，或者洗牌函数排序；

13.根据权利要求10所述的装置，其特征在于，所述信息处理模块，用于将所述拼接训练样本中的真实训练样本，带入所述资讯信息推荐模型中的第一点击率预测网络；

14.根据权利要求13所述的装置，其特征在于，所述信息处理模块，用于将所述拼接训练样本中的伪训练样本，带入所述资讯信息推荐模型中的第二点击率预测网络；

15.根据权利要求10所述的装置，其特征在于，所述信息处理模块，用于对第一点击率预测网络的损失函数、第二点击率预测网络的损失函数、第一时长预测网络的损失函数、第二时长预测网络的损失函数、点击率蒸馏损失函数以及时长蒸馏损失函数进行加和，确定所述资讯信息推荐模型的损失函数；

16.根据权利要求10所述的装置，其特征在于，所述信息处理模块，用于当所述资讯信息推荐模型应用于视频信息推荐进程中时，确定与所述视频信息推荐进程相匹配的动态噪声阈值；

17.根据权利要求10所述的装置，其特征在于，所述信息处理模块，用于当所述资讯信息推荐模型应用于新闻信息推荐进程中时，确定与所述新闻信息推荐进程相对应的固定噪声阈值，并根据所述固定噪声阈值对第一训练样本集合进行去噪处理，以形成与所述固定噪声阈值相匹配的第二训练样本集合。

18.根据权利要求10所述的装置，其特征在于，所述信息处理模块，用于当向所述目标用户输出待推荐资讯信息时，监测所述目标用户的操作信息；

19.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现权利要求1至9任一项所述资讯信息推荐模型训练方法。

20.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1-9任一项所述资讯信息推荐模型训练方法。