CN111859149A

CN111859149A - 资讯信息推荐方法、装置、电子设备及存储介质

Info

Publication number: CN111859149A
Application number: CN202010768083.4A
Authority: CN
Inventors: 王敏; 刘畅
Original assignee: Tencent Technology Beijing Co Ltd
Current assignee: Tencent Technology Beijing Co Ltd
Priority date: 2020-08-03
Filing date: 2020-08-03
Publication date: 2020-10-30

Abstract

本发明提供了一种资讯信息推荐方法，包括：响应于资讯信息推荐请求，获取目标用户的行为参数信息；确定目标用户所归属的不同用户簇信息；基于所述不同用户簇信息，在资讯信息源中获取每一个用户簇信息相对应的候选推荐资讯信息；基于每一个用户簇信息所对应的候选推荐资讯信息，确定与目标用户相匹配的待推荐资讯信息；根据目标用户的行为参数信息，通过与目标用户相匹配的资讯信息推荐模型，对待推荐资讯信息中的不同用户簇信息所对应的候选推荐资讯信息的数量进行调整。本发明还提供了资讯信息推荐装置、电子设备及存储介质。本发明能够现待推荐资讯信息与所述目标用户相匹配，同时增强了资讯信息推荐的准确性与时效性，提升用户的使用体验。

Description

资讯信息推荐方法、装置、电子设备及存储介质

技术领域

本发明涉及信息处理技术，尤其涉及资讯信息推荐方法、装置、电子设备及存储介质。

背景技术

传统技术中，各类资讯推荐系统向用户推荐相应的资讯过程中可以使用协同过滤的推荐方式，协同过滤作为有效的推荐方法在各类资讯推荐系统中广泛应用，但是这种基于用户兴趣的推荐，是利用用户历史行为建立用户在具体类目以及标签上的兴趣分数，在召回时如果新闻资讯中的标签信息命中相应的用户兴趣标签，则召回该资讯。但是这类表示方法比较粗放，并且分类标签信息需要提前设置并及时更新，而且其内容表示能力是有限的。类标签信息需要提前设置并及时更新，无法根据用户的真实兴趣推荐相匹配的资讯信息，影响用户的使用体验。

发明内容

有鉴于此，本发明实施例提供一种资讯信息推荐方法、装置、电子设备及存储介质，本发明实施例的技术方案是这样实现的：

本发明提供了一种资讯信息推荐方法，所述方法包括：

响应于资讯信息推荐请求，获取目标用户的行为参数信息；

基于所述目标用户的行为参数信息，确定所述目标用户所归属的不同用户簇信息；

基于所述不同用户簇信息，在资讯信息源中获取每一个用户簇信息相对应的候选推荐资讯信息；

基于所述每一个用户簇信息所对应的候选推荐资讯信息，确定与所述目标用户相匹配的待推荐资讯信息；

根据所述目标用户的行为参数信息，通过与所述目标用户相匹配的资讯信息推荐模型，对所述待推荐资讯信息中的不同用户簇信息所对应的候选推荐资讯信息的数量进行调整，以实现所述待推荐资讯信息与所述目标用户相匹配。

本发明实施例还提供了一种资讯信息推荐装置，包括：

信息传输模块，用于响应于资讯信息推荐请求，获取目标用户的行为参数信息；

信息处理模块，用于基于所述目标用户的行为参数信息，确定所述目标用户所归属的不同用户簇信息；

所述信息处理模块，用于基于所述不同用户簇信息，在资讯信息源中获取每一个用户簇信息相对应的候选推荐资讯信息；

所述信息处理模块，用于基于所述每一个用户簇信息所对应的候选推荐资讯信息，确定与所述目标用户相匹配的待推荐资讯信息；

所述信息处理模块，用于根据所述目标用户的行为参数信息，通过与所述目标用户相匹配的资讯信息推荐模型，对所述待推荐资讯信息中的不同用户簇信息所对应的候选推荐资讯信息的数量进行调整，以实现所述待推荐资讯信息与所述目标用户相匹配。

上述方案中，

所述信息处理模块，用于获取与所述目标用户相对应的不同维度的原始数据集合；

所述信息处理模块，用于根据所述不同维度的原始数据集合，确定与所述目标用户相匹配的用户行为参数信息；

所述信息处理模块，用于对所述用户行为参数信息进行动态聚规则类处理，确定不同用户簇信息的标识；

所述信息处理模块，用于基于所述不同用户簇信息的标识，确定所述目标用户所归属的不同用户簇信息。

上述方案中，

所述信息处理模块，用于基于所述不同用户簇信息，确定每一用户簇所分别对应的用户簇标识；

所述信息处理模块，用于确定所述资讯信息源中每一条资讯信息的内容标识；

所述信息处理模块，用于根据所述内容标识与所述用户簇标识的匹配结果，在资讯信息源中获取每一个用户簇信息相对应的候选推荐资讯信息。

上述方案中，

所述信息处理模块，用于确定与所述目标用户的行为参数信息相匹配的第一联合特征向量和第二联合特征向量；

所述信息处理模块，用于通过所述资讯信息推荐模型对所述第一联合特征向量和所述第二联合特征向量进行处理，确定所述目标用户的显示界面中不同用户簇所分别对应的资讯信息的可选范围，其中，所述资讯信息的可选范围包括不同用户簇所分别对应的资讯信息数量；

所述信息处理模块，用于基于所述资讯信息推荐模型，确定所述目标用户的显示界面中不同用户簇所分别对应的资讯信息的浏览次数；

所述信息处理模块，用于基于所述不同用户簇所分别对应的资讯信息的浏览次数，确定对所述待推荐资讯信息中的不同用户簇信息所对应的候选推荐资讯信息的数量进行调整。

上述方案中，

所述信息处理模块，用于对所述不同用户簇所分别对应的资讯信息的浏览次数进行交叉排序；

所述信息处理模块，用于基于所述浏览次数的交叉排序结果，确定不同用户簇所分别对应的比例参数；

所述信息处理模块，用于确定所述目标用户的显示界面中待显示资讯信息的数量；

所述信息处理模块，用于基于所述目标用户的显示界面中待显示资讯信息的数量和同用户簇所分别对应的比例参数，对所述待推荐资讯信息中的不同用户簇信息所对应的候选推荐资讯信息的数量进行调整。

上述方案中，所述装置还包括：

训练模块，用于获取训练样本集合，其中所述训练样本集合包括多维度状态特征向量以及不同用户簇所分别对应的资讯信息数量；

所述训练模块，用于通过资讯信息推荐模型对所述训练样本集合进行处理，以确定所述资讯信息推荐模型的初始参数；

所述训练模块，用于响应于所述资讯信息推荐模型的初始参数，通过所述资讯信息推荐模型对所述训练样本集合中的不同训练样本进行处理，确定所述资讯信息推荐模型的更新参数；

所述训练模块，用于根据所述资讯信息推荐模型的更新参数，通过所述训练样本集合对所述资讯信息推荐模型的参数进行迭代更新，以实现所述资讯信息推荐模型能够确定不同用户簇所分别对应的资讯信息的浏览次数。

上述方案中，

所述训练模块，用于将所述训练样本集合中不同训练样本，代入由所述资讯信息推荐模型的多层感知器网络对应的损失函数；

所述训练模块，用于确定所述损失函数满足收敛条件时对应所述资讯信息推荐模型中多层感知器网络的参数作为所述资讯信息推荐模型的更新参数。

上述方案中，

所述训练模块，用于当所述资讯信息推荐模型应用于视频信息推荐进程中时，确定与所述视频信息推荐进程相匹配的动态噪声阈值；

所述训练模块，用于根据所述动态噪声阈值对第一训练样本集合进行去噪处理，以形成与所述动态噪声阈值相匹配的第二训练样本集合。

上述方案中，

所述训练模块，用于当所述资讯信息推荐模型应用于新闻信息推荐进程中时，确定与所述新闻信息推荐进程相对应的固定噪声阈值，并根据所述固定噪声阈值对第一训练样本集合进行去噪处理，以形成与所述固定噪声阈值相匹配的第二训练样本集合。

上述方案中，

所述信息处理模块，用于当向所述目标用户输出所述待推荐资讯信息时，监听所述目标用户的操作信息；

所述信息处理模块，用于基于所监听的所述目标用户的操作信息，确定所述待推荐资讯信息的点击率与浏览时间。

本发明实施例还提供了一种电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现前序的资讯信息推荐方法。

本发明实施例还提供了一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现前序的资讯信息推荐方法。

本发明实施例具有以下有益效果：

本发明通过响应于资讯信息推荐请求，获取目标用户的行为参数信息；基于所述目标用户的行为参数信息，确定所述目标用户所归属的不同用户簇信息；基于所述不同用户簇信息，在资讯信息源中获取每一个用户簇信息相对应的候选推荐资讯信息；基于所述每一个用户簇信息所对应的候选推荐资讯信息，确定与所述目标用户相匹配的待推荐资讯信息；根据所述目标用户的行为参数信息，通过与所述目标用户相匹配的资讯信息推荐模型，对所述待推荐资讯信息中的不同用户簇信息所对应的候选推荐资讯信息的数量进行调整，由此，可以实现待推荐资讯信息与所述目标用户相匹配，同时增强了资讯信息推荐的准确性与时效性，有效提资讯信息的推荐的质量，提升用户的使用体验。

附图说明

图1为本发明实施例提供的资讯信息推荐方法的使用场景示意图；

图2为本发明实施例提供的资讯信息推荐装置的组成结构示意图；

图3为本发明实施例提供的资讯信息推荐方法一个可选的流程示意图；

图4为本发明实施例中资讯信息推荐模型的一个可选的模型结构示意图；

图5为本发明实施例提供的资讯信息推荐方法一个可选的流程示意图；

图6为本发明实施例中资讯信息推荐模型的训练方法的应用环境示意图；

图7为本发明实施例所提供的资讯信息推荐方法一个可选的工作流程；

图8为本发明实施例所提供的资讯信息推荐方法一个可选的工作流程；

图9为本发明实施例所提供的资讯信息推荐方法的工作过程示意图；

图10为本发明实施例所提供的资讯信息推荐方法的训练过程示意图；

图11为本发明实施例中资讯信息推荐方法的显示效果示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)响应于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

2)资讯信息，互联网中可获取的各种形式的资讯，如客户端或者智能设备中呈现的视频文件、多媒体信息、新闻信息等。

3)聚类，根据n个数据的邻域密度或数据之间的距离，把数据聚合成N个类别，其中N远小于n。

4)模型训练，对图像数据集进行多分类学习。该模型可采用Tensor Flow、torch等深度学习框架进行构建，使用CNN等神经网络层的多层结合组成多分类模型。模型的输入为图像经过openCV等工具读取形成的三通道或原通道矩阵，模型输出为多分类概率，通过softmax等算法最终输出网页类别。在训练时，模型通过交叉熵等目标函数向正确趋势逼近。

5)神经网络(Neural Network，NN)，人工神经网络(Artificial Neural Network，ANN)，简称神经网络或类神经网络，在机器学习和认知科学领域，是一种模仿生物神经网络(动物的中枢神经系统，特别是大脑)的结构和功能的数学模型或计算模型，用于对函数进行估计或近似。

6)token，词单元，对输入文本做任何实际处理前，都需要将其分割成诸如词、标点符号、数字或纯字母数字等语言单元。这些单元被称为词单元。

7)Softmax，归一化指数函数，是逻辑函数的一种推广。它能将一个含任意实数的K维向量“压缩”到另一个K维实向量中，使得每一个元素的范围都在[0，1]之间，并且所有元素的和为1。

8)分词，使用中文分词工具切分中文文本，得到细粒度词的集合。停用词：对于文本的语义没有贡献或者贡献可以不计的字或词。

9)簇，通过聚类算法得到的对全部数据的一个划分，其特点是同一个簇内的数据有相同的特点(数据密度大，间距小)，不同簇内的数据差异明显。其中，用户簇中的不同用户的兴趣相同或相似的，例如在新闻推荐的使用场景中可以是体育新闻用户簇、娱乐新闻用户簇、经济新闻用户簇，娱乐新闻用户簇还可以包括：内地娱乐新闻用户簇、港台娱乐新闻用户簇、欧美娱乐新闻用户簇，并且可以根据用户自行划分的用户簇种类进行标记。

图1为本发明实施例提供的资讯信息推荐方法的使用场景示意图，参见图1，终端(包括终端10-1和终端10-2)上设置有能够显示相应不同资讯信息的软件的客户端，例如视频播放的客户端或插件，用户通过相应的客户端可以获得不同资讯信息(例如不同的短视频信息或者新闻信息)并进行展示；终端通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。

作为一个示例，服务器200用于布设相应的资讯信息推荐模型以实现本发明所提供的资讯信息推荐方法，或者布设资讯信息推荐装置，以实现资讯信息推荐方法，具体的，通过资讯信息推荐处理包括：响应于资讯信息推荐请求，获取目标用户的行为参数信息；基于所述目标用户的行为参数信息，确定所述目标用户所归属的不同用户簇信息；基于所述不同用户簇信息，在资讯信息源中获取每一个用户簇信息相对应的候选推荐资讯信息；基于所述每一个用户簇信息所对应的候选推荐资讯信息，确定与所述目标用户相匹配的待推荐资讯信息；根据所述目标用户的行为参数信息，通过与所述目标用户相匹配的资讯信息推荐模型，对所述待推荐资讯信息中的不同用户簇信息所对应的候选推荐资讯信息的数量进行调整，以实现所述待推荐资讯信息与所述目标用户相匹配，并通过终端(终端10-1和/或终端10-2)展示输出与所述目标用户相匹配的待推荐资讯信息。以短视频资讯信息为例，本发明所提供的资讯信息推荐模型可以应用于短视频播放，在短视频播放中通常会对不同数据来源的不同短视频资讯信息进行处理，最终在用户界面UI(User Interface)上呈现出与相应的不同资讯信息以及相应的与相应短视频推荐进程相对应的待推荐视频，不同资讯信息相的特征的准确性与及时性直接影响了用户体验。视频播放的后台数据库每天都会收到大量不同来源的视频数据，所得到与向目标用户进行资讯信息推荐的不同资讯信息还可以供其他应用程序调用(例如短视频推荐进程的推荐结果迁移至长视频推荐进程或者新闻推荐进程)，当然，与相应的目标用户相匹配的资讯信息推荐模型也可以迁移至不同的视频推荐进程(例如网页视频推荐进程、小程序视频推荐进程或者长视频客户端的视频推荐进程)。

其中，本申请实施例所提供的资讯信息推荐方法是基于人工智能实现的，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，主要涉及的人工智能软件技术包括上述语音处理技术和机器学习等方向。例如，可以涉及语音技术(Speech Technology)中的语音识别技术(AutomaticSpeech Recognition，ASR)，其中包括语音信号预处理(Speech signal preprocessing)、语音信号频域分析(Speech signal frequency analyzing)、语音信号特征提取(Speechsignal feature extraction)、语音信号特征匹配/识别(S peech signal featurematching/recognition)、语音的训练(Speech training)等。

例如可以涉及机器学习(Machine learning，ML)，机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习通常包括深度学习(Deep Learning)等技术，深度学习包括人工神经网络(artificial neural network)，例如卷积神经网络(ConvolutionalNeural Network，CNN)、循环神经网络(Recurrent Neural Network，RNN)、深度神经网络(Deep neural n etwork，DNN)等。

可以理解的是，本申请提供的资讯信息推荐模型训练方法以及语音处理可以应用于智能设备(Intelligent device)上，智能设备可以是任何一种具有信息展示功能的设备，例如可以是智能终端、智能家居设备(如智能音箱、智能洗衣机等)、智能穿戴设备(如智能手表)、车载智能中控系统(通过执行不同任务的小程序向用户展示资讯信息)或者AI智能医疗设备(通过展示资讯信息展示治疗案例)等。

下面对本发明实施例的资讯信息推荐装置的结构做详细说明，资讯信息推荐装置可以各种形式来实施，如带有资讯信息推荐处理功能的专用终端，也可以为设置有资讯信息推荐装置处理功能的服务器，例如前序图1中的服务器200。图2为本发明实施例提供的资讯信息推荐装置的组成结构示意图，可以理解，图2仅仅示出了资讯信息推荐装置的示例性结构而非全部结构，根据需要可以实施图2示出的部分结构或全部结构。

本发明实施例提供的资讯信息推荐装置包括：至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。资讯信息推荐装置中的各个组件通过总线系统205耦合在一起。可以理解，总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统205。

其中，用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器202可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括：用于在终端(如10-1)上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

在一些实施例中，本发明实施例提供的资讯信息推荐装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的资讯信息推荐装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的视频资讯信息推荐模型的训练方法。例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

作为本发明实施例提供的资讯信息推荐装置采用软硬件结合实施的示例，本发明实施例所提供的资讯信息推荐装置可以直接体现为由处理器201执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器202，处理器201读取存储器202中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器201以及连接到总线205的其他组件)完成本发明实施例提供的视频资讯信息推荐模型的训练方法。

作为示例，处理器201可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

作为本发明实施例提供的资讯信息推荐装置采用硬件实施的示例，本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成，例如，被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable GateArray)或其他电子元件执行实现本发明实施例提供的视频资讯信息推荐模型的训练方法。

本发明实施例中的存储器202用于存储各种类型的数据以支持资讯信息推荐装置的操作。这些数据的示例包括：用于在资讯信息推荐装置上操作的任何可执行指令，如可执行指令，实现本发明实施例的从视频资讯信息推荐模型的训练方法的程序可以包含在可执行指令中。

在另一些实施例中，本发明实施例提供的资讯信息推荐装置可以采用软件方式实现，图2示出了存储在存储器202中的资讯信息推荐装置，其可以是程序和插件等形式的软件，并包括一系列的模块，作为存储器202中存储的程序的示例，可以包括资讯信息推荐装置，资讯信息推荐装置中包括以下的软件模块：

信息传输模块2081和信息处理模块2082。当资讯信息推荐装置中的软件模块被处理器201读取到RAM中并执行时，将实现本发明实施例提供的视频资讯信息推荐模型的训练方法，其中，资讯信息推荐装置中各个软件模块的功能，包括：信息传输模块，用于响应于资讯信息推荐请求，获取目标用户的行为参数信息；

信息处理模块2081，用于基于所述目标用户的行为参数信息，确定所述目标用户所归属的不同用户簇信息；

所述信息处理模块2082，用于基于所述不同用户簇信息，在资讯信息源中获取每一个用户簇信息相对应的候选推荐资讯信息；

所述信息处理模块2082，用于基于所述每一个用户簇信息所对应的候选推荐资讯信息，确定与所述目标用户相匹配的待推荐资讯信息；

所述信息处理模块2082，用于根据所述目标用户的行为参数信息，通过与所述目标用户相匹配的资讯信息推荐模型，对所述待推荐资讯信息中的不同用户簇信息所对应的候选推荐资讯信息的数量进行调整，以实现所述待推荐资讯信息与所述目标用户相匹配。

结合图2示出的资讯信息推荐装置说明本发明实施例提供的资讯信息推荐方法，参见图3，图3为本发明实施例提供的资讯信息推荐方法一个可选的流程示意图，可以理解地，图3所示的步骤可以由运行资讯信息推荐装置的各种电子设备执行，例如可以是如带有资讯信息推荐装置的专用终端、服务器或者服务器集群，其中，带有资讯信息推荐装置的专用终端可以为前序图2所示的实施例中带有资讯信息推荐装置的电子设备。下面针对图3示出的步骤进行说明。

步骤301：资讯信息推荐装置接收终端发送的资讯信息推荐请求。

步骤302：资讯信息推荐装置响应于资讯信息推荐请求，获取目标用户的行为参数信息。

在本发明的一些实施例中，可以通过不同的程序组件对相应的客户端所匹配的用户各类行为的收集，通过对用户行为数据的原始日志进行有效提取，例如提取用户的设备号(用户账号)，资讯信息种类，资讯信息的浏览时长，以及资讯信息的浏览完整度参数。其中，用户的历史点击行为及对应资讯的浏览时长会通过订阅服务记录下来并存储在Redis中，在线推荐系统会在用户请求到来时，去拉取对应用户的历史点击行为。

步骤303：资讯信息推荐装置基于所述目标用户的行为参数信息，确定所述目标用户所归属的不同用户簇信息。

在本发明的一些实施例中，基于所述目标用户的行为参数信息，确定所述目标用户所归属的不同用户簇信息，可以通过以下方式实现：

获取与所述目标用户相对应的不同维度的原始数据集合；根据所述不同维度的原始数据集合，确定与所述目标用户相匹配的用户行为参数信息；对所述用户行为参数信息进行动态聚规则类处理，确定不同用户簇信息的标识；基于所述不同用户簇信息的标识，确定所述目标用户所归属的不同用户簇信息。其中，以新闻信息推荐为例，新闻资讯信息的个性化推荐，是根据目标用户的兴趣特点和阅读行为，向目标用户推荐其感兴趣的新闻资讯信息。通过本申请所提供的资讯信息推荐方法，新闻资讯信息的个性化推荐系统，通常包含四个模块：用户画像模块，召回模块，CTR预估模块，重排模块。召回模块筛选好粗排的新闻资讯信息后输出给点击率CTR(Click-Through-Rate)预估模块，CTR预估模块对这些召回的新闻资讯信息进行精排序，再经过重排模块，最终推荐给用户。通过不同维度的原始数据集合，确定与所述目标用户相匹配的用户行为参数信息，可以确定目标用户对应的用户簇信息，其中，一个目标用户可以归属于多个不同的用户簇，例如，对于同一个目标用户，可以分别归属于体育用户簇、娱乐用户簇、社会用户簇，并进一步地根据不同的用户簇推荐相匹配的资讯信息。

步骤304：资讯信息推荐装置基于所述不同用户簇信息，在资讯信息源中获取每一个用户簇信息相对应的候选推荐资讯信息。

在本发明的一些实施例中，基于所述不同用户簇信息，在资讯信息源中获取每一个用户簇信息相对应的候选推荐资讯信息，可以通过以下方式实现：

基于所述不同用户簇信息，确定每一用户簇所分别对应的用户簇标识；确定所述资讯信息源中每一条资讯信息的内容标识；根据所述内容标识与所述用户簇标识的匹配结果，在资讯信息源中获取每一个用户簇信息相对应的候选推荐资讯信息。其中，资讯信息源中所保存的不同资讯信息均携带有对应的内容标识，例如介意通过对视频进行分类或者打标签，来进行相关视频推荐。比如资讯信息源中内容标识别可以分为体育、娱乐、社会、政治等，从而根据每一个用户的用户簇信息推荐对应的视频，体育标识中的某体育赛事短视频或者新闻资讯可以向用户簇为体育用户簇的目标用户进行推送。

步骤305：资讯信息推荐装置基于所述每一个用户簇信息所对应的候选推荐资讯信息，确定与所述目标用户相匹配的待推荐资讯信息。

步骤306：资讯信息推荐装置根据所述目标用户的行为参数信息，通过与所述目标用户相匹配的资讯信息推荐模型，对所述待推荐资讯信息中的不同用户簇信息所对应的候选推荐资讯信息的数量进行调整。

由此，可以实现所述待推荐资讯信息与所述目标用户相匹配。进一步地，当向所述目标用户输出所述待推荐资讯信息时，可以监听所述目标用户的操作信息基于所监听的所述目标用户的操作信息，确定所述待推荐资讯信息的点击率与浏览时间，以实现在用户使用新闻客户端或者短视频客户端的进程中不断地调整通过资讯信息推荐模型所确定的不同用户簇所对应的待推荐资讯信息，

在本发明的一些实施例中，根据所述目标用户的行为参数信息，通过与所述目标用户相匹配的资讯信息推荐模型，对所述待推荐资讯信息中的不同用户簇信息所对应的候选推荐资讯信息的数量进行调整，可以通过以下方式实现：

确定与所述目标用户的行为参数信息相匹配的第一联合特征向量和第二联合特征向量；通过所述资讯信息推荐模型对所述第一联合特征向量和所述第二联合特征向量进行处理，确定所述目标用户的显示界面中不同用户簇所分别对应的资讯信息的可选范围，其中，所述资讯信息的可选范围包括不同用户簇所分别对应的资讯信息数量；基于所述资讯信息推荐模型，确定所述目标用户的显示界面中不同用户簇所分别对应的资讯信息的浏览次数；基于所述不同用户簇所分别对应的资讯信息的浏览次数，确定对所述待推荐资讯信息中的不同用户簇信息所对应的候选推荐资讯信息的数量进行调整。其中，本申请所提供的与目标用户相匹配的资讯信息推荐模型可以为强化学习模型DDQN(Deep Q-Learning)，以实现通过深度强化学习将深度学习(Deep Learning)的感知能力和强化学习(Reinforcemen Learning)的决策能力相结合的方式确定相应的待推荐资讯信息。

其中，参考图4，图4为本发明实施例中资讯信息推荐模型的一个可选的模型结构示意图，强化学习是学习一个最优策略，可以让本体(Agent)在特定环境中，根据当前的状态(State)，做出行动(Action)，从而获得最大回报(Reward)。强化学习可以简单通过<A，S，R，P>四元组进行建模。A代表的是Action，是Agent发出的动作；State是Agent所能感知的世界的状态；Reward是一个实数值，代表奖励或惩罚；P则是Agent所交互世界。在本申请实施例中，A是推荐的资讯信息，S是当前处于的状态，R是推荐的资讯信息的推荐收益值Reward，P是推荐预测模型。

<A，S，R，P>四元组之间的影响关系如下：Action space：A，即所有的动作A构成了动作空间Action space。State space：S，即所有的状态S构成了状态空间State space。Reward：R：S×A×S'→R，即在当前状态S下，执行了动作A后，当前状态变为S'，并得到动作A对应的奖励R。Transition：P：S×A→S'，即当前状态S下，执行了动作A后，当前状态变为S’。

在通过资讯信息推荐模型对待推荐资讯信息中的不同用户簇信息所对应的候选推荐资讯信息的数量进行调整的过程中，当收获了环境反馈的状态和奖励后，执行相应的动作；对于环境而言，接受了主体执行的动作后，输出了环境反馈的状态o(t+1)和奖励r(t+1)。其中，action为每屏出隶属于各个簇的文章的篇数，reward为因此而获得的pv/vv数，第一联合特征向量old_state是采取该action前的环境以及用户的特征表示，new_state为采取该action后的环境以及用户的特征表示，is_terminal为是否是最后一次刷新的新闻，资讯信息推荐模型的采用多层感知器结构MLP，在变换空间过程中，可以通过多层感知器(MLP)，将第一联合特征向量和所述第二联合特征向量转换成分别在相应映射空间中的表示，其中，资讯信息推荐模型中的最后一层全连接层输出为action以及aciton得分。

在本发明的一些实施例中，基于所述不同用户簇所分别对应的资讯信息的浏览次数，确定对所述待推荐资讯信息中的不同用户簇信息所对应的候选推荐资讯信息的数量进行调整，可以通过以下方式实现：

对所述不同用户簇所分别对应的资讯信息的浏览次数进行交叉排序；基于所述浏览次数的交叉排序结果，确定不同用户簇所分别对应的比例参数；确定所述目标用户的显示界面中待显示资讯信息的数量；基于所述目标用户的显示界面中待显示资讯信息的数量和同用户簇所分别对应的比例参数，对所述待推荐资讯信息中的不同用户簇信息所对应的候选推荐资讯信息的数量进行调整。其中，由于用户的终端界面的尺寸不唯一，呈现在终端界面中的推荐的资讯信息的数量也是跟随终端界面的大小变化的。随着对应于推荐的资讯信息展示页面的页面滑动指令，推荐的资讯信息展示页面在滑动后，会有已展示的推荐的资讯信息移出终端界面，新的推荐的资讯信息进入终端界面，当目标用户归属不同的用户簇时通过浏览次数的交叉排序结果，确定不同用户簇所分别对应的比例参数；例如，当目标用户归属于体育用户簇、娱乐用户簇、社会用户簇时，确定交叉排序结果为体育用户簇10％、娱乐用户簇70％、社会用户簇10％，经济用户簇10％，目标用户的显示界面中待显示资讯信息的数量为20条新闻资讯，当未采用本申请所提供的资讯信息推荐方法时，每一类用户簇对应的新闻资讯可以显示5条，但是通过本申请所提供的资讯信息推荐方法，与娱乐用户簇相关的资讯信息可以调整至14条，其余的用户簇信息调整至2条，由此，用户能够更高效的获取符合自身兴趣的资讯信息。

在应用部署的经过训练的资讯信息推荐模型之前，还需要对资讯信息推荐模型进行训练，参见图5，图5为本发明实施例提供的资讯信息推荐方法一个可选的流程示意图，可以理解地，图5所示的步骤可以由运行资讯信息推荐装置的各种电子设备执行，例如可以是如带有资讯信息推荐装置的专用终端、服务器或者服务器集群，其中，带有资讯信息推荐装置的专用终端可以为前序图2所示的实施例中带有资讯信息推荐装置的电子设备。下面针对图5示出的步骤进行说明。

步骤501：获取训练样本集合，其中所述训练样本集合包括多维度状态特征向量以及不同用户簇所分别对应的资讯信息数量。

在本发明的一些实施例中，当所述资讯信息推荐模型应用于视频信息推荐进程中时，确定与所述视频信息推荐进程相匹配的动态噪声阈值；根据所述动态噪声阈值对第一训练样本集合进行去噪处理，以形成与所述动态噪声阈值相匹配的第二训练样本集合。其中，例如，在短视频进程中向用户推荐不同的短视频的过程中，短视频播放界面可以是相应的APP中所展现的，也可以是通过微信小程序所触发的(资讯信息推荐模型可以经过训练后封装于相应的APP或以插件形式保存于微信小程序中)，随着短视频应用产品不断发展增多，视频信息的承载量远远大于文字信息，短视频服务器中的不同的类型的短视频可以通过相应的应用程序不间断地向用户进行推荐，而这一训练过程中，通过微信小程序触发短视频推荐的使用环境中，与所述资讯信息推荐模型的使用环境相匹配的动态噪声阈值需要小于直接在短视频客户端中向用户推荐短视频的动态噪声阈值。

在本发明的一些实施例中，当所述资讯信息推荐模型应用于新闻信息推荐进程中时，确定与所述新闻信息推荐进程相对应的固定噪声阈值，并根据所述固定噪声阈值对第一训练样本集合进行去噪处理，以形成与所述固定噪声阈值相匹配的第二训练样本集合。其中，当资讯信息推荐模型固化于相应的硬件机构(例如新闻阅读终端、电子书终端、财经新闻终端)中，使用环境为通过新闻阅读终端或电子书终端向用户推送不同的新闻资讯向时，通过固定资讯信息推荐模型相对应的固定噪声阈值，能够有效提神资讯信息推荐模型的训练速度，减少用户的等待时间。其中，当噪声固定的使用环境中，训练样本集合可以来自目标用户的历史数据，历史的推荐资讯信息浏览数据可以是曾经为目标用户推荐推荐资讯信息时产生的推荐资讯信息查看行为数据，可以从历史浏览日志中提取。这里历史的推荐资讯信息浏览数据可以是全部的历史的推荐资讯信息浏览数据；也可以考虑到行为数据的时效性，仅包括预设时间段内的历史的推荐资讯信息浏览数据，比如一周内的历史的推荐资讯信息浏览数据等。以财经新闻终端为例，对应的财经新闻用户簇还可以继续细分为本地财经新闻用户簇，股票财经新闻用户簇，以及期货财经新闻用户簇，本可以根据用户自行设定的用户簇分类进行标记。

步骤502：通过资讯信息推荐模型对所述训练样本集合进行处理，以确定所述资讯信息推荐模型的初始参数。

步骤503：响应于所述资讯信息推荐模型的初始参数，通过所述资讯信息推荐模型对所述训练样本集合中的不同训练样本进行处理，确定所述资讯信息推荐模型的更新参数。

在本发明的一些实施例中，响应于所述资讯信息推荐模型的初始参数，通过所述资讯信息推荐模型对所述训练样本集合中的不同训练样本进行处理，确定所述资讯信息推荐模型的更新参数，可以通过以下方式实现：

将所述训练样本集合中不同训练样本，代入由所述资讯信息推荐模型的多层感知器网络对应的损失函数；确定所述损失函数满足收敛条件时对应所述资讯信息推荐模型中多层感知器网络的参数作为所述资讯信息推荐模型的更新参数。

步骤504：根据所述资讯信息推荐模型的更新参数，通过所述训练样本集合对所述资讯信息推荐模型的参数进行迭代更新，以实现所述资讯信息推荐模型能够确定不同用户簇所分别对应的资讯信息的浏览次数。

下面以短视频播放界面中的视频新闻资讯推荐场景为例对本发明实施例所提供的资讯信息推荐模型的训练方法进行说明，其中，图6为本发明实施例中资讯信息推荐模型的训练方法的应用环境示意图，其中，如图6所示，视频新闻资讯播放界面可以是相应的APP中所展现的，也可以是通过微信小程序所触发的(资讯信息推荐模型可以经过训练后封装于相应的APP或以插件形式保存于微信小程序中)，随着短视频应用产品不断发展增多，视频新闻资讯信息的承载量远远大于文字信息，视频新闻资讯可以通过相应的应用程序不间断地向用户进行推荐。例如微信应用的发现页面中包括的“看一看”入口，或者音频应用的音频推荐入口，或者视频应用的视频推荐入口，或者直播应用的直播推荐入口等。目标终端在根据用户操作运行目标应用，并控制目标应用展示包括用于触发开启推荐内容展示页面的触发入口的应用页面时，可检测对该触发入口的触发操作。当产生对应于该触发入口的触发操作时，向服务器发送推荐请求，并在接收到服务器响应于该推荐请求反馈的推荐内容后，在推荐内容展示页面将推荐内容按照推荐顺序展示。

参考图7和图8，图7为本发明实施例所提供的资讯信息推荐方法一个可选的工作流程，本申请所提供的资讯信息推荐方法中个性化新闻推荐可以分为召回和排序两个阶段，两个阶段各司其职，分别完成不同的任务，而且各自的侧重点也不同。具体来说：召回阶段，主要完成重要内容的过滤，其工作重点是如何快速有效的从海量新闻当中抽取出海量用户可能感兴趣的内容，难点是海量数据的匹配问题(直接面对海量新闻和海量用户)，计算的复杂度是个必须考虑的问题。而排序侧的工作重点是全面准确的预估海量用户对召回的少量新闻的感兴趣的程度即CTR。图8为本发明实施例所提供的资讯信息推荐方法一个可选的工作流程，在个性化新闻推荐，首先要实现个性化新闻召回，具体来说，在个性化新闻推荐召回，通常需要实现为每一用户都召回最符合其兴趣偏好的新闻，但是在用户量较大的场景，可以通过聚类处理，实现把兴趣相同或相似的用户聚为一个簇，再为这一个簇内的人推荐相同的新闻。由于用户兴趣的多变性，一个用户可能同时隶属于多个簇。但是，由于事先并不知道用户对那个簇的内容更感兴趣，因此在计算用户的对多个簇的感兴趣程度时是按照等权平均的方式得当用户的整体兴趣特征的，这样便会出现以下问题：

1)如果推荐的内容太过平均，可能用户真正感兴趣的簇的召回内容占比太小，很难排到靠前的位置，从而使用户错过真正感兴趣的内容，不利于用户体验。2)如果推荐的内容太过偏向于某个簇的召回，可能给用户推荐的内容会越来越窄，内容多样性较差，使得用户需要重新搜索相关领域中的视频新闻资讯信息，提升了用户的操作复杂度。

为解决上述缺陷，参考图9，图9为本发明实施例所提供的资讯信息推荐方法的工作过程示意图，其中，图10为本发明实施例所提供的资讯信息推荐方法的训练过程示意图，下面结合图9所示的资讯信息推荐方法的数据结构示意图对本发明所提供的资讯信息推荐模型的工作过程进行说明，具体包括以下步骤：

步骤901：获取视频新闻资讯训练集合，输入相应训练参数。

其中，输入的训练参数包括：迭代轮数T，状态特征维度n，动作集A，步长α，衰减因子γ，探索率ε，当前资讯信息推荐模型的网络Q，目标资讯信息推荐模型的网络Q′，批量梯度下降的样本数m，目标资讯信息推荐模型的网络参数更新频率C。输出参数为资讯信息推荐模型的网络参数

步骤902：对资讯信息推荐模型进行训练，确定资讯信息推荐模型的参数。

其中，参考图10，训练过程中首先随机初始化所有的状态和动作对应的价值Q。随机初始化当前资讯信息推荐模型的网络的所有参数w，初始化目标资讯信息推荐模型的网络Q′的参数w′＝w。清空经验回放的集合D。

之后执行for i from 1 to T，进行迭代，具体包括以下步骤：。

a)初始化S为当前状态序列的第一个状态，获得对应的特征向量φ(S)。

b)在资讯信息推荐模型的网络中使用φ(S)作为输入，得到资讯信息推荐模型的网络的所有动作对应的Q值输出。用∈-贪婪算法在当前Q值输出中选择对应的动作A。

c)在状态S执行当前动作A，得到新状态S′对应的特征向量φ(S′)和奖励φ(S′)以及奖励R(S)，是否终止状态is_end

d)将{φ(S)，A，R，φ(S′)，is_end}这个五元组存入经验回放集合D

e)S＝S′

f)从经验回放集合D中采样m个样本{φ(S_j)，Aj，Rj，φ(S′_j))，is_endj}，j＝1，2，…m，通过公式1计算当前目标Q值yj，

g)使用均方差损失函数

通过神经网络的梯度反向传播来更新资讯信息推荐模型的网络的所有参数w

h)如果T％C＝1，则更新目标资讯信息推荐模型的网络参数w′＝w

i)如果S′是终止状态，当前轮迭代完毕，否则转到步骤b)

上述步骤中的的步骤f和和步骤g的Q值计算也都需要通过资讯信息推荐模型的网络计算得到。

进一步地，为了便于函数收敛，探索率∈可以随着迭代的进行而变小，由此可以提升模型的训练速度。

步骤903：部署经过训练的资讯信息推荐模型。

具体来说，经过训练的资讯信息推荐模型可以部署在服务器中，也可以封装于相应的APP或以插件形式保存于微信小程序中。

步骤904：通过资讯信息推荐模型待对推荐资讯信息中的不同用户簇信息所对应的资讯信息的数量进行调整。

参考图11，图11为本发明实施例中资讯信息推荐方法的显示效果示意图，其中，用户的终端界面的尺寸不唯一，呈现在终端界面中的推荐的资讯信息的数量也是跟随终端界面的大小变化的，通过本申请提供的可以实现待推荐资讯信息与所述目标用户相匹配，符合用户所归属的不同用户簇，同时增强了资讯信息推荐的准确性与时效性，有效提资讯信息的推荐的质量，提升用户的使用体验。

步骤905：输出经过数量调整的视频新闻资讯。

有益技术效果：

1)、相比于传统技术中，本申请通过响应于资讯信息推荐请求，获取目标用户的行为参数信息；基于所述目标用户的行为参数信息，确定所述目标用户所归属的不同用户簇信息；基于所述不同用户簇信息，在资讯信息源中获取每一个用户簇信息相对应的候选推荐资讯信息；基于所述每一个用户簇信息所对应的候选推荐资讯信息，确定与所述目标用户相匹配的待推荐资讯信息；根据所述目标用户的行为参数信息，通过与所述目标用户相匹配的资讯信息推荐模型，对所述待推荐资讯信息中的不同用户簇信息所对应的候选推荐资讯信息的数量进行调整，由此，可以实现待推荐资讯信息与所述目标用户相匹配，同时增强了资讯信息推荐的准确性与时效性，有效提资讯信息的推荐的质量，进一步地，还克服了传统技术单纯使用资讯信息内容的相关性进行平均推荐不能兼顾用户的感受的缺陷，从而能够提高不同推荐场景下的用户体验。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种资讯信息推荐方法，其特征在于，所述方法包括：

响应于资讯信息推荐请求，获取目标用户的行为参数信息；

2.根据权利要求1所述的方法，其特征在于，所述基于所述目标用户的行为参数信息，确定所述目标用户所归属的不同用户簇信息，包括：

获取与所述目标用户相对应的不同维度的原始数据集合；

根据所述不同维度的原始数据集合，确定与所述目标用户相匹配的用户行为参数信息；

对所述用户行为参数信息进行动态聚规则类处理，确定不同用户簇信息的标识；

基于所述不同用户簇信息的标识，确定所述目标用户所归属的不同用户簇信息。

3.根据权利要求1所述的方法，其特征在于，所述基于所述不同用户簇信息，在资讯信息源中获取每一个用户簇信息相对应的候选推荐资讯信息，包括：

基于所述不同用户簇信息，确定每一用户簇所分别对应的用户簇标识；

确定所述资讯信息源中每一条资讯信息的内容标识；

根据所述内容标识与所述用户簇标识的匹配结果，在资讯信息源中获取每一个用户簇信息相对应的候选推荐资讯信息。

4.根据权利要求1所述的方法，其特征在于，所述根据所述目标用户的行为参数信息，通过与所述目标用户相匹配的资讯信息推荐模型，对所述待推荐资讯信息中的不同用户簇信息所对应的候选推荐资讯信息的数量进行调整，包括：

确定与所述目标用户的行为参数信息相匹配的第一联合特征向量和第二联合特征向量；

通过所述资讯信息推荐模型对所述第一联合特征向量和所述第二联合特征向量进行处理，确定所述目标用户的显示界面中不同用户簇所分别对应的资讯信息的可选范围，其中，所述资讯信息的可选范围包括不同用户簇所分别对应的资讯信息数量；

基于所述资讯信息推荐模型，确定所述目标用户的显示界面中不同用户簇所分别对应的资讯信息的浏览次数；

基于所述不同用户簇所分别对应的资讯信息的浏览次数，确定对所述待推荐资讯信息中的不同用户簇信息所对应的候选推荐资讯信息的数量进行调整。

5.根据权利要求4所述的方法，其特征在于，所述基于所述不同用户簇所分别对应的资讯信息的浏览次数，确定对所述待推荐资讯信息中的不同用户簇信息所对应的候选推荐资讯信息的数量进行调整，包括：

对所述不同用户簇所分别对应的资讯信息的浏览次数进行交叉排序；

基于所述浏览次数的交叉排序结果，确定不同用户簇所分别对应的比例参数；

确定所述目标用户的显示界面中待显示资讯信息的数量；

基于所述目标用户的显示界面中待显示资讯信息的数量和同用户簇所分别对应的比例参数，对所述待推荐资讯信息中的不同用户簇信息所对应的候选推荐资讯信息的数量进行调整。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取训练样本集合，其中所述训练样本集合包括多维度状态特征向量以及不同用户簇所分别对应的资讯信息数量；

通过资讯信息推荐模型对所述训练样本集合进行处理，以确定所述资讯信息推荐模型的初始参数；

响应于所述资讯信息推荐模型的初始参数，通过所述资讯信息推荐模型对所述训练样本集合中的不同训练样本进行处理，确定所述资讯信息推荐模型的更新参数；

根据所述资讯信息推荐模型的更新参数，通过所述训练样本集合对所述资讯信息推荐模型的参数进行迭代更新，以实现所述资讯信息推荐模型能够确定不同用户簇所分别对应的资讯信息的浏览次数。

7.根据权利要求6所述的方法，其特征在于，所述响应于所述资讯信息推荐模型的初始参数，通过所述资讯信息推荐模型对所述训练样本集合中的不同训练样本进行处理，确定所述资讯信息推荐模型的更新参数，包括：

将所述训练样本集合中不同训练样本，代入由所述资讯信息推荐模型的多层感知器网络对应的损失函数；

确定所述损失函数满足收敛条件时对应所述资讯信息推荐模型中多层感知器网络的参数作为所述资讯信息推荐模型的更新参数。

8.根据权利要求6所述的方法，其特征在于，所述方法还包括：

当所述资讯信息推荐模型应用于视频信息推荐进程中时，确定与所述视频信息推荐进程相匹配的动态噪声阈值；

根据所述动态噪声阈值对第一训练样本集合进行去噪处理，以形成与所述动态噪声阈值相匹配的第二训练样本集合。

9.根据权利要求6所述的方法，其特征在于，所述方法还包括：

当所述资讯信息推荐模型应用于新闻信息推荐进程中时，确定与所述新闻信息推荐进程相对应的固定噪声阈值，并根据所述固定噪声阈值对第一训练样本集合进行去噪处理，以形成与所述固定噪声阈值相匹配的第二训练样本集合。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当向所述目标用户输出所述待推荐资讯信息时，监听所述目标用户的操作信息；

基于所监听的所述目标用户的操作信息，确定所述待推荐资讯信息的点击率与浏览时间。

11.一种资讯信息推荐装置，其特征在于，所述装置包括：

12.根据权利要求11所述的装置，其特征在于，

13.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现权利要求1至10任一项所述的资讯信息推荐方法。

14.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至10任一项所述的资讯信息推荐方法。