CN113343104A

CN113343104A - 信息推荐方法、装置、设备及计算机存储介质

Info

Publication number: CN113343104A
Application number: CN202110723899.XA
Authority: CN
Inventors: 何�雄; 卢道和; 谢波; 朱敏毅
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2021-09-03

Abstract

本申请实施例提供了一种信息推荐方法、装置、电子设备及计算机存储介质；该方法包括：确定多个发布信息；根据多个发布信息中每个发布信息的排序参数，确定每个发布信息的热度值；利用主题模型确定多个发布信息中每个发布信息的主题分布信息，主题分布信息用于表征按照主题确定的发布信息中词语的出现概率；获取用户搜索的关键词；根据每个发布信息的热度值、每个发布信息的主题分布信息、以及用户搜索的关键词，在多个发布信息中确定出待推荐的发布信息。

Description

信息推荐方法、装置、设备及计算机存储介质

技术领域

本申请涉及金融科技(Fintech)的数据排序技术，涉及但不限于一种信息推荐方法、装置、电子设备及计算机存储介质。

背景技术

随着计算机技术的发展，越来越多的技术应用在金融领域，传统金融业正在逐步向金融科技转变，但由于金融行业的安全性、实时性要求，也对技术提出了更高的要求。

目前，对用户进行信息推荐的一种实现方式为：将各种发布信息按照用户的投票数进行排序，从而根据排序结果向用户推荐发布信息；然而，由于只是根据用户的投票数这一单一要素进行排序，最终向用户推荐的发布信息不够准确，并且，不能够合理有效地对用户进行个性化推荐。

发明内容

本申请实施例提供一种信息推荐方法、装置、电子设备及计算机存储介质，可以解决现有技术中户推荐的发布信息不够准确并且不能够合理有效地对用户进行个性化推荐的问题。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种信息推荐方法，所述方法包括：

确定多个发布信息；

根据所述多个发布信息中每个发布信息的排序参数，确定所述每个发布信息的热度值；利用主题模型(topic model)确定所述多个发布信息中每个发布信息的主题分布信息，所述主题分布信息用于表征按照主题确定的发布信息中词语的出现概率；

获取用户搜索的关键词；根据所述每个发布信息的热度值、所述每个发布信息的主题分布信息、以及所述用户搜索的关键词，在所述多个发布信息中确定出待推荐的发布信息。

在本申请的一些实施例中，所述利用主题模型确定所述多个发布信息中每个发布信息的主题分布信息，包括：

确定所述每个发布信息选择各主题的概率、以及在所述各主题中选择词语的概率；

根据所述每个发布信息选择各主题的概率、以及在所述各主题中选择词语的概率，并采用所述主题模型确定所述多个发布信息中每个发布信息的主题分布信息。

可以看出，本申请实施例中，可以根据每个发布信息选择各主题的概率、以及在各主题中选择词语的概率，准确地确定发布信息的主题分布信息，即，可以准确地确定按照主题确定的发布信息中词语的出现概率，从而有利于准确地在多个发布信息中确定出待推荐的发布信息。

在本申请的一些实施例中，所述根据所述每个发布信息的热度值、所述每个发布信息的主题分布信息、以及所述用户搜索的关键词，在所述多个发布信息中确定出待推荐的发布信息，包括：

根据所述每个发布信息的主题分布信息、以及所述用户搜索的关键词，确定出所述用户搜索的关键词与所述每个发布信息的匹配度；

对所述每个发布信息的热度值、以及所述用户搜索的关键词与所述每个发布信息的匹配度进行加权求和运算，确定所述每个发布信息的推荐概率；

根据所述每个发布信息的推荐概率，在所述多个发布信息中确定出待推荐的发布信息。

可以看出，本申请实施例中，可以在综合考虑用户搜索的关键词与每个发布信息的匹配度、以及每个发布信息的主题分布信息的基础上，可以合理有效地完成发布信息的个性化推荐。

在本申请的一些实施例中，所述根据所述每个发布信息的推荐概率，在所述多个发布信息中确定出待推荐的发布信息，包括：

在所述多个发布信息中，将所述推荐概率大于预设概率值的发布信息作为所述待推荐的发布信息。

可以看出，本申请实施例可以将推荐概率大于预设概率值的发布信息作为待推荐的发布信息，由于推荐概率是根据发布信息的主题分布信息、以及用户搜索的关键词与发布信息的匹配度确定的，因而，本申请实施例可以准确地确定待推荐的发布信息，实现个性化的信息推荐。

在本申请的一些实施例中，在对所述每个发布信息的热度值、以及所述用户搜索的关键词与所述每个发布信息的匹配度进行加权求和运算之前，所述方法还包括：

确定梯度下降法中采用的损失函数对于所述热度值的权重系数的偏导数、以及所述损失函数对应所述匹配度的权重系数的偏导数；

根据所述损失函数对于所述热度值的权重系数的偏导数、以及所述损失函数对应所述匹配度的权重系数的偏导数，将所述损失函数按照梯度下降的方向减小，得出所述损失函数的最小值；

在所述损失函数取最小值时，确定所述热度值和所述匹配度的权重系数。

可以看出，通过采用梯度下降法，有利于快速准确地求解热度值和所述匹配度的权重系数，从而，提高发布信息的推荐效率。

在本申请的一些实施例中，所述排序参数至少包括内容质量参数和时效性参数，所述时效性参数表示发布信息的发布时间与当前时间的时长；所述发布信息的热度值与所述发布信息的内容质量参数成正相关，并且，所述发布信息的热度值与所述发布信息的时效性参数成负相关。

可以看出，本申请实施例中，可以综合考虑发布信息的内容质量参数和时效性参数，以得出发布信息的热度值，从而根据每个热度信息的热度值进行信息推荐，与现有技术中仅仅通过投票数这一单一要素确定发布信息的热度值的方案相比，本申请实施例可以准确地得出发布信息的热度值，从而准确地向用户推荐信息。

在本申请的一些实施例中，所述方法还包括：

确定所述每个发布信息的多种候选内容质量要素的优先级；

在所述多种候选内容质量要素中，选取优先级大于优先级阈值的候选内容质量要素作为所述至少两种内容质量要素；

根据所述至少两种内容质量要素，确定所述每个发布信息的内容质量参数。

可以看出，本申请实施例可以基于优先级较高的内容质量要素确定内容质量参数，有利于根据实际需求得出内容质量参数。并且，本申请实施例可以在综合考虑至少两种内容质量要素的基础上，较为准确地得出发布信息的内容质量参数，进而有利于准确地得出发布信息的热度值。

在本申请的一些实施例中，所述确定所述每个发布信息的多种候选内容质量要素的优先级，包括：

接收用于指示候选内容质量要素的优先级的指令；根据所述指令确定所述多种候选内容质量要素的优先级；

或者，根据所述每个发布信息的类型、以及预设的发布信息的类型与候选内容质量要素的优先级的对应关系，确定所述每个发布信息的多种候选内容质量要素的优先级。

可以看出，本申请实施例可以根据用户需求确定候选内容质量要素的优先级，进而确定内容质量参数；或者，可以根据发布信息的类型确定发布信息的多种候选内容质量要素的优先级，即，可以与发布信息的类型匹配的优先级数值，有利于根据发布信息的类型准确地候选内容质量要素的优先级，进而有利于准确地确定内容质量要素。

在本申请的一些实施例中，所述排序参数还包括所述每个发布信息的发布者的历史参考信息，所述历史参考信息表示历史发布信息的内容质量参数；

所述发布信息的热度值与所述发布者的历史参考信息成正相关。

可以理解地，在发布者多次发布信息的情况下，发布者最近一次发布的信息的热度值，可以基于发布者的历史发布信息的内容质量参数确定，因而，本申请实施例可以在考虑发布者的历史发布信息的内容质量参数的基础上，得出发布信息的热度值，得出发布信息的热度值时的考虑因素更加全面。

在本申请的一些实施例中，所述排序参数还包括均线(Moving Average，MA)，所述均线表示：所述网络社区中第一时间段发布信息的平均量与第二时间段发布信息的平均量之比；所述第一时间段为所述第二时间段的一部分；

所述发布信息的热度值与所述待排序的发布信息的均线成正相关。

可以看出，本申请实施例可以在考虑均线的基础上，得出发布信息的热度值，得出发布信息的热度值时的考虑因素更加全面。

在本申请的一些实施例中，所述根据所述多个发布信息中每个发布信息的排序参数，确定所述每个发布信息的热度值，包括：

确定重力因子，所述重力因子为所述均线的倒数；

根据所述重力因子、以及每个发布信息的内容质量参数和时效性参数，确定所述每个发布信息的热度值。

可以看出，本申请实施例可以在考虑重力因子的基础上，得出发布信息的热度值，得出发布信息的热度值时的考虑因素更加全面。

本申请实施例还提供了一种信息推荐装置，该装置包括：第一确定模块、处理模块和第二确定模块，其中，

第一确定模块，用于确定多个发布信息；

处理模块，用于根据所述多个发布信息中每个发布信息的排序参数，确定所述每个发布信息的热度值；利用主题模型确定所述多个发布信息中每个发布信息的主题分布信息，所述主题分布信息用于表征按照主题确定的发布信息中词语的出现概率；

第二确定模块，用于获取用户搜索的关键词；根据所述每个发布信息的热度值、所述每个发布信息的主题分布信息、以及所述用户搜索的关键词，在所述多个发布信息中确定出待推荐的发布信息。

本申请实施例提供一种电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现上述任意一种信息推荐方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于被处理器执行时，实现上述任意一种信息推荐方法。

本申请实施例中，确定网络社区中待排序的多个发布信息；根据所述多个发布信息中每个发布信息的排序参数，确定所述每个发布信息的热度值，其中，所述排序参数至少包括内容质量参数和时效性参数，所述时效性参数表示发布信息的发布时间与当前时间的时长；所述发布信息的热度值与所述发布信息的内容质量参数成正相关，并且，所述发布信息的热度值与所述发布信息的时效性参数成负相关；按照所述多个发布信息中各个发布信息的热度值，对所述各个发布信息进行排序，得到排序结果。

可以看出，本申请实施例中，不是基于用户的投票数进行信息推荐，而是结合发布信息的热度值以及发布信息中词语的出现概率，对用户进行信息推荐，从而提高了信息推荐的准确性，并且，由于待推荐的发布信息是根据用户搜索的关键词确定的，因而，待推荐的发布信息能够准确地反映用户的浏览喜好，从而本申请实施例可以能合理有效地完成个性化推荐。

附图说明

图1是本申请实施例提供的信息推荐方法的一个可选的流程图；

图2是本申请实施例的文章热度排序的示意图；

图3是本申请实施例中不同的重力因子对应的发布信息的热度随时间变化的曲线示意图；

图4为本申请实施例中采用梯度下降法得到的拟合线与实际数据的关系示意图；

图5是本申请实施例的信息推荐装置的一个可选的组成结构示意图；

图6是本申请实施例的电子设备的一个可选的组成结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

本申请实施例提供一种信息推荐方法、装置、电子设备及计算机存储介质，本申请实施例的信息推荐方法可以应用于终端和/或服务器组成的计算机系统中，并可以与众多其它通用或专用计算系统环境或配置一起操作。这里，终端可以是瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统，等等，服务器可以是服务器计算机系统小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端、服务器等电子设备可以包括用于执行指令的程序模块。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

下面对本申请实施例的信息推荐方法进行示例性说明。

图1为本申请实施例提供的信息推荐方法的一个可选的流程图，如图1所示，该流程可以包括：

步骤101：确定多个发布信息。

示例性地，可以在网络社区或其它信息发布位置获取多个发布信息；这里，发布信息可以是发布的文章或帖子；网络社区可以是用于发布文章或帖子的网站。

步骤102：根据多个发布信息中每个发布信息的排序参数，确定每个发布信息的热度值；利用主题模型确定多个发布信息中每个发布信息的主题分布信息，主题分布信息用于表征按照主题确定的发布信息中词语的出现概率。

本申请实施例中，排序参数可以根据实际需求确定。主题模型用于抽离出一批发布信息中的“主题”，主题模型的原理是：在已知一个发布信息的特定主题的情况下，说明一些关键词会更容易出现在该发布信息中。主题模型适用于在发布信息的数据量较大时准确地确定发布信息中词语的出现概率。

步骤103：获取用户搜索的关键词；根据每个发布信息的热度值、每个发布信息的主题分布信息、以及用户搜索的关键词，在多个发布信息中确定出待推荐的发布信息。

可以理解地，用户搜索的关键词可以用于反映用户的偏好或用户的关注信息，因而，结合用户搜索的关键词，有利于在多个发布信息中确定出与用户相关的待推荐的发布信息，从而实现个性化推荐。

在实际应用中，步骤101至步骤103可以基于电子设备的处理器实现，上述处理器可以是特定用途集成电路(Application Specific Integrated Circuit，A SIC)、数字信号处理器(Digital Signal Processor，DSP)、数字信号处理装置(Digital SignalProcessing Device，DSPD)、可编程逻辑装置(Programmable Logic Device，PLD)、现场可编程门阵列(Field Programmable Gate Array，FPGA)、中央处理器(Central ProcessingUnit，CPU)、控制器、微控制器、微处理器中的至少一种。可以理解地，实现上述处理器功能的电子器件还可以为其它，本申请实施例不作限制。

在本申请的一些实施例中，上述排序参数可以包括内容质量参数和时效性参数，时效性参数表示发布信息的发布时间与当前时间的时长；所述发布信息的热度值与所述发布信息的内容质量参数成正相关，并且，所述发布信息的热度值与所述发布信息的时效性参数成负相关。

这里，时效性参数是用于确定发布信息的热度值的一个重要参考因素，发布信息的发布时间与当前时间的时长越长，则发布信息的热度值越低。内容质量参数用于表征发布信息的内容质量，内容质量参数越大，则说明发明信息的内容质量越高。

示例性地，在得到每个发布信息的热度值后，可以按照多个发布信息中各个发布信息的热度值，对各个发布信息进行排序，得到排序结果。这样，通过展示排序结果，可以直观地呈现各个发布信息的热度值；参照图2，可以直观地展示企业内部论坛系统的文章的热度值排序。

进一步地，本申请实施例无需用户针对发布信息进行投票，可以适用于不能对发布信息进行投票的场景，在一定程度上扩展了本申请实施例的应用范围。

本申请的一些实施例中，可以根据每个发布信息的至少两种内容质量要素，确定每个发布信息的内容质量参数。

在一种实现方式中，上述至少两种内容质量要素包括以下至少两项：浏览量、评论数、收藏数、点赞数、用于表征是否得到推荐的参数、用于表征是否置顶的参数、用于表征是否公开的参数。

示例性地，用于表征是否得到推荐的参数的取值可以为0或1，在用于表征是否得到推荐的参数的取值为0时，说明发布信息没有得到推荐；在于表征是否得到推荐的参数的取值为1时，说明发布信息已经得到推荐。

示例性地，用于表征是否得到置顶的参数的取值可以为0或1，在用于表征是否得到置顶的参数的取值为0时，说明发布信息不是置顶信息；在于表征是否得到置顶的参数的取值为1时，说明发布信息是置顶信息。

示例性地，用于表征是否公开的参数的取值可以为0或1，在用于表征是否公开的参数的取值为0时，说明发布信息并未公开；在于表征是否公开的参数的取值为1时，说明发布信息已经公开。

需要说明的是，上述记载的内容仅仅是对用于表征是否得到推荐的参数、用于表征是否置顶的参数、以及用于表征是否公开的参数的示例性说明，本申请实施例并不局限于此。

在一种实现方式中，在得到每个发布信息的至少两种内容质量要素后，可以对每个发布信息的至少两种内容质量要素进行加权求和，得出每个发布信息的内容质量参数。

示例性地，至少两种内容质量要素为n种内容质量要素，n为大于或等于2的整数，这n种内容质量要素分别表示为x₁至x_n，这n种内容质量要素的权重分别为w₁至w_n，发布信息的内容质量参数可以根据公式(1)计算得出：

S＝x₁w₁+...+x_nw_n (1)

其中，S表示发布信息的内容质量参数。

示例性地，至少两种内容质量要素包括7种内容质量要素，7种内容质量要素分别为：浏览量、评论数、收藏数、点赞数、用于表征是否得到推荐的参数、用于表征是否置顶的参数、以及用于表征是否公开的参数，其中，浏览量为x₁，评论数为x₂，收藏数为x₃，点赞数为x₄，用于表征是否得到推荐的参数为x₅，用于表征是否置顶的参数为x₆，用于表征是否公开的参数为x₇。

示例性地，x₁至x₇各自对应的权重可以通过表1进行说明。

表1

需要说明的是，表1仅仅是对参数x₁至x₇的权重进行了举例说明，本申请实施例中，参数x₁至x₇的权重并不限定于表1的内容。

可以看出，本申请实施例可以在综合考虑至少两种内容质量要素的基础上，较为准确地得出发布信息的内容质量参数，进而有利于准确地得出发布信息的热度值。

本申请的一些实施例中，还可以首先确定每个发布信息的多种候选内容质量要素，并确定每个发布信息的多种候选内容质量要素的优先级；然后，在多种候选内容质量要素中，选取优先级大于优先级阈值的候选内容质量要素作为上述至少两种内容质量要素。

本申请实施例中，优先级阈值可以根据实际情况预先设置。

示例性地，发布信息的7种候选内容质量要素分别为：浏览量、评论数、收藏数、点赞数、用于表征是否得到推荐的参数、用于表征是否置顶的参数、以及用于表征是否公开的参数；这里，可以利用优先级数值表示每种候选内容质量要素的优先级，优先级数值越高，则说明候选内容质量要素的优先级越高。

示例性地，浏览量的优先级数值为2，评论数的优先级数值为3，收藏数的优先级数值为5，点赞数的优先级数值为5，用于表征是否得到推荐的参数的优先级数值为6，用于表征是否置顶的参数的优先级数值为7，用于表征是否公开的参数的优先级数值为5，优先级阈值为4，则可以在上述7种候选内容质量要素中，选取收藏数、点赞数、用于表征是否得到推荐的参数、用于表征是否置顶的参数、以及用于表征是否公开的参数作为上述至少两种内容质量要素。

可以看出，本申请实施例可以基于优先级较高的内容质量要素确定内容质量参数，有利于根据实际需求得出内容质量参数。

本申请的一些实施例中，可以接收用于指示候选内容质量要素的优先级的指令；根据上述指令确定多种候选内容质量要素的优先级。

在实际应用中，用户可以通过人机交互方式向电子设备中输入指示候选内容质量要素的优先级的指令，在上述指令中可以携带有各个候选内容质量要素的优先级数值。

可以看出，本申请实施例可以根据用户需求确定候选内容质量要素的优先级，进而确定内容质量参数。

本申请的一些实施例中，可以根据每个发布信息的类型、以及预设的发布信息的类型与候选内容质量要素的优先级的对应关系，确定每个发布信息的多种候选内容质量要素的优先级。

在实际应用中，可以根据发布信息的所属领域、字符数等属性对各种发布信息进行分类，得到发布信息的类型；并且，可以预先针对发布信息的各种类型，建立发布信息的类型与候选内容质量要素的优先级的对应关系。

可以看出，本申请实施例可以根据发布信息的类型确定发布信息的多种候选内容质量要素的优先级，即，可以与发布信息的类型匹配的优先级数值，有利于根据发布信息的类型准确地候选内容质量要素的优先级，进而有利于准确地确定内容质量要素。

本申请的一些实施例中，上述排序参数还包括每个发布信息的发布者的历史参考信息，历史参考信息表示历史发布信息的内容质量参数；发布信息的热度值与发布者的历史参考信息成正相关。

示例性地，历史发布信息的内容质量参数可以根据历史发布信息的至少两种内容质量要素确定，历史发布信息的至少两种内容质量要素可以包括以下至少两项：浏览量、评论数、收藏数、点赞数、用于表征是否得到推荐的参数、用于表征是否置顶的参数、用于表征是否公开的参数。在一种实现方式中，可以对历史发布信息的至少两种内容质量要素进行加权求和，得出历史发布信息的内容质量参数，即，得出历史参考信息。

本申请的一些实施例中，上述排序参数还包括均线，均线表示：网络社区中第一时间段发布信息的平均量与第二时间段发布信息的平均量之比；第一时间段为第二时间段的一部分；发布信息的热度值与待排序的发布信息的均线成正相关。

示例性地，第一时间段为待排序的发布信息所在时间段，第一时间段可以是1小时、1天、1周等时间段，第二时间段可以是1天、1周、1个月等时间段。

示例性地，第一时间段发布信息的平均量可以是多个连续第一时间段的发布信息的数量的平均值，第二时间段发布信息的平均量可以是多个连续第二时间段的发布信息的数量的平均值；可以理解地，在第一时间段发生变化时，网络社区中第一时间段发布信息的平均量也会随之发生变化；在第二时间段发生变化时，网络社区中第二时间段发布信息的平均量也会随之发生变化，因而，对于处于不同时间段的发布信息，均线可能是不同的。

本申请实施例中，根据上述多个发布信息中每个发布信息的排序参数，确定所述每个发布信息的热度值的实现方式可以是：

确定重力因子，重力因子为均线的倒数；

根据重力因子、以及每个发布信息的内容质量参数和时效性参数，确定所述每个发布信息的热度值。

这里，均线为小于1的正数，则重力因子为大于1的正数。

在一些实施例中，发布信息的热度值可以根据公式(2)计算得出：

其中，F表示发布信息的热度值，t_now表示当前时间，t_public表示发布信息的发布时间，G表示重力因子；可以看出，参照公式(2)，随着时间的推移，t_now的值变大，使得F的值变小。

在一些实施例中，可以根据公式(3)计算得出：

其中，t_n为以秒数表示的当前时间，t_public为以秒数表示的发布信息的发布时间，(t_n-t_p)/3600/24表示发布信息的发布时间与当前时间之间的天数，由于(t_n-t_p)/3600/24+1为大于1的数，且重力因子G为大于1的正数，则公式(3)中F的分母为随着t_n的增长而增长的增函数。

在一些实施例中，图3示出了不同的重力因子G对应的发布信息的热度随时间变化的曲线示意图，图3中，横轴表示时间，纵轴表示发布信息的热度值，图3中曲线1、曲线2和曲线3对应的重力因子分别为2、1.8或1.5；图3中，在重力因子为1.5的情况下，曲线更为平滑收敛，更加符合热度值的展示需求。

可以理解地，由于均线反映了网络社区内一段时间内各发布信息的数量平均值，并且重力因子为均线的倒数，因而，在网络社区内一段时间内各发布信息的数量平均值越高时，重力因子越低；进而，结合上述计算发布信息的热度值的公式可以看出，在重力因子越低时，需要排序的发布信息的热度值越高，也就是说，本申请实施例通过结合重力因子计算需要排序的发布信息的热度值，可以使计算出的发布信息的热度值反映网络社区内一段时间内各发布信息的数量平均值，进而，本申请实施例在综合考虑网络社区内一段时间内各发布信息的数量平均值的基础上，可以更加准确地得出发布信息的热度值。

在相关技术中，即使可以根据多种因素确定发布信息的热度值，也仅仅是对多种因素采用加权平均的方式计算发布信息的热度值，这种计算发布信息的热度值的方案并没有考虑网络社区内一段时间内各发布信息的数量平均值，仅仅考虑了发布信息自身的因素，因而，得出发布信息的热度值时的考虑因素不够全面。

而在本申请实施例中，并不是简单地对多种因素进行加权平均，以得出发布信息的热度值，而是可以结合重力因子计算需要排序的发布信息的热度值，基于上述记载的内容可以看出，本申请实施例可以使计算出的发布信息的热度值反映网络社区内一段时间内各发布信息的数量平均值，进而，得出发布信息的热度值时的考虑因素更加全面，且有利于更加准确地得出发布信息的热度值，从而更加准确地进行信息推荐。

本申请的一些实施例中，利用主题模型确定多个发布信息中每个发布信息的主题分布信息的实现方式，可以包括：确定每个发布信息选择各主题的概率、以及在各主题中选择词语的概率；根据每个发布信息选择各主题的概率、以及在各主题中选择词语的概率，并采用主题模型确定多个发布信息中每个发布信息的主题分布信息。

在主题模型中，主题表示一个概念、一个方面，表现为一系列相关的词语，是出现这些词语的条件概率。形象来说，主题可以看成一个桶，桶里装有出现概率较高的词语，这些词语与这个主题有很强的相关性。

示例性地，针对每个发布信息，可以采用贝叶斯统计标准方法，并使用Log-边际似然函数的方法，获取到发布信息对应的主题个数，例如，在文章《常见安全漏洞及防范&安全相关开发内容分享》中，获得的主题包括：“逻辑漏洞”、“安全”、“泄漏”、“加密/解密”、“XSS”、“CSRF”等。

本申请实施例中，可以将发布信息中词语的出现过程看成：在发布信息以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语；在发布信息为文档时，下面进行举例说明。

这样，对于一个文档而言，文档中词语的出现概率可以根据公式(4)计算得出：

P(词语|文档)＝∑_主题P(词语|主题)*P(主题|文档) (4)

其中，P(词语|文档)表示文档中词语的出现概率，P(词语|主题)表示主题中词语的出现概率，P(主题|文档)表示文档中主题的出现概率。

文档中词语的出现概率也可以根据公式(5)计算得出：

P(w|d)＝P(w|t)*P(t|d) (5)

其中，w表示词语，d表示文档，t表示主题；P(w|d)表示文档中词语的出现概率，P(w|t)表示主题中词语的出现概率，P(t|d)表示文档中主题的出现概率。

示例性地，主题模型可以是隐含狄利克雷分布(Latent Dirichlet Allocation，LDA)模型，对于多种文档组成的文档集合D而言，文档集合D中所有不同词语可以组成一个词语集合V，在实际应用中，可以将文档集合D输入至LDA模型中，利用LDA模型确定出第一结果向量θ_d和第二结果向量φ_t，第一结果向量θ_d表示每个文档中各个主题的出现概率，第二结果向量φ_t表示主题集合T中每个主题中各个词语的出现概率，主题集合T表示文档集合D中各个文档对应的主题。

这里，对于文档d而言，文档d中第j个主题出现概率P_tj可以根据公式(6)计算得出：

其中，j取1至K，K表示主题集合T主题的数量。可以理解地，根据公式(6)可以确定第一结果向量θ_d。

对于主题t而言，主题t中第i个词语的出现概率P_wi可以根据公式(7)计算得出：

其中，i取1至M，M表示词语集合V中词语的总数。可以理解地，根据公式(7)可以确定第二结果向量φ_t。

示例性地，基于LDA模型确定文档中词语的出现概率的流程可以包括：

首先，对于所有的d和t而言，随机对第一结果向量θ_d和第二结果向量φ_t进行赋值。

然后，针对文档d_s中的词语w_i，令词语w_i对应的主题为t_j，可以将公式(5)改写为公式(8)。

P_j(w_i|d_s)＝P(w_i|t_j)*P(t_j|d_s) (8)

基于公式(8)，通过枚举主题集合T的主题，得到使P_j(w_i|d_s)最大的主题。可以理解地，在主题t_j分别取不同的主题时，会对P(w_i|t_j)和P(t_j|d_s)的值造成影响，从而会影响P_j(w_i|d_s)的计算。

在LDA模型中，将对文档集合D的所有文档的所有词语进行公式(8)的计算，并基于公式(8)的计算结果选择主题看成是一个迭代；基于LDA模型，通过多次迭代，直至LDA模型收敛时，可以求解得出最终的P(w|d)，即求解出每个文档中各个主题的出现概率。

本申请实施例中，可以针对文档集合D，将每个文档中各个主题的出现概率组合，得到主题模型的概率矩阵。

需要说明的是，上述LDA模型仅仅是主题模型的一个示例，本申请实施例中的主题模型还可以是其它的主题模型。

本申请的一些实施例中，可以根据每个发布信息的主题分布信息、以及用户搜索的关键词，确定出用户搜索的关键词与每个发布信息的匹配度；对每个发布信息的热度值、以及用户搜索的关键词与每个发布信息的匹配度进行加权求和运算，确定每个发布信息的推荐概率；根据每个发布信息的推荐概率，在多个发布信息中确定出待推荐的发布信息。

示例性地，对于一个发布信息而言，在得到发布信息的热度值后，还可以对发布信息的热度值F进行归一化处理，得到发布信息的排名分P_a，P_a∈(0,1)；并且，对于一个发布信息而言，用户搜索的关键词与发布信息的匹配度可以记为P_b，则发布信息的推荐概率P可以根据公式(9)计算得出：

P＝μ_aP_a+μ_bP_b (9)

其中，μ_a和μ_b分别表示两个影响因子，μ_a∈(0,1)，μ_b∈(0,1)。

本申请的一些实施例中，可以采用梯度下降法求解所述热度值和所述匹配度的权重系数。

这里，参照公式(9)，热度值的权重系数为μ_a，匹配度的权重系数为μ_b。μ_a和μ_b的取值可以根据已知数据并采用梯度下降法求解得出，已知数据可以包括发布信息的推荐概率、发布信息的排名分和用户搜索的关键词与发布信息的匹配度。

图4为采用梯度下降法得到的拟合线与实际数据的关系示意图，图4中，每一个圆点代表一个实际数据对应的数据离散点，可以看出，采用梯度下降法得到的拟合线与实际数据更为接近。

本申请实施例中，梯度下降法在求解损失函数的最小值时，可以通过梯度下降法来一步步的迭代求解，得到最小化的损失函数和模型参数值。

在一些实施例中，可以确定梯度下降法中采用的损失函数对于所述热度值的权重系数的偏导数、以及损失函数对应所述匹配度的权重系数的偏导数；根据损失函数对于所述热度值的权重系数的偏导数、以及损失函数对于所述匹配度的权重系数的偏导数，将损失函数按照梯度下降的方向减小，得出损失函数的最小值；在损失函数取最小值时，确定热度值和匹配度的权重系数。

示例性地，损失函数可以用于表征推荐概率的真实值与推荐概率的估计值之间的差异；推荐概率的真实值表示根据发布信息的热度值的样本数据、以及用户搜索的关键词与发布信息的匹配度的样本数据，预先标注的真实推荐概率；推荐概率的估计值表示根据发布信息的热度值的样本数据、以及用户搜索的关键词与发布信息的匹配度的样本数据确定的推荐概率的估计值；推荐概率的估计值可以根据公式(9)计算得出。

在一些实施例中，将文档记为article.npz，通过读取文档article.npz并采用plt.scatter()函数进行图形绘制，实现实际数据对应的数据离散点的可视化,如图4所示，该图形是规则有序的，可以看出的文档是有效的。

采用plt.scatter()函数进行图形绘制并实现数据的可视化的参考代码为：

import numpy as np

import matplotlib.pyplot as plt

#加载数据

npz＝np.load('./file/article.npz')

x＝npz['X']

d＝npz['d']

plt.scatter(x,d,c＝'g')

plt.show()

通过梯度下降法对如下损失函数求解最小值：

loss＝∑(P-f)² (10)

其中，f表示梯度下降法中使用的参数。

确定损失函数取最小值时的μ_a和μ_b为最终求解结果。为了得到损失函数取最小值时的μ_a和μ_b，需要求出损失函数对于μ_a和μ_b的偏导数，作为梯度下降的方向，进行迭代训练。

示例性地，首先根据以下代码定义函数模型

def func(P,μ_a,μ_b):

returnμ_a*P+μ_b

然后，通过求出损失函数对于μ_a和μ_b的偏导数，从而确定损失函数的梯度，例如，确定损失函数的梯度的参考代码为：

def dfunc(pp,dd,μ_a,μ_b):

yy＝func(pp,μ_a,μ_b)

dfdu＝2*(yy-dd)

return dfdu*pp,dfdu

在确定损失函数的梯度后，通过梯度下降法可以确定损失函数取最小值时的μ_a和μ_b。

本申请的一些实施例中，可以在多个发布信息中，将推荐概率大于预设概率值的发布信息作为所述待推荐的发布信息。

这里，预设概率值可以根据实际需求进行设置，例如，预设概率值为0.9、0.95或0.98。

示例性地，可以在多个发布信息中，确定出推荐概率P接近于1的发布信息，将推荐概率P接近于1的发布信息作为待推荐的发布信息。

在实际应用中，在确定该待推荐的发布信息，可以向用户的终端发送该待推荐的发布信息，从而实现信息推荐。

在前述实施例提出的信息推荐方法的基础上，本申请实施例还提出了一种信息推荐装置；图5为本申请实施例的信息推荐装置的一个可选的组成结构示意图，如图5所示，该信息推荐装置500可以包括：

第一确定模块501，用于确定多个发布信息；

处理模块502，用于根据所述多个发布信息中每个发布信息的排序参数，确定所述每个发布信息的热度值；利用主题模型确定所述多个发布信息中每个发布信息的主题分布信息，所述主题分布信息用于表征按照主题确定的发布信息中词语的出现概率；

第二确定模块503，用于获取用户搜索的关键词；根据所述每个发布信息的热度值、所述每个发布信息的主题分布信息、以及所述用户搜索的关键词，在所述多个发布信息中确定出待推荐的发布信息。

在本申请的一些实施例中，所述处理模块502，用于利用主题模型确定所述多个发布信息中每个发布信息的主题分布信息，包括：

在本申请的一些实施例中，所述第二确定模块503，用于根据所述每个发布信息的热度值、所述每个发布信息的主题分布信息、以及所述用户搜索的关键词，在所述多个发布信息中确定出待推荐的发布信息，包括：

在本申请的一些实施例中，在对所述每个发布信息的热度值、以及所述用户搜索的关键词与所述每个发布信息的匹配度进行加权求和运算之前，所述第二确定模块503，还用于：

根据所述损失函数对于所述热度值的权重系数的偏导数、以及所述损失函数对于所述匹配度的权重系数的偏导数，将所述损失函数按照梯度下降的方向减小，得出所述损失函数的最小值；

在本申请的一些实施例中，所述处理模块502，还用于：

确定所述每个发布信息的多种候选内容质量要素的优先级；

根据所述每个发布信息的至少两种内容质量要素，确定所述每个发布信息的内容质量参数。

在本申请的一些实施例中，所述处理模块502，用于确定所述每个发布信息的多种候选内容质量要素的优先级，包括：

在本申请的一些实施例中，所述排序参数还包括所述每个发布信息的发布者的历史参考信息，所述历史参考信息表示历史发布信息的内容质量参数；所述发布信息的热度值与所述发布者的历史参考信息成正相关。

在本申请的一些实施例中，所述排序参数还包括均线，所述均线表示：第一时间段发布信息的平均量与第二时间段发布信息的平均量之比；所述第一时间段为所述第二时间段的一部分；所述发布信息的热度值与所述待排序的发布信息的均线成正相关。

在本申请的一些实施例中，所述处理模块502，用于根据所述多个发布信息中每个发布信息的排序参数，确定所述每个发布信息的热度值，包括：

确定重力因子，所述重力因子为所述均线的倒数；

在实际应用中，第一确定模块501、处理模块502和第二确定模块503均可以利用电子设备的处理器实现，上述处理器可以是ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微处理器中的至少一种。可以理解地，实现上述处理器功能的电子器件还可以为其它，本申请实施例不作限制。

需要说明的是，以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述的信息推荐方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是终端、服务器等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

对应地，本申请实施例再提供一种计算机程序产品，所述计算机程序产品包括计算机可执行指令，该计算机可执行指令用于实现本申请实施例提供的任意一种信息推荐方法。

相应的，本申请实施例再提供一种计算机存储介质，所述计算机存储介质上存储有计算机可执行指令，该计算机可执行指令用于实现上述实施例提供的任意一种信息推荐方法。

本申请实施例还提供一种电子设备，图6为本申请实施例提供的电子设备的一个可选的组成结构示意图，如图6所示，所述电子设备600包括：

存储器601，用于存储可执行指令；

处理器602，用于执行所述存储器601中存储的可执行指令时，实现上述任意一种信息推荐方法。

上述处理器602可以为ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微处理器中的至少一种。

上述计算机可读存储介质/存储器可以是ROM、可编程只读存储器(ProgrammableRead-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-OnlyMemory，EPROM)、电可擦除可编程只读存储器(Electrically Erasable ProgrammableRead-Only Memory，EEPROM)、磁性随机存取存储器(Ferromagnetic Random AccessMemory，FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CompactDisc Read-Only Memory，CD-ROM)等存储器；也可以是包括上述存储器之一或任意组合的各种终端，如移动电话、计算机、平板设备、个人数字助理等。

这里需要指出的是：以上存储介质和设备实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请存储介质和设备实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

应理解，说明书通篇中提到的“一些实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一些实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上所述，仅为本申请的实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种信息推荐方法，其特征在于，所述方法包括：

确定多个发布信息；

根据所述多个发布信息中每个发布信息的排序参数，确定所述每个发布信息的热度值；利用主题模型确定所述多个发布信息中每个发布信息的主题分布信息，所述主题分布信息用于表征按照主题确定的发布信息中词语的出现概率；

2.根据权利要求1所述的方法，其特征在于，所述利用主题模型确定所述多个发布信息中每个发布信息的主题分布信息，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述每个发布信息的热度值、所述每个发布信息的主题分布信息、以及所述用户搜索的关键词，在所述多个发布信息中确定出待推荐的发布信息，包括：

4.根据权利要求3所述的方法，其特征在于，在对所述每个发布信息的热度值、以及所述用户搜索的关键词与所述每个发布信息的匹配度进行加权求和运算之前，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述排序参数至少包括内容质量参数和时效性参数，所述时效性参数表示发布信息的发布时间与当前时间的时长；所述发布信息的热度值与所述发布信息的内容质量参数成正相关，并且，所述发布信息的热度值与所述发布信息的时效性参数成负相关。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

确定所述每个发布信息的多种候选内容质量要素的优先级；

7.根据权利要求6所述的方法，其特征在于，所述确定所述每个发布信息的多种候选内容质量要素的优先级，包括：

8.根据权利要求1所述的方法，其特征在于，所述排序参数还包括所述每个发布信息的发布者的历史参考信息，所述历史参考信息表示历史发布信息的内容质量参数；

9.根据权利要求1所述的方法，其特征在于，所述排序参数还包括均线，所述均线表示：第一时间段发布信息的平均量与第二时间段发布信息的平均量之比；所述第一时间段为所述第二时间段的一部分；

10.根据权利要求9所述的方法，其特征在于，所述根据所述多个发布信息中每个发布信息的排序参数，确定所述每个发布信息的热度值，包括：

确定重力因子，所述重力因子为所述均线的倒数；

11.一种信息推荐装置，其特征在于，所述装置包括：第一确定模块、处理模块和第二确定模块，其中，

第一确定模块，用于确定多个发布信息；

12.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至10任一项所述的信息推荐方法。

13.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1至10任一项所述的信息推荐方法。