CN111241392B

CN111241392B - 确定文章的流行度的方法、装置、设备和可读存储介质

Info

Publication number: CN111241392B
Application number: CN202010012780.7A
Authority: CN
Inventors: 廖东亮; 王艺如; 黎功福; 徐进
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-01-07
Filing date: 2020-01-07
Publication date: 2024-01-26
Anticipated expiration: 2040-01-07
Also published as: CN111241392A

Abstract

本公开提供了一种确定文章的流行度的方法、装置、设备和存储介质。所述确定文章的流行度的方法包括：获取所述文章的历史阅读序列向量和文本向量；对所述文章的历史阅读序列向量进行处理，获取所述文章的阅读增长趋势特征向量；对所述文章的历史阅读序列向量进行处理，获取所述文章的阅读短期波动特征向量；对所述文章的文本向量进行处理，获取所述文章的文本特征向量；基于所述文章的阅读增长趋势特征向量、阅读短期波动特征向量和文本特征向量确定所述文章的流行度。

Description

确定文章的流行度的方法、装置、设备和可读存储介质

技术领域

本公开涉及人工智能领域，具体的涉及一种确定文章的流行度的方法、装置、设备和可读存储介质。

背景技术

目前，网络上的在线文章的数量巨大且质量差别很大。为了使得阅读者可以快速地确定期望看到的文章，需要诸如阅读平台提供相应地文章推荐服务。文章发布初期，阅读平台可以对其进行评估，确定该文章在未来一定时间段内的流行度趋势，从而可以有针对性地提供推荐服务，例如，将流行度高的文章推荐给阅读用户，或者过滤掉流行度低的文章。由此，预测文章的流行程度对于文章推荐、广告推广和信息检索等应用场景都具有重要意义。然而，在线文章的流行度在很大程度上会受到外界因素的影响而产生难以预测的短期性波动，而文章的内容、质量以及元数据通常包含多种模态，增加了建模的复杂性，加大了文章的流行度预测的难度。

发明内容

本公开提供了一种用于确定文章的流行度的方法，基于文章的历史阅读序列向量和文本向量来确定文章的阅读增长趋势特征向量、阅读短期波动特征向量和文本特征向量，并基于确定的所述文章的阅读增长趋势特征向量、阅读短期波动特征向量和文本特征向量来确定所述文章的流行度。

根据本公开的一方面，提供了一种确定文章的流行度的方法，包括：获取所述文章的历史阅读序列向量和文本向量；对所述文章的历史阅读序列向量进行处理，获取所述文章的阅读增长趋势特征向量；对所述文章的历史阅读序列向量进行处理，获取所述文章的阅读短期波动特征向量；对所述文章的文本向量进行处理，获取所述文章的文本特征向量；基于所述文章的阅读增长趋势特征向量、阅读短期波动特征向量和文本特征向量确定所述文章的流行度。

根据本公开的一些实施例，所述确定文章的流行度的方法还包括：获取所述文章的元数据向量，其中，所述元数据向量是由所述文章的元数据确定的，所述元数据包括以下中的至少一种：所述文章的内容类别、发布时间、文本长度、包含的视频数量、发布者的热门度；将所述元数据向量转换成密集向量，其中，所述确定所述文章的流行度包括：基于所述文章的阅读增长趋势特征向量、阅读短期波动特征向量、文本特征向量和密集向量确定所述文章的流行度。

根据本公开的一些实施例，所述元数据包括所述文章的内容类别、发布时间、文本长度、包含的视频数量、发布者的热门度，所述方法还包括：基于所述文章的内容类别确定独热编码特征向量作为所述元数据向量的第一部分，基于所述文章的发布时间、文本长度、包含的视频数量、发布者的热门度确定数值特征向量作为所述元数据向量的第二部分；将所述独热编码特征向量转换成第一密集向量；将所述数值特征向量转换成第二密集向量；对所述第一密集向量和第二密集向量进行组合，作为所述密集向量。

根据本公开的一些实施例，获取所述文章的历史阅读序列向量包括：以预定时间间隔为单位，基于所述文章自第一时刻至第二时刻期间内每个预定时间间隔内的阅读数量来确定所述历史阅读序列向量{v₁，v₂，…v_i，...，v_t}，其中，v_i表示所述文章在第i个预定时间间隔内的阅读数量，所述历史阅读序列向量包括t个时间特征，其中，对所述文章的历史阅读序列向量进行处理，获取所述文章的阅读增长趋势特征向量包括：利用循环神经网络对所述历史阅读序列向量{v₁，v₂，...，v_t}进行处理，确定所述文章的阅读增长趋势特征向量。

根据本公开的一些实施例，对所述文章的历史阅读序列向量进行处理，获取所述文章的阅读短期波动特征向量包括：利用卷积神经网络对所述文章的历史阅读序列向量进行处理，获取所述文章的阅读短期波动特征向量，其中，所述卷积神经网络的输入序列长度为k，其中，所述利用卷积神经网络对所述历史阅读序列向量进行处理，获取所述文章的阅读短期波动特征向量包括：利用所述卷积神经网络对长度为t的所述历史阅读序列向量{v₁，v₂，...，v_t}中长度为k的剪切序列向量{v_t-k+1，v_t-k+2，...，v_t}进行处理，获得输出序列{c_t-k+1，c_t-k+2，...，c_t}；其中，基于所述输出序列{c_t-k+1，c_t-k+2，...，c_t}确定所述阅读短期波动特征向量表示为：

其中，表示所述阅读短期波动特征向量，V_i ^c、W^c为权重系数，b^c为偏置值。

根据本公开的一些实施例，获取所述文章的文本向量包括：基于关键词词典对所述文章进行分词，以获得k个词语；将所述k个词语中的每个词语分别转换成词向量；将所述k个词语的词向量级联成词向量矩阵{w₁，w₂，...，w_k}，作为所述文本向量。

根据本公开的一些实施例，对所述文章的文本向量进行处理，获取所述文章的文本特征向量包括：利用分层注意力网络对所述文章的文本向量进行处理，获取所述文章的文本特征向量，其中，所述分层注意力网络包括词语级编码网络和句子级编码网络，其中，利用分层注意力网络对所述文章的文本向量进行处理，获取所述文章的文本特征向量包括：利用所述词语级编码网络对所述文本向量{w₁，w₂，...，w_k}进行处理，获得词语级编码向量；利用所述句子级编码网络对所述词语级编码向量进行处理，获得句子级编码向量，作为所述文本特征向量。

根据本公开的一些实施例，基于所述文章的阅读增长趋势特征向量、阅读短期波动特征向量、文本特征向量和密集向量确定所述文章的流行度包括：基于所述文章的阅读增长趋势特征向量、阅读短期波动特征向量、文本特征向量、密集向量以及时间特征确定融合特征向量；基于所述融合特征向量确定包括至少一个类别的概率分布；基于所述概率分布，将所述至少一个类别中概率值最高的类别确定为所述文章的流行度。

根据本公开的一些实施例，所述确定融合特征向量包括：基于时间特征，分别确定所述文章的阅读增长趋势特征向量、阅读短期波动特征向量、文本特征向量、密集向量的加权系数；将所述文章的阅读增长趋势特征向量、阅读短期波动特征向量、文本特征向量、密集向量与其各自加权系数的加权和作为所述融合特征向量。

根据本公开的一些实施例，基于所述概率分布，将所述至少一个类别中概率值最高的类别确定为所述文章的流行度表示为：

P_t＝{p_t(l₁)，p_t(l₂)，...，p_t(l_n)}

其中，P_t表示所述概率分布，其包括n个类别，表示所述文章的流行度，其对应于所述概率分布中概率值最高的类别。

根据本公开的一些实施例，所述确定文章的流行度的方法还包括，基于训练文章，利用时间损失函数来训练所述循环神经网络、卷积神经网络和分层注意力网络，以确定所述循环神经网络、卷积神经网络和分层注意力网络的权重系数和偏置值，包括：将所述训练文章作为所述文章，确定所述训练文章的概率分布；利用时间损失函数，通过最小化时间损失值来训练所述循环神经网络、卷积神经网络和分层注意力网络：

D(Δt)＝[log_γ(Δt+1)]^-1

其中，J表示所述时间损失值，D(Δt)表示单调非增的时间衰减因子，logp_t(l_c)表示类别c的交叉熵损失值，其中，所述类别c表示所述训练文章的流行度的真实类别。

根据本公开的一些实施例，所述确定文章的流行度的方法还包括：构建所述关键词词典，包括：获取多个文章，对所述多个文章分别进行分词获得多个词语；统计每个词语的出现频率；根据每个词语的出现频率，将所述多个词语中的至少一部分词语作为所述关键词词典中的词语。

根据本公开的另一方面，提供了一种确定文章的流行度的装置，包括：获取单元，配置成获取所述文章的历史阅读序列向量和文本向量；增长趋势处理单元，配置成对所述文章的历史阅读序列向量进行处理，获取所述文章的阅读增长趋势特征向量；短期波动处理单元，配置成对所述文章的历史阅读序列向量进行处理，获取所述文章的阅读短期波动特征向量；文本特征处理单元，配置成对所述文章的文本向量进行处理，获取所述文章的文本特征向量；确定单元，配置成基于所述文章的阅读增长趋势特征向量、阅读短期波动特征向量和文本特征向量确定所述文章的流行度。

根据本公开的一些实施例，所述获取单元还配置成：获取所述文章的元数据向量，其中，所述元数据向量是由所述文章的元数据确定的，所述元数据包括以下中的至少一种：所述文章的内容类别、发布时间、文本长度、包含的视频数量、发布者的热门度，其中，所述装置还包括元数据处理单元，配置成将所述元数据向量转换成密集向量，其中，所述确定单元配置成：基于所述文章的阅读增长趋势特征向量、阅读短期波动特征向量、文本特征向量和密集向量确定所述文章的流行度。

根据本公开的一些实施例，所述元数据包括所述文章的内容类别、发布时间、文本长度、包含的视频数量、发布者的热门度，所述元数据处理单元还配置成：基于所述文章的内容类别确定独热编码特征向量作为所述元数据向量的第一部分，基于所述文章的发布时间、文本长度、包含的视频数量、发布者的热门度确定数值特征向量作为所述元数据向量的第二部分；将所述独热编码特征向量转换成第一密集向量；将所述数值特征向量转换成第二密集向量；对所述第一密集向量和第二密集向量进行组合，作为所述密集向量。

根据本公开的一些实施例，所述获取单元配置成：以预定时间间隔为单位，基于所述文章自第一时刻至第二时刻期间内每个预定时间间隔内的阅读数量来确定所述历史阅读序列向量{v₁，v₂，…v_i，...，v_t}，其中，v_i表示所述文章在第i个预定时间间隔内的阅读数量，所述历史阅读序列向量包括t个时间特征，其中，所述增长趋势处理单元还配置成：利用循环神经网络对所述历史阅读序列向量{v₁，v₂，...，v_t}进行处理，确定所述文章的阅读增长趋势特征向量。

根据本公开的一些实施例，短期波动处理单元配置成：利用卷积神经网络对所述文章的历史阅读序列向量进行处理，获取所述文章的阅读短期波动特征向量，其中，所述卷积神经网络的输入序列长度为k，其中，所述利用卷积神经网络对所述历史阅读序列向量进行处理，获取所述文章的阅读短期波动特征向量包括：利用所述卷积神经网络对长度为t的所述历史阅读序列向量{v₁，v₂，...，v_t}中长度为k的剪切序列向量{v_t-k+1，v_t-k+2，...，v_t}进行处理，获得输出序列{c_t-k+1，c_t-k+2，...，c_t}；基于所述输出序列{c_t-k+1，c_t-k+2，...，c_t}确定所述阅读短期波动特征向量表示为：

根据本公开的一些实施例，所述获取单元配置成：基于关键词词典对所述文章进行分词，以获得k个词语；将所述k个词语中的每个词语分别转换成词向量；将所述k个词语的词向量级联成词向量矩阵{w₁，w₂，...，w_k}，作为所述文本向量。

根据本公开的一些实施例，所述文本特征处理单元配置成：利用分层注意力网络对所述文章的文本向量进行处理，获取所述文章的文本特征向量，其中，所述分层注意力网络包括词语级编码网络和句子级编码网络，其中，利用分层注意力网络对所述文章的文本向量进行处理，获取所述文章的文本特征向量包括：利用所述词语级编码网络对所述文本向量{w₁，w₂，...，w_k}进行处理，获得词语级编码向量；利用所述句子级编码网络对所述词语级编码向量进行处理，获得句子级编码向量，作为所述文本特征向量。

根据本公开的一些实施例，所述确定单元还配置成：基于所述文章的阅读增长趋势特征向量、阅读短期波动特征向量、文本特征向量、密集向量以及时间特征确定融合特征向量；基于所述融合特征向量确定包括至少一个类别的概率分布；基于所述概率分布，将所述至少一个类别中概率值最高的类别确定为所述文章的流行度。

根据本公开的一些实施例，所述确定单元配置成：基于时间特征，分别确定所述文章的阅读增长趋势特征向量、阅读短期波动特征向量、文本特征向量、密集向量的加权系数；将所述文章的阅读增长趋势特征向量、阅读短期波动特征向量、文本特征向量、密集向量与其各自加权系数的加权和作为所述融合特征向量。

根据本公开的一些实施例，所述基于所述概率分布，将所述至少一个类别中概率值最高的类别确定为所述文章的流行度表示为：

P_t＝{p_t(l₁)，p_t(l₂)，...，p_t(l_n)}

根据本公开的一些实施例，所述装置还包括训练单元，配置成基于训练文章，利用时间损失函数来训练所述循环神经网络、卷积神经网络和分层注意力网络，以确定所述循环神经网络、卷积神经网络和分层注意力网络的权重系数和偏置值，其中，将所述训练文章作为所述文章，确定所述训练文章的概率分布；利用时间损失函数，通过最小化时间损失值来训练所述循环神经网络、卷积神经网络和分层注意力网络：

D(Δt)＝[log_γ(Δt+1)]^-1

根据本公开的一些实施例，所述装置还包括词典构建单元，配置成构建所述关键词词典，包括：获取多个文章，对所述多个文章分别进行分词获得多个词语；统计每个词语的出现频率；根据每个词语的出现频率，将所述多个词语中的至少一部分词语作为所述关键词词典中的词语。

根据本公开的又一方面，提供了一种确定文章的流行度的设备，包括：处理器；和存储器，其中，所述存储器中存储有计算机可读代码，所述计算机可读代码当由所述处理器运行时，执行如上所述的确定文章的流行度的方法。

根据本公开的又一方面，提供了一种计算机可读存储介质，其上存储有指令，所述指令在被处理器执行时，使得所述处理器执行如上所述的确定文章的流行度的方法。

利用本公开提供的确定文章的流行度的方法，基于历史阅读序列向量和文本向量来确定文章的阅读增长趋势特征向量、阅读短期波动特征向量和文本特征向量来确定文章的流行度，从而使得可以基于文章发布后一定时期的历史阅读数据以及文章的内容特征来综合、全面地确定文章的流行度，有利于提高文章流行度预测的准确性。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了在线文章流行度的示意图；

图2示出了根据本公开实施例的确定文章的流行度的方法的流程图；

图3示出了根据本公开实施例的确定密集向量的示意图；

图4示出了根据本公开实施例的确定文章流行度的整体示意图；

图5示出了根据本公开实施例的获取阅读增长趋势特征向量的示意图；

图6示出了根据本公开实施例的获取阅读短期波动特征向量的示意图；

图7示出了根据本公开实施例的获取文本特征向量的示意图；

图8A示出了根据本公开实施例的确定文章流行度的网络示意图；

图8B示出了根据本公开实施例的方法确定文章流行度的流程示意图；

图9示出了根据本公开实施例的确定文章的流行度的装置的示意性框图；

图10示出了根据本公开实施例的确定文章的流行度的设备的示意性框图；

图11示出了根据本公开实施例的示例性计算设备的架构的示意图；

图12示出了根据本公开实施例的计算机存储介质的示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本公开一部分的实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。

本公开中使用了流程图用来说明根据本公开的实施例的方法的步骤。应当理解的是，前面或后面的步骤不一定按照顺序来精确的进行。相反，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中。

在线文章的流行度表征该文章的受关注程度，例如，可以由文章的阅读量(或者，点击量)来表示所述流行度。换句话说，文章的流行度可以表示为文章的在线浏览数量。此外，文章的流行度还可以侧面的反映文章的内容质量，以及阅读用户浏览、筛选文章的方式，文章的流行度越高，表明该文章的内容质量越高，越容易受到读者的欢迎。图1示出了在线文章流行度的示意图，内容提供平台可以依据文章的点击量来对文章进行筛选、推荐，例如，将总点击量超过2000的文章选入精选列表，从而可以更好地为阅读用户进行推荐，提升用户体验。

一般地，只能在文章的生命周期之后获得该文章的总阅读量数据。而在文章发布早期，缺乏阅读量数据，这使得很难预测文章在未来一段时间内的流行度趋势，即很难在文章发布初期预测文章的流行度，并基于预测的流行度来进行文章推荐。因此，有需要在文章生命周期的早期阶段，基于早期数据，对文章的流行度进行准确地预测，并依据预测结果来推荐潜在的“热门”文章或者，过滤潜在的“垃圾”文章。

本公开提供了一种用于确定文章的流行度的方法，利用人工智能技术，按照文章的历史阅读序列向量和文本向量来确定文章的流行度，提高流行度预测的准确性，为推荐热门高质量文章和过滤冷门低质量文章提供有力参考，根据业务需求和潜在热门程度有选择的进行文章推荐。

所述人工智能技术是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

神经网络属于人工智能技术的重要内容，通过设计神经网络，可以实现诸如图像处理、提取目标特征等处理。本公开提供的方法可以基于神经网络来执行，其具体过程将在下文详细描述。

图2示出了根据本公开实施例的确定文章的流行度的方法的流程图。所述文章的流行度表示为文章的浏览数量，在实际应用中，可以具体反映为文章的点击量、阅读量、分享次数等。

首先，在步骤S101，获取所述文章的历史阅读序列向量和文本向量。所述历史阅读序列向量是基于所述文章发布一段时间周期内(自发布开始至当前)阅读量确定的。所述文本向量是基于文章内容确定的。对于在线文章，所述阅读量可以表示为来自阅读用户的诸如“浏览”、“分享”、“收藏”、“喜欢”以及“打赏”等动作。关于获取所述历史阅读序列向量和文本向量的具体过程，将在下文详细描述。

接着，在步骤S102，对所述文章的历史阅读序列向量进行处理，获取所述文章的阅读增长趋势特征向量。例如，可以基于循环神经网络(Recurrent Neural Network,RNN)来对所述历史阅读序列向量进行处理，以获取所述文章的阅读增长趋势特征向量。所述阅读增长趋势特征向量表征所述文章在所述一段时间周期内的整体上的阅读增长趋势。举例来说，随着文章发布时间的增加，文章的阅读量也将随发布时间而增长，所述阅读增长趋势特征向量则表征文章的阅读量相对于时间的增长趋势。所述循环神经网络是以序列(sequence)数据为输入，在序列的演进方向进行递归(recursion)，且所有循环单元按照链式连接的递归神经网络(recursive neural network)。

接着，在步骤S103，对所述文章的历史阅读序列向量进行处理，获取所述文章的阅读短期波动特征向量。例如，可以基于卷积神经网络(Convolutional Neural Networks,CNN)对所述文章的历史阅读序列向量进行处理，获取所述文章的阅读短期波动特征向量。所述阅读短期波动特征向量表征所述文章在所述一段时间周期内的局部上的阅读量波动，所述局部上的阅读量波动例如可以由外在因素引起。举例来说，在文章发布一段时间后，受到外在因素(诸如，热门消息、发布者知名度明显增加等)的影响，文章的阅读量会存在短期的剧烈波动。

接着，在步骤S104，对所述文章的文本向量进行处理，获取所述文章的文本特征向量。例如，可以基于分层注意力网络(Hierarchical Attention Networks，HAN)，或者称为多层注意力网络来对所述文本向量进行处理，获取所述文章的文本特征向量。接着，在步骤S105，基于所述文章的阅读增长趋势特征向量、阅读短期波动特征向量和文本特征向量确定所述文章的流行度。

根据本公开的方法，能够使得基于文章发布后一定时期的历史阅读数据以及文章的内容特征来综合、全面地确定文章的流行度，有利于提高文章流行度预测的准确性。例如，对于历史阅读数据较高的文章，表明其在发布初期就已经积攒了较高的阅读量，其更容易成为热门文章，即流行度较高；对于文章的内容特征，内容质量较高(诸如，内容丰富、题材新颖等)的文章也更容易地成为流行度较高的文章，读者更倾向于阅读内容质量高的文章。根据本公开的方法，综合地考虑了历史阅读数据以及文章的内容特征对于文章流行度的影响，以更准确地确定文章的流行度。基于确定的流行度可以进行诸如文章推荐、分类等应用。

关于上述步骤S101-S105，将在下文一一详细描述。

根据本公开实施例，所述确定文章的流行度的方法还包括：获取所述文章的元数据向量。所述元数据向量是由所述文章的元数据确定的。例如，所述元数据包括以下中的至少一种：所述文章的内容类别、发布时间、文本长度、包含的视频数量、发布者的热门度。所述方法还包括：将所述元数据向量转换成密集向量。

根据本公开的一些实施例，所述元数据包括所述文章的内容类别、发布时间、文本长度、包含的视频数量、发布者的热门度。

图3示出了根据本公开实施例的确定密集向量的示意图。首先，基于所述文章的内容类别确定独热编码(one hot)特征向量作为所述元数据向量的第一部分。所述独热编码也可以称为一位有效编码，例如，用N位状态寄存器来对N个状态进行编码。举例来说，可以将文章划分为N个类别，基于文章内容确定该文章所属的类别，对应于该类别的编码状态值为1，而对应于其他类别的编码状态值为0。通常情况下，类别的数目可能很多，即，N的数值很大，使得独热编码特征向量是数据量较大的一维矩阵。由此有需要将独热编码特征向量转换成密集向量。即，将所述独热编码特征向量转换成第一密集向量，或者称为将所述独热编码特征向量嵌入到数据量更小的矩阵。所述嵌入过程可以通过诸如乘以另一矩阵的方式来实现，在此不作限制。

接着，基于所述文章的发布时间、文本长度、包含的视频数量、发布者的热门度确定数值特征向量作为所述元数据向量的第二部分。例如，可以为所述数值特征向量设置长度，诸如64位，并将获取的所述发布时间、文本长度等数值转化为矩阵。接着，可以将所述数值特征向量转换成第二密集向量。例如，所述第一密集向量与第二密集向量的矩阵长度可以相同。接着，可以对所述第一密集向量和第二密集向量进行组合，作为所述密集向量。例如，可以将第一密集向量与第二密集向量进行级联，并利用全连接层(Fully connectedlayers，FC)将第一密集向量与第二密集向量组合在一起，得到总的密集向量，例如，可以将所述密集向量表示为h^e。

根据本公开实施例，所述确定所述文章的流行度包括：基于所述文章的阅读增长趋势特征向量、阅读短期波动特征向量、文本特征向量和密集向量确定所述文章的流行度。其中，通过所述密集向量对文章的内容类别、发布时间、文本长度、视频数量和发布者的热门度(例如，发布者的粉丝数量)等元数据进行建模，并在确定文章流行度的过程中考虑了建模后的文章的元数据对于文章流行度的影响，可以提高文章流行度预测的准确性。例如，对于发布者的热门度较高的发布者，例如，具有较多的关注者，由此，由其发布的文章更容易具有较高的流行度。

图4示出了根据本公开实施例的确定文章流行度的整体示意图，从整体上示出了根据本公开的方法的流程。如图4所示，根据本公开的方法，利用文章的历史阅读序列向量来分别得到所述文章的阅读增长趋势特征向量以及阅读短期波动特征向量，由于所述历史阅读序列向量是基于文章发布至预测之前一段时间周期内的阅读量确定的，使得历史阅读序列向量与时间相关，或者称为，随时间变化，可以将此过程称为时间序列建模。文章的阅读增长趋势特征向量以及阅读短期波动特征向量是与时间特征相关的向量，使得可以分别用于捕获文章流行度的长期增长趋势以及短期波动，有利于在文章流行度预测的后期提供准确的预测依据。接着，可以基于文章的文本向量来确定文本特征向量，以及基于文章的元数据向量来确定文章的密集向量。由于，所述文本向量和元数据向量是由文章内容等数据确定的，可以将此过程称为内容特征建模，相比于随时间变化的所述历史阅读序列向量，所述内容特征不随时间变化。采用嵌入技术可以将基于文章元数据的独热编码特征向量和数值特征向量嵌入到统一的密集空间进行充分融合，并得到密集向量，从而更好地建模长文本特征和多模态的元数据特征，有利于在文章流行度预测的前期提供准确的预测依据。然后，可以动态地融合所述阅读增长趋势特征向量、阅读短期波动特征向量、文本特征向量和密集向量，从而确定所述文章的流行度。

根据本公开的方法，结合时间序列建模和内容特征建模，来预测在线文章的流行度，既能捕捉在线文章的流行度随发布时间推移的变化趋势，有利于在文章发布后期基于阅读数据来准确确定流行度，又可以利用文章的内容特征来在文章发布初期进行准确预测，从而可以更灵活地在文章发布的早期、中期、后期准确地预测文章的流行度，从而准确地进行文章推荐服务。

接下来将详细描述上述步骤S102的实现过程。

根据本公开实施例，获取所述文章的历史阅读序列向量包括：以预定时间间隔为单位，基于所述文章自第一时刻至第二时刻期间内每个预定时间间隔内的阅读数量来确定所述历史阅读序列向量{v₁，v₂，…v_i，...，v_t}，其中，v_i表示所述文章在第i个预定时间间隔内的阅读数量，所述历史阅读序列向量包括t个时间特征。例如，可以将所述预定时间间隔设置为5分钟，即，每隔5分钟统计一次该文章的阅读数量，所述阅读数量可以表示为在线用户的诸如“浏览”，“分享”，“收藏”，“喜欢”和“打赏”的动作。例如，所述第一时刻可以是指文章发布时刻，所述第二时刻可以是指确定文章流行度的时刻。又例如，还可以剔除所述文章发布初期一段时间的数据，诸如将所述第一时刻设置为所述文章发布5小时。又例如，还可以限定所述第二时刻为第一时刻之后的24小时的时刻，即第一时刻与第二时刻之间的时间间隔为24小时。在所述24小时时间间隔内，统计每5分钟内的阅读数量，作为所述历史阅读序列向量{v₁，v₂，…v_i，...，v_t}，t表示统计的预定时间间隔的序号，例如，v₁表示所述文章在第1个预定时间间隔内(即，第1个5分钟)的阅读数量。所述t表示所述历史阅读序列向量包括t个时间特征，即，总计统计了t次阅读数量。

所述对所述文章的历史阅读序列向量进行处理，获取所述文章的阅读增长趋势特征向量(步骤S102)包括：利用循环神经网络对所述历史阅读序列向量{v₁，v₂，...，v_t}进行处理，确定所述文章的阅读增长趋势特征向量。

图5示出了根据本公开实施例的获取阅读增长趋势特征向量的示意图，如图5所示，所述循环神经网络可以是长短期记忆网络(Long Short-Term Memory，LSTM)。LSTM对时间序列建模的优越性在于LSTM中的隐藏状态包含所有历史信息，因此不需要对历史趋势的函数形式做出具体的假设。并且LSTM中的记忆单元更擅于捕获长序列(诸如，历史阅读序列向量)内部的依赖关系。具体地，如图5所示，LSTM中的隐藏处理层(表示为方框)接收当前的时间特征v_i以及前一隐藏处理层的输出作为输入，并输出并输出处理结果h_i。对于最后一层的隐藏处理层，其接收当前的时间特征v_t以及前一隐藏处理层的输出h_t-1作为输入，并输出处理结果可以将所述LSTM最后输出的处理结果/>作为所述阅读增长趋势特征向量。从神经网络来理解，所述处理结果/>学习了输入的历史阅读序列向量中的每个向量之间的变化趋势，表征阅读量随时间的整体变化趋势。

接下来将详细描述上述步骤S103的实现过程。

根据本公开实施例，对所述文章的历史阅读序列向量进行处理，获取所述文章的阅读短期波动特征向量(S103)包括：利用卷积神经网络对所述文章的历史阅读序列向量进行处理，获取所述文章的阅读短期波动特征向量。

图6示出了根据本公开实施例的获取阅读短期波动特征向量的示意图，作为一个示例，所述卷积神经网络可以是一维卷积神经网络(1D-CNN)，所述卷积神经网络的输入序列长度为k，即，CNN接收固定长度的输入序列，例如，可以将所述k设置为72。

根据本公开实施例，首先，可以基于所述历史阅读序列向量{v₁，v₂，...，v_t}来获得长度为k的输入序列。例如，对长度为t的所述历史阅读序列向量{v₁，v₂，...，v_t}中长度为k序列进行剪切，获得剪切序列向量{v_t-k+1，v_t-k+2，...，v_t}，作为所述卷积神经网络的输入序列。接着，可以利用所述卷积神经网络对所述剪切序列向量{v_t-k+1，v_t-k+2，...，v_t}进行处理，获得输出序列{c_t-k+1，c_t-k+2，...，c_t}，对应于图6中示出的602。接着，利用注意力机制，基于所述输出序列{c_t-k+1，c_t-k+2，...，c_t}确定所述阅读短期波动特征向量

所述阅读短期波动特征向量可以用于表征由外部因素引起的阅读量的上升和下降阶段，看起来像是“山脉”和“山谷”，诸如，图6中示出的爆发期和沉寂期。可以通过设置所述一维卷积神经网络中的卷积核大小来学习这样的短期波动特征。此外，由于不同外部因素的影响在不同的时间范围内持续时间不同，这意味着“山脉”和“山谷”可能具有不同的时间长度。由此，在根据本公开的方法中，可以采用不同大小的多个卷积核来捕获不同的波动范围，之后再垂直堆叠所有卷积核的输出。作为一个示例，图6中示出的卷积核尺寸1(convsize 1)可以设置为5，卷积核尺寸2(convsize 2)可以设置为7，卷积核尺寸k(convsize k)可以设置为11。

在图6中示出的601中，通过利用注意力机制，基于所述输出序列{c_t-k+1，c_t-k+2，...，c_t}确定所述阅读短期波动特征向量可以表示为：/>

其中，V_i ^c、W^c为权重系数，b^c为偏置值。上述注意力机制可以理解成对每个输出向量c_t-k+i分配各自的加权系数并将输出向量与加权系数的加权和作为输出向量，即阅读短期波动特征向量/>如上所述，所述阅读短期波动特征向量可以用于表征所述文章的短期波动。

根据本公开实施例，所述确定文章流行度的方法还包括构建所述关键词词典。首先，获取多个文章，对所述多个文章分别进行分词获得多个词语；接着，统计每个词语的出现频率；根据每个词语的出现频率，将所述多个词语中的至少一部分词语作为所述关键词词典中的词语。根据本公开实施例，所述获取所述文章的文本向量包括：基于关键词词典对所述文章进行分词，以获得k个词语；将所述k个词语中的每个词语分别转换成词向量；将所述k个词语的词向量级联成词向量矩阵{w₁，w₂，...，w_k}，作为所述文本向量。

举例来说，可以获取诸如1000篇历史文章，分别对每个文章进行分词，以获得多个词语。接着，对获得的词语进行词频统计，即统计每个词语出现的次数。接着，从统计的词语中筛选出一部分高频词语作为关键词字典的一部分。例如，可以将出现次数多于20次的词语确定为所述高频词语。按照上述方式，可以得到包括高频词语的关键词词典。

接着，对于需要确定其流行度的文章，首先，基于关键词词典对所述文章进行分词，以获得k个词语。所述分词可以理解为基于关键词词典进行索引，对于不存在在所述关键词词典中的词语，可以用特殊符号<unk>表示。将所述k个词语中的每个词语分别转换成词向量，诸如可以采用word2vec模型来进行上述转换，可以将每个词语映射成1个300维的向量。接着，将所述k个词语的词向量级联成词向量矩阵{w₁，w₂，...，w_k}，作为所述文本向量，由此，可以实现将文章映射成词向量矩阵{w₁，w₂，...，w_k}，例如，k*300的矩阵。此外，需要注意的是，在进行上述分词之前，还可以对所述文章的文本进行预处理，例如，特殊符号处理、英文大小写转换、繁简字体转换等。

接下来将详细描述上述步骤S104的实现过程。

根据本公开实施例，所述对所述文章的文本向量进行处理，获取所述文章的文本特征向量(步骤S104)包括：利用分层注意力网络(HAN)对所述文章的文本向量进行处理，获取所述文章的文本特向量。图7示出了根据本公开实施例的获取文本特征向量的示意图，如图7所示，所述分层注意力网络包括词语级编码网络和句子级编码网络，此外，每层编码网络具有其各自的注意力机制。作为一个具体示例，所述词语级编码网络和句子级编码网络可以是双向门控循环单元(Bi-GRU)。

根据本公开实施例，利用分层注意力网络对所述文章的文本向量进行处理，获取所述文章的文本特征向量包括：利用所述词语级编码网络对所述文本向量{w₁，w₂，...，w_k}进行处理，获得词语级编码向量；利用所述句子级编码网络对所述词语级编码向量进行处理，获得句子级编码向量，作为所述文本特征向量。

如图7所示，首先，词语级编码网络接收所述文本向量{w₁，w₂，...，w_k}，经由注意力机制为每个处理结果分配各自的权重值，得到词语级编码网络的输出向量，即词语级编码向量。接着，所述句子级编码网络对所述词语级编码向量进行处理，经由注意力机制为每个处理结果分配各自的权重值，得到句子级编码网络的输出向量，即句子级编码向量，以作为所述文本特征向量h^h。如上所述，所述文本特征向量表征所述文章的内容特征。

在根据本公开的其他实施例中，考虑到文章的标题是文章的高级描述，显示文章的主体印象，所述方法还可以包括对文章的标题进行分词，并将标题转换成标题向量。所述词语级编码网络除了接收所述文本向量，还接收所述标题向量，并对两者进行处理，并基于上述两者生成所述文本特征向量h^h。

接下来将详细描述上述步骤S105的实现过程。

根据本公开实施例，基于所述文章的阅读增长趋势特征向量、阅读短期波动特征向量、文本特征向量和密集向量确定所述文章的流行度包括：基于所述文章的阅读增长趋势特征向量、阅读短期波动特征向量、文本特征向量、密集向量以及时间特征确定融合特征向量；基于所述融合特征向量确定包括至少一个类别的概率分布；以及基于所述概率分布，将所述至少一个类别中概率值最高的类别确定为所述文章的流行度。

根据本公开实施例，所述基于所述概率分布，将所述至少一个类别中概率值最高的类别确定为所述文章的流行度表示为：

P_t＝{p_t(l₁)，p_t(l₂)，...，p_t(l_n)} (4)

在根据本公开的方法中，还可以将上述h^h和h^e馈入全连接层以进行特征组合，并获得各向量的对齐向量/>和/>

根据本公开实施例，所述确定融合特征向量包括：基于时间特征，分别确定所述文章的阅读增长趋势特征向量、阅读短期波动特征向量、文本特征向量、密集向量的加权系数；将所述文章的阅读增长趋势特征向量、阅读短期波动特征向量、文本特征向量、密集向量与其各自加权系数的加权和作为所述融合特征向量。

上述确定流行度的过程可以表示为如下公式：

其中，V_i ^m、为权重系数，b^m为偏置值，t为所述时间特征，为所述时间特征的权重系数，/>表示所述融合特征向量，P_t表示所述概率分布，其包括n个类别，/>所述文章的流行度。其中，softmax表示激活函数，用于将神经网络的输出向量的值映射到(0,1)区间内，映射后的值可以看作是概率值。

在根据本公开的方法中，首先，可以基于时间特征，为所述文章的阅读增长趋势特征向量、阅读短期波动特征向量、文本特征向量、密集向量确定各自的加权系数参考以上公式(6)，在计算加权系数/>的过程中，考虑了时间特征t对于加权系数的影响，由此可以使得，对于处于不同时期的文章，即，时间t不同的文章，确定流行度过程中，各个向量的加权系数不同。

可以将上述结合了时间特征t的注意力机制可以称为时序注意力机制。所述时序注意力机制是指动态地融合时间特征来确定各个向量的加权系数，使得各个向量的加权系数随时间而改变，这有利于在文章流行度预测的不同时期提高预测的准确性。所述动态地融合可以理解为在不同的预测时期，对上述向量分配不同的加权系数。例如，基于所述时序注意力机制，可以在流行度预测的前期，为不随时间变化的文本特征向量和密集向量分配较高的加权系数，这是由于基于文章内容的文本特征向量以及基于文章元数据的密集向量，在各个文章发布的各个阶段是固定不变的，具有较高的稳定性。而在流行度预测的后期，可以为文章的阅读增长趋势特征向量以及阅读短期波动特征向量分配较高的加权系数。

例如，在t较小的情况下，诸如在文章发布初期，可以降低阅读增长趋势特征向量、阅读短期波动特征向量的加权系数，并相应地提高文本特征向量、密集向量的加权系数。这是因为，在文章发布初期，历史阅读序列向量中统计的数据较少，可能存在不准确性，在此阶段，发挥内容特征对于流行度的影响量。又例如，在t较大的情况下，诸如在文章发布后期，可以提高阅读增长趋势特征向量、阅读短期波动特征向量的加权系数，并相应地降低文本特征向量、密集向量的加权系数。这是因为，在文章发布后期，历史阅读序列向量中统计的数据较多，更可能准确地反映文章的受关注度，在此阶段，发挥历史阅读序列向量对于流行度的影响量。

关于上述计算过程中的权重系数、偏置值等，可以通过训练过程来确定，将在下文描述训练过程。

基于确定的加权系数，可以得到所述融合特征向量基于所述融合特征向量/>可以确定包括至少一个类别的概率分布。例如，可以预设所述类别的数目。作为一个示例，可以将所述类别设置为“热门”、“冷门”和“正常”三个类别，由此，所述概率分布{p_t(l₁)，p_t(l₂)，p_t(l₃)}将包括对应于每个类别的概率值，例如，p_t(l₁)表示“热门”类别的概率值，p_t(l₂)表示“冷门”类别的概率值，p_t(l₃)表示“正常”类别的概率值，接着，将概率值最高的类别确定为所述文章的流行度，例如，将概率值最高的“热门”类别确定为所述文章的流行度/>

本公开的方法中，采用了时序注意力机制来实现动态整合上述时间序列建模和内容特征建模的网络模块。采用h^h和h^e分别代表RNN、CNN、HAN和元数据向量的输出向量，分别表示所述文章的阅读增长趋势特征向量、阅读短期波动特征向量、文本特征向量和密集向量。时间特征t具有所述预定时间间隔的周期性属性，从而使得结合了时间特征的所述时序注意力机制可以具有良好的处理时序过程动态演化的灵活性，提高流行度预测的准确性。

图8A示出了根据本公开实施例的确定文章流行度的网络示意图，首先，可以获取待预测的文章的历史阅读序列向量{v₁，v₂，...，v_t}、文本向量{w₁，w₂，...，w_k}和元数据向量。接着，对于时间序列建模部分，可以利用LSTM对所述文章的历史阅读序列向量进行处理，获取所述文章的阅读增长趋势特征向量利用注意力CNN对所述文章的历史阅读序列向量进行处理，获取所述文章的阅读短期波动特征向量/>对于内容特征建模部分，利用分层注意力网络对所述文章的文本向量进行处理，获取所述文章的文本特征向量h^h，以及利用全连接层对元数据向量进行处理获得密集向量h^e。接着，采用注意力机制，基于所述文章的阅读增长趋势特征向量、阅读短期波动特征向量、文本特征向量以及密集向量确定融合特征向量。按照公式(9)，基于所述融合特征向量确定概率分布P_t，并最终输出概率分布中概率值最高的类别作为所述文章的流行度的类别。

根据本公开实施例，所述确定文章流行度的方法还可以包括，基于训练文章，利用时间损失函数来训练所述循环神经网络、卷积神经网络和分层注意力网络，以确定所述循环神经网络、卷积神经网络和分层注意力网络的权重系数和偏置值。

根据本公开实施例，可以将所述训练文章作为所述文章，按照如图2所示的步骤来确定所述训练文章的概率分布。接着，利用时间损失函数，通过最小化时间损失值来训练所述循环神经网络、卷积神经网络和分层注意力网络：

J＝∑_tD(Δt)L_t＝-∑_tD(Δt)logp_t(l_c) (10)

D(Δt)＝[log_γ(Δt+1)]^-1 (11)

在应用如图4所示的结构预测文章流行度之前，需要对时间序列模型和内容特征模型中的各个网络以及处理过程中涉及的参数进行训练。例如，可以采用有监督的学习方式，首先，可以收集诸如6万篇历史文章作为训练样本，保证训练样本的多样性。例如，如上所述的，可以将文章的流行度设置为3个类别“热门”、“冷门”和“正常”，在确定文章真实标签时，可以将总阅读量超过10000次的文章标记为“热门”类别，将总阅读量低于100次的文章标记为“冷门”类别，并将总阅读量位于100-10000次之间的文章标记为“正常”类别，由此，可以将10000称为热门阅读阈值，100称为冷门阅读阈值。作为一个示例，可以统计文章发布后15天内的总点击次数作为所述总阅读量的近似值。

此外，还可以限定历史阅读序列向量的长度，过滤过短或者不具有预测价值的历史反馈时间序列，例如，对于历史阅读序列向量的长度小于12的文章可以过滤掉。以预定时间间隔为5分钟为例，历史阅读序列向量的长度小于12意味着该文章的发布时间小于1小时，可以从训练样本中过滤掉该文章。又例如，对于总阅读量超过10000次的文章，即热门文章，可以只统计热门阅读阈值的80％的阅读量之前的数据作为所述历史阅读序列向量。换句话说，对于热门文章，可以统计阅读量为8000之前的数据作为所述历史阅读序列向量。

接着，可以获取所述训练文章的文本向量和元数据向量。接着，可以按照如图2所示出的过程来确定所述文章的流行度的概率分布{p_t(l₁)，p_t(l₂)，p_t(l₃)}。假设该训练文章的真实类别标签为热门，则c为热门类别，由此，可以按照如上公式(10)-(11)，通过最小化热门类别(真实类别)的时间损失值J来训练所述循环神经网络、卷积神经网络和分层注意力网络。换句话说，最小化所述热门类别的时间损失值J可以使得该热门类别的概率值最大，即，使得网络确定的类别接近真实标签。

此外，需要注意的是，在实际应用中，预测早期的文章流行度更具有应用价值。为了使得根据本公开的方法可以在文章发布的早期阶段投入更多精力来优化预测性能，即，使得针对文章发布早期的预测结果更准确，在训练过程中，采用了时间衰减因子D(Δt)。所述时间衰减因子D(Δt)是时间特征t与上述第一时刻(诸如，文章发布时间)之间的时间间隔Δt的单调非增函数。在公式(11)中，[·]表示向上取整算子，用于限制对数函数的初始衰减率。此外，可以使得超参数Υ>1，例如，Υ＝12，用于控制衰减率。

按照如上所述的方式，基于获取的训练样本，可以不断训练网络的参数，诸如如上所述的权重系数以及偏置值，从而优化模型的对于文章流行度的预测准确性。

在经过上述训练步骤之后，可以利用训练后的如图8A所示的网络结构来进行根据本公开的确定文章流行度的方法。

图8B示出了根据本公开实施例的方法确定文章流行度的整体流程示意图。首先，在步骤S801，可以确定需要确定其流行度的文章。接着，步骤S802，获取所述文章的历史阅读数据，并在步骤S803，基于历史阅读数据确定历史阅读序列向量。在步骤S804，可以构建所述文章的元数据向量，诸如，所述文章的内容类别、发布时间、文本长度、包含的视频数量、发布者的热门度等。在步骤S805，对所述文章的文本进行预处理和分词，以在步骤S806获得所述文章的文本向量。

接着，在步骤S807，可以按照如图8A所示的过程进行时间序列建模和内容特征建模，以确定所述文章的流行度，其具体过程与上文描述类似，在此不再重复描述。接着，在步骤S808，输出流行度的类别。

接着，作为根据本公开的方法的一个示例，可以基于确定的流行度的类别来进行文章推荐。如图8B所示出的，在步骤S809，判断文章的流行度是否为高。例如，可以将属于“热门”类别的文章确定为流行度高，将属于“冷门”和“正常”类别的文章确定为流行度不高。在步骤S810，对于流行度高的文章进行推荐，诸如列入图1中示出的精选列表。或者，在步骤S811，对于对于流行度不高的文章进行诸如过滤处理。图8B示出的过程S809-S811仅是一个示例。根据本公开的方法还可以用于其他的应用场景，在此不作限制。诸如，可以将流行度类别对“热门”和“正常”类别的文章进行推荐，或者，对流行度为“冷门”类别的文章进行过滤等，由此，可以更有针对性地进行在线文章的推荐和过滤服务，提升阅读用户的阅读体验。

本公开提供了一种确定文章流行度的方法，采用带有注意力机制的卷积神经网络(CNN)自动提取文章的历史阅读序列向量中的局部的“上升”和“下降”的短期波动，并采用长短期记忆网络(LSTM)学习文章的历史阅读序列向量中的整体的增长趋势，同时建模流行度的时序过程的全局特征和局部特征。此外，采用分层注意力网络(HAN)依次得到词语级别和句子层级的文本特征，并利用两层注意力机制来关注文章文本内容中的重要部分，最终得到文本特征向量；采用嵌入技术以及全连接层将元数据向量嵌入到统一的密集空间，并进行级联以得到密集向量，从而更好地建模长文本特征和多模态的元数据特征。此外，利用时序注意力机制动态地整合时序过程建模以及内容特征建模过程中确定的各个向量，采用h^h和h^e分别代表RNN、CNN、HAN和元数据向量的输出向量，分别表示所述文章的阅读增长趋势特征向量、阅读短期波动特征向量、文本特征向量和密集向量。此外，上述时序注意力机制结合了时间特征t对于加权系数的影响。时间特征t具有所述预定时间间隔的周期性属性，从而使得结合了时间特征的时序注意力机制可以使得模型具有灵活的预测能力和优秀的泛化能力，以在文章的各个时期准确地进行流行度的预测。

本公开还提供了一种确定文章的流行度的装置。图9示出了根据本公开实施例的确定文章的流行度的装置的示意性框图。如图9所示，所述装置1000可以包括获取单元1010、增长趋势处理单元1020、短期波动处理单元1030、短期波动处理单元1040以及确定单元1050。

所述获取单元1010可以配置成获取所述文章的历史阅读序列向量和文本向量。所述增长趋势处理单元1020可以配置成对所述文章的历史阅读序列向量进行处理，获取所述文章的阅读增长趋势特征向量。所述短期波动处理单元1030可以配置成对所述文章的历史阅读序列向量进行处理，获取所述文章的阅读短期波动特征向量。所述文本特征处理单元1040可以配置成对所述文章的文本向量进行处理，获取所述文章的文本特征向量。所述确定单元1050可以配置成基于所述文章的阅读增长趋势特征向量、阅读短期波动特征向量和文本特征向量确定所述文章的流行度。

根据本公开的一些实施例，所述获取单元1010还可以配置成：获取所述文章的元数据向量，其中，所述元数据向量是由所述文章的元数据确定的，所述元数据包括以下中的至少一种：所述文章的内容类别、发布时间、文本长度、包含的视频数量、发布者的热门度。所述装置1000还可以包括元数据处理单元1060。所述元数据处理单元1060可以配置成将所述元数据向量转换成密集向量。所述确定单元1010可以配置成基于所述文章的阅读增长趋势特征向量、阅读短期波动特征向量、文本特征向量和密集向量确定所述文章的流行度。

根据本公开的一些实施例，所述元数据包括所述文章的内容类别、发布时间、文本长度、包含的视频数量、发布者的热门度。所述元数据处理单元1060还可以配置成：基于所述文章的内容类别确定独热编码特征向量作为所述元数据向量的第一部分，基于所述文章的发布时间、文本长度、包含的视频数量、发布者的热门度确定数值特征向量作为所述元数据向量的第二部分；将所述独热编码特征向量转换成第一密集向量；将所述数值特征向量转换成第二密集向量；对所述第一密集向量和第二密集向量进行组合，作为所述密集向量。

根据本公开的一些实施例，所述获取单元1010可以配置成：以预定时间间隔为单位，基于所述文章自第一时刻至第二时刻期间内每个预定时间间隔内的阅读数量来确定所述历史阅读序列向量{v₁，v₂，…v_i，...，v_t}，其中，v_i表示所述文章在第i个预定时间间隔内的阅读数量，所述历史阅读序列向量包括t个时间特征。根据本公开实施例，所述增长趋势处理单元1020还可以配置成：利用循环神经网络对所述历史阅读序列向量{v₁，v₂，...，v_t}进行处理，确定所述文章的阅读增长趋势特征向量。

根据本公开的一些实施例，所述短期波动处理单元1030可以配置成：利用卷积神经网络对所述文章的历史阅读序列向量进行处理，获取所述文章的阅读短期波动特征向量，其中，所述卷积神经网络的输入序列长度为k，其中，所述利用卷积神经网络对所述历史阅读序列向量进行处理，获取所述文章的阅读短期波动特征向量包括：利用所述卷积神经网络对长度为t的所述历史阅读序列向量{v₁，v₂，...，v_t}中长度为k的剪切序列向量{v_t-k+1，v_t-k+2，...，v_t}进行处理，获得输出序列{c_t-k+1，c_t-k+2，...，c_t}；基于所述输出序列{c_t-k+1，c_t-k+2，...，c_t}确定所述阅读短期波动特征向量表示为：

根据本公开的一些实施例，所述获取单元1010还可以配置成：基于关键词词典对所述文章进行分词，以获得k个词语；将所述k个词语中的每个词语分别转换成词向量；将所述k个词语的词向量级联成词向量矩阵{w₁，w₂，...，w_k}，作为所述文本向量。

根据本公开的一些实施例，所述文本特征处理单元1040可以配置成：利用分层注意力网络对所述文章的文本向量进行处理，获取所述文章的文本特征向量。根据本公开的实施例，所述分层注意力网络包括词语级编码网络和句子级编码网络，其中，利用分层注意力网络对所述文章的文本向量进行处理，获取所述文章的文本特征向量包括：利用所述词语级编码网络对所述文本向量{w₁，w₂，...，w_k}进行处理，获得词语级编码向量；利用所述句子级编码网络对所述词语级编码向量进行处理，获得句子级编码向量，作为所述文本特征向量。

根据本公开的一些实施例，所述确定单元1050还可以配置成：基于所述文章的阅读增长趋势特征向量、阅读短期波动特征向量、文本特征向量、密集向量以及时间特征确定融合特征向量；基于所述融合特征向量确定包括至少一个类别的概率分布；基于所述概率分布，将所述至少一个类别中概率值最高的类别确定为所述文章的流行度。

根据本公开的一些实施例，所述确定单元1050配置成：基于时间特征，分别确定所述文章的阅读增长趋势特征向量、阅读短期波动特征向量、文本特征向量、密集向量的加权系数；将所述文章的阅读增长趋势特征向量、阅读短期波动特征向量、文本特征向量、密集向量与其各自加权系数的加权和作为所述融合特征向量。

P_t＝{p_t(l₁)，p_t(l₂)，...，p_t(l_n)}

其中，P_t表示所述概率分布，其包括n个类别，表示所述文章的流行度，其对应于所述概率分布中概率值最高的类别。/>

根据本公开的一些实施例，所述确定文章的流行度的装置1000还可以包括训练单元1070。所述训练单元1070可以配置成：基于训练文章，利用时间损失函数来训练所述循环神经网络、卷积神经网络和分层注意力网络，以确定所述循环神经网络、卷积神经网络和分层注意力网络的权重系数和偏置值。根据本公开的实施例，将所述训练文章作为所述文章，确定所述训练文章的概率分布；利用时间损失函数，通过最小化时间损失值来训练所述循环神经网络、卷积神经网络和分层注意力网络：

D(Δt)＝[log_γ(Δt+1)]^-1

根据本公开的一些实施例，所述确定文章的流行度的装置1000还可以包括词典构建单元1080。所述词典构建单元1080可以配置成构建所述关键词词典，包括：获取多个文章，对所述多个文章分别进行分词获得多个词语；统计每个词语的出现频率；根据每个词语的出现频率，将所述多个词语中的至少一部分词语作为所述关键词词典中的词语。

根据本公开的又一方面，还提供了一种确定文章的流行度的设备。图10示出了根据本公开实施例的确定文章的流行度的设备的示意性框图。

如图10所示，所述确定文章的流行度的设备2000可以包括处理器2010，和存储器2020。其中，所述存储器2020中存储有计算机可读代码，所述计算机可读代码当由所述处理器2010运行时，可以执行如上所述的确定文章的流行度的方法。

根据本公开实施例的方法或装置也可以借助于图11所示的计算设备3000的架构来实现。如图11所示，计算设备3000可以包括总线3010、一个或多个CPU3020、只读存储器(ROM)3030、随机存取存储器(RAM)3040、连接到网络的通信端口3050、输入/输出组件3060、硬盘3070等。计算设备3000中的存储设备，例如ROM 3030或硬盘3070可以存储本公开提供的确定文章的流行度的方法的处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。计算设备3000还可以包括用户界面3080。当然，图11所示的架构只是示例性的，在实现不同的设备时，根据实际需要，可以省略图11示出的计算设备中的一个或多个组件。

根据本公开的又一方面，还提供了一种计算机可读存储介质。图12示出了根据本公开的存储介质的示意图4000。

如图12所示，所述计算机存储介质4020上存储有计算机可读指令4010。当所述计算机可读指令4010由处理器运行时，可以执行参照以上附图描述的根据本公开实施例的确定文章的流行度的方法。所述计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。例如，所述计算机存储介质4020可以连接于诸如计算机等的计算设备，接着，在所述计算设备运行所述计算机存储介质4020上存储的计算机可读指令4010的情况下，可以进行如上所述的根据本公开的确定文章的流行度的方法。

本领域技术人员能够理解，本公开所披露的内容可以出现多种变型和改进。例如，以上所描述的各种设备或组件可以通过硬件实现，也可以通过软件、固件、或者三者中的一些或全部的组合实现。

此外，虽然本公开对根据本公开的实施例的系统中的某些单元做出了各种引用，然而，任何数量的不同单元可以被使用并运行在客户端和/或服务器上。所述单元仅是说明性的，并且所述系统和方法的不同方面可以使用不同单元。

本领域普通技术人员可以理解上述方法中的全部或部分的步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本公开并不限制于任何特定形式的硬件和软件的结合。

除非另有定义，这里使用的所有术语(包括技术和科学术语)具有与本公开所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

以上是对本公开的说明，而不应被认为是对其的限制。尽管描述了本公开的若干示例性实施例，但本领域技术人员将容易地理解，在不背离本公开的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此，所有这些修改都意图包含在权利要求书所限定的本公开范围内。应当理解，上面是对本公开的说明，而不应被认为是限于所公开的特定实施例，并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本公开由权利要求书及其等效物限定。

Claims

1.一种确定文章的流行度的方法，包括：

获取所述文章的历史阅读序列向量和文本向量；

对所述文章的历史阅读序列向量进行处理，获取所述文章的阅读增长趋势特征向量；

对所述文章的历史阅读序列向量进行处理，获取所述文章的阅读短期波动特征向量；

对所述文章的文本向量进行处理，获取所述文章的文本特征向量；

基于所述文章的阅读增长趋势特征向量、阅读短期波动特征向量和文本特征向量确定融合特征向量；

基于所述融合特征向量确定包括至少一个类别的概率分布；以及

基于所述概率分布，将所述至少一个类别中概率值最高的类别确定为所述文章的流行度，

其中，对所述文章的历史阅读序列向量进行处理，获取所述文章的阅读短期波动特征向量包括：

利用卷积神经网络对所述历史阅读序列向量中的剪切序列向量进行处理，获得输出序列，

利用注意力机制，基于所述输出序列确定所述阅读短期波动特征向量表示。

2.根据权利要求1所述的方法，还包括：

获取所述文章的元数据向量，其中，所述元数据向量是由所述文章的元数据确定的，所述元数据包括以下中的至少一种：所述文章的内容类别、发布时间、文本长度、包含的视频数量、发布者的热门度；

将所述元数据向量转换成密集向量，其中，

所述确定融合特征向量包括：基于所述文章的阅读增长趋势特征向量、阅读短期波动特征向量、文本特征向量和密集向量确定融合特征向量。

3.根据权利要求2所述的方法，其中，所述元数据包括所述文章的内容类别、发布时间、文本长度、包含的视频数量、发布者的热门度，所述方法还包括：

基于所述文章的内容类别确定独热编码特征向量作为所述元数据向量的第一部分，基于所述文章的发布时间、文本长度、包含的视频数量、发布者的热门度确定数值特征向量作为所述元数据向量的第二部分；

将所述独热编码特征向量转换成第一密集向量；

将所述数值特征向量转换成第二密集向量；

对所述第一密集向量和第二密集向量进行组合，作为所述密集向量。

4.根据权利要求2所述的方法，其中，获取所述文章的历史阅读序列向量包括：

以预定时间间隔为单位，基于所述文章自第一时刻至第二时刻期间内每个预定时间间隔内的阅读数量来确定所述历史阅读序列向量{v₁，v₂，…v_i，...，v_t}，其中，v_i表示所述文章在第i个预定时间间隔内的阅读数量，所述历史阅读序列向量包括t个时间特征，其中，

对所述文章的历史阅读序列向量进行处理，获取所述文章的阅读增长趋势特征向量包括：

利用循环神经网络对所述历史阅读序列向量{v₁，v₂，...，v_t}进行处理，确定所述文章的阅读增长趋势特征向量。

5.根据权利要求4所述的方法，其中，

利用卷积神经网络对所述历史阅读序列向量中的剪切序列向量进行处理，获得输出序列包括：利用卷积神经网络对长度为t的所述历史阅读序列向量{v₁，v₂，...，v_t}中长度为k的剪切序列向量{v_t-k+1，v_t-k+2，...，v_t}进行处理，获得输出序列{c_t-k+1，c_t-k+2，...，c_t}，其中，k为所述卷积神经网络的输入序列长度；

基于所述输出序列确定所述阅读短期波动特征向量表示包括：基于所述输出序列{c_t-k+1，c_t-k+2，...，c_t}确定所述阅读短期波动特征向量表示为：

6.根据权利要求5所述的方法，其中，获取所述文章的文本向量包括：

基于关键词词典对所述文章进行分词，以获得k个词语；

将所述k个词语中的每个词语分别转换成词向量；

将所述k个词语的词向量级联成词向量矩阵{w₁，w₂，...，w_k}，作为所述文本向量。

7.根据权利要求6所述的方法，其中，对所述文章的文本向量进行处理，获取所述文章的文本特征向量包括：

利用分层注意力网络对所述文章的文本向量进行处理，获取所述文章的文本特征向量，其中，所述分层注意力网络包括词语级编码网络和句子级编码网络，其中，利用分层注意力网络对所述文章的文本向量进行处理，获取所述文章的文本特征向量包括：

利用所述词语级编码网络对所述文本向量{w₁，w₂，...，w_k}进行处理，获得词语级编码向量；

利用所述句子级编码网络对所述词语级编码向量进行处理，获得句子级编码向量，作为所述文本特征向量。

8.根据权利要求7所述的方法，其中，所述基于所述文章的阅读增长趋势特征向量、阅读短期波动特征向量、文本特征向量和密集向量确定融合特征向量包括：

基于所述文章的阅读增长趋势特征向量、阅读短期波动特征向量、文本特征向量、密集向量以及时间特征确定融合特征向量。

9.根据权利要求8所述的方法，其中，所述确定融合特征向量包括：

基于时间特征，分别确定所述文章的阅读增长趋势特征向量、阅读短期波动特征向量、文本特征向量、密集向量的加权系数；

将所述文章的阅读增长趋势特征向量、阅读短期波动特征向量、文本特征向量、密集向量与其各自加权系数的加权和作为融合特征向量。

10.根据权利要求8所述的方法，其中，所述基于所述概率分布，将所述至少一个类别中概率值最高的类别确定为所述文章的流行度表示为：

P_t＝{p_t(l₁)，p_t(l₂)，...，p_t(l_n)}

11.根据权利要求10所述的方法，还包括，基于训练文章，利用时间损失函数来训练所述循环神经网络、卷积神经网络和分层注意力网络，以确定所述循环神经网络、卷积神经网络和分层注意力网络的权重系数和偏置值，包括：

将所述训练文章作为所述文章，确定所述训练文章的概率分布；

利用时间损失函数，通过最小化时间损失值来训练所述循环神经网络、卷积神经网络和分层注意力网络：

D(Δt)＝[log_γ(Δt+1)]^-1

12.根据权利要求6所述的方法，还包括：构建所述关键词词典，包括：

获取多个文章，对所述多个文章分别进行分词获得多个词语；

统计每个词语的出现频率；

根据每个词语的出现频率，将所述多个词语中的至少一部分词语作为所述关键词词典中的词语。

13.一种确定文章的流行度的装置，包括：

获取单元，配置成获取所述文章的历史阅读序列向量和文本向量；

增长趋势处理单元，配置成对所述文章的历史阅读序列向量进行处理，获取所述文章的阅读增长趋势特征向量；

短期波动处理单元，配置成对所述文章的历史阅读序列向量进行处理，获取所述文章的阅读短期波动特征向量，其中，所述短期波动处理单元利用卷积神经网络对所述历史阅读序列向量中的剪切序列向量进行处理，获得输出序列；并且利用注意力机制，基于所述输出序列确定所述阅读短期波动特征向量表示；

文本特征处理单元，配置成对所述文章的文本向量进行处理，获取所述文章的文本特征向量；

确定单元，配置成基于所述文章的阅读增长趋势特征向量、阅读短期波动特征向量和文本特征向量确定融合特征向量，基于所述融合特征向量确定包括至少一个类别的概率分布，以及基于所述概率分布，将所述至少一个类别中概率值最高的类别确定为所述文章的流行度。

14.一种确定文章的流行度的设备，包括：

处理器；和

存储器，其中，所述存储器中存储有计算机可读代码，所述计算机可读代码当由所述处理器运行时，执行如权利要求1-12中任一项所述的确定文章的流行度的方法。

15.一种计算机可读存储介质，其上存储有指令，所述指令在被处理器执行时，使得所述处理器执行如权利要求1-12中任一项所述的确定文章的流行度的方法。