CN114048395A

CN114048395A - 基于时间感知与关键信息抽取的用户转发预测方法和系统

Info

Publication number: CN114048395A
Application number: CN202111305785.XA
Authority: CN
Inventors: 林政�; 付鹏; 刘欢; 张雨帆; 王伟平; 孟丹
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2022-02-15
Anticipated expiration: 2041-11-05

Abstract

本发明涉及一种基于时间感知与关键信息抽取的用户转发预测方法和系统。该方法的步骤包括：根据用户与目标推文的原作者的全部历史发布内容的相关性，以及用户与原作者发布内容所关注的主题随时间迁移的特性，得到融合用户及原作者的全局和层级历史内容后的目标推文特征表示；使用Topk‑Mask机制动态地抽取用户的朋友圈信息关键词，使用Tweet‑Mask机制学习用户的每条朋友圈推文的权重，并将两种机制输出的结果合并，得到用户的朋友圈特征表示；根据融合用户及原作者的全局和层级历史内容后的目标推文特征表示，以及用户的朋友圈特征表示，预测用户是否会对目标推文进行转发。本发明能够有效提高用户转发预测的准确率。

Description

基于时间感知与关键信息抽取的用户转发预测方法和系统

技术领域

本发明属于信息技术、社交媒体、自然语言处理技术领域，具体涉及一种基于时间感知与关键信息抽取的用户转发预测方法和系统。

背景技术

在用户行为预测中，转发预测任务近年来受到了广泛的关注。目前，社交媒体中转发预测的研究主要采用两种信息。第一种研究方法通过社交网络图结构来构建预测模型。如Zhao等人从注意力排序网络的角度研究了图像转发的问题。作者引入了具有两个子网的多模态神经网络，其中递归神经网络学习图像推文的上下文语义表示，卷积神经网络学习图片视觉表示，之后将其与用户历史信息计算注意力系数得到用户对各个图像的偏好排名以预测转发趋向。Cao等人通过研究网络中用户的级联效应来判断用户在未来某一时刻是否进行转发行为。该工作设定用户的转发行为取决于与其相关用户的转发状态与当前用户的影响力，通过以上两个因素来建模信息在用户网络中的传播过程，判断用户在最终时刻的转发状态。第二种方法以内容表示为研究路线，从用户上下文中提取用户偏好用以预测对特定内容的转发情况。Zhang等人提出了一种基于注意力的深度神经网络来整合上下文信息和社会信息，用特征嵌入方法来表示用户、用户的关注兴趣、作者和推文等信息。Ma等人在预测模型中将用户关注话题融入其中，通过主题模型提取用户与其相关用户及其参与讨论过的话题来获得用户关注偏好，再将目标内容与用户相关话题计算相似度来得到用户对应目标信息的向量表示用于预测转发行为。

现有的转发预测方法大多着眼于利用用户发布历史、用户社交关系等多种信息对用户偏好进行建模。从Ma等人的工作中本方案可以看到，用户的转发行为主要受到以下几个方面影响：1)用户本身是否对目标文本的主题内容感兴趣，如果该文本与用户历史内容主题相近则更有可能被转发；2)用户是否与目标文本原作者其它发表内容风格相似，如果两用户本身风格相似，则用户更容易转发该文本；3)用户朋友圈内近期是否出现相关主题，如果该文本所涉及话题高频曝光，则用户会更有倾向去关注该话题下内容。

基于以上的影响因素可以发现，目前的用户转发研究工作仍然存在几点待改善问题：1)以往的工作使用历史发布内容判断用户和原作者相似度。而事实上，用户与原作者发布的内容主题多样且关注点会随时间变化，以往工作忽视了用户历史内容随时间变化这一特点，而将用户时间线上所有历史发布内容统一对待。2)用户朋友圈内容可以作为辅助信息帮助判断用户是否会对目标内容的话题感兴趣，但用户朋友圈内容通常多样复杂，关键的话题词往往只有简短几个。以往的工作并没有一个能够从众多朋友圈内容中筛选出与目标文本真正相关信息的机制。

发明内容

本发明针对上述问题，提供一种基于时间感知与关键信息抽取的用户转发预测方法和系统。

本发明采用的技术方案如下：

一种基于时间感知与关键信息抽取的用户转发预测方法，包括以下步骤：

根据用户与目标推文的原作者的全部历史发布内容的相关性，以及用户与原作者发布内容所关注的主题随时间迁移的特性，得到融合用户及原作者的全局和层级历史内容后的目标推文特征表示；

使用Topk-Mask机制动态地抽取用户的朋友圈信息关键词，使用Tweet-Mask机制学习用户的每条朋友圈推文的权重，并将两种机制输出的结果合并，得到用户的朋友圈特征表示；

根据融合用户及原作者的全局和层级历史内容后的目标推文特征表示，以及用户的朋友圈特征表示，预测用户是否会对目标推文进行转发。

进一步地，所述根据用户与原作者的全部历史发布内容的相关性，以及用户与原作者发布内容所关注的主题随时间迁移的特性，得到融合用户及原作者的全局和层级历史内容后的目标推文特征表示，包括：

根据用户和原作者的全部历史发布内容，得到用户和原作者的全局特征表示；

将用户和原作者的全部历史发布内容划分为K个片段，计算时间感知操作之后的用户和原作者的层级特征表示；

将目标推文分别与用户与原作者的全局特征表示、层级特征表示做注意力操作，得到用户与目标推文交互后的全局特征表示g₁和层级特征表示h₁，以及原作者与目标推文交互后的全局特征表示g₂和层级特征表示h₂；

将得到的推文交互表示与目标推文target拼接：

target(u,a)＝concat[h₁；g₁；h₂；g₂；target]

其中，target(u,a)表示融合了用户u及原作者a的全局和层级历史内容后的目标推文特征表示。

进一步地，所述Topk-Mask机制和所述Tweet-Mask机制为：

其中，M^tweet[i,j]表示Tweet-Mask机制的掩码矩阵；M^topk[i,j]表示Topk-Mask机制的掩码矩阵；tweet_i、tweet_j表示第i和第j条推文；attn表示点乘注意力计算，f表示朋友圈内容表示向量，dim表示朋友圈内容表示向量的维数，token_i表示第i个词。

进一步地，所述将两种机制输出的结果合并，得到用户的朋友圈特征表示，是将两个掩码机制与一个点乘注意力合并，得到朋友圈特征表示：

其中，attn_i表示点乘注意力计算；N表示朋友圈内容的数量。

进一步地，所述根据融合用户及原作者的全局和层级历史内容后的目标推文特征表示，以及用户的朋友圈特征表示，预测用户是否会对目标推文进行转发，包括：将融合用户及原作者的全局和层级历史内容后的目标推文特征表示以及用户的朋友圈特征表示相拼接，前馈传播后通过使用softmax函数归一化来获得最终的预测结果：

output＝softmax(σ(W·cancat[target(u,a),fri]))

其中，σ表示sigmoid激活函数；W表示参数矩阵；cancat表示向量拼接。

一种采用上述方法的基于时间感知与关键信息抽取的用户转发预测系统，其包括：

用户-原作者相似度模块，用于根据用户与目标推文的原作者的全部历史发布内容的相关性，以及用户与原作者发布内容所关注的主题随时间迁移的特性，得到融合用户及原作者的全局和层级历史内容后的目标推文特征表示；

朋友圈关键信息抽取模块，用于使用Topk-Mask机制动态地抽取用户的朋友圈信息关键词，使用Tweet-Mask机制学习用户的每条朋友圈推文的权重，并将两种机制输出的结果合并，得到用户的朋友圈特征表示；

融合模块，用于根据融合用户及原作者的全局和层级历史内容后的目标推文特征表示，以及用户的朋友圈特征表示，预测用户是否会对目标推文进行转发。

本发明提出了一种结合用户内容与时间特征的转发预测模型，能够有效提高用户转发预测的准确率，与以往方法相比有以下优点和创新性：

1)本方案为用户和目标推文原作者的历史发布内容建立全局和局部(层级)时间的表示。其中全局内容表示能够涵盖用户所有历史内容的信息与风格，而时间层级表示则可以对发布时间线上的历史内容按远近进行区分表示。通过使用全局和层级两种注意力机制来分别计算用户全部历史信息和每时间段历史信息所关注的内容，进而增强用户的特征表达能力。

2)针对用户朋友圈内容繁杂多样的特性，本方案引入用户朋友圈关键信息抽取模块。在该模块中本方案使用Tweet-Mask机制来学习不同朋友推文的重要程度，使用Topk-Mask机制动态地筛选用户朋友圈发布内容中与目标推文最相关的关键词，进而抽取出朋友圈中影响用户转发的关键话题。通过两种机制共同作用获得朋友圈内容表示，然后与目标推文交互得到两者之间的主题相似度。

附图说明

图1：用户转发模型示意图。

图2：用户-原作者相似度模块示意图。

图3：朋友圈关键信息抽取模块示意图。

具体实施方式

下面通过具体实施例和附图，对本发明做进一步详细说明。

如图1所示，本发明的用户转发预测模型主要分为两个模块：用户-原作者相似度模块，以及朋友圈关键信息抽取模块。本方案提出了一种社交网络中用户推文转发预测模型，针对用户历史关注点随时间迁移的问题，提出使用局部感知注意力机制对用户历史内容进行分片学习重要程度来改进用户历史内容的特征表达，结合全局感知注意力机制学习到的特征合并一起构成用户特征。针对用户朋友圈内容信息量大造成无法筛选出关键话题的问题，本方案使用Topk-Mask机制动态地抽取朋友圈信息关键词、使用Tweet-Mask机制学习每条朋友圈推文的权重，然后合并两者输出得到朋友圈特征表达，与目标推文交互后得到两者相似度。最终结合两个模块的输出共同预测用户是否会对目标推文进行转发。

1.用户-原作者相似度模块

对用户和原作者进行相似度计算时，本方案主要考虑两方面信息：一是用户与原作者全部历史内容的相关性，二是两者发布内容所关注的主题随时间迁移的特性。对于这两点本方案分别设计了全局注意力机制(global attention)和层级注意力机制(hierarchical attention)两个注意力操作来分别实现。之后本方案将注意力操作后的融合表示与目标推文交互，得到两者(用户、原作者)关于目标推文内容的相似度(相似度衡量的是原作者和用户针对目标推文的相似性，得到的是目标推文结合原作者和用户信息的一种表示，这个表示用于判断是否会被转发)，也即得到融合了用户及原作者的全局和层级历史内容后的目标推文特征。用户-原作者模块细节如图2所示。

在全局感知(global-aware)操作部分，本方案关注的是用户和原作者的全部历史发布内容。这里本方案首先对用户与原作者的发布内容使用在Twitter语料集上预训练过的glove语言模型来对每条推文做初始化得到推文的内容表示。对于每一条推文tw，其内容表示为tw＝{w₁,w₂,…,w_N}，w_N表示单词的词向量，N表示每条推文的最大单词数。然后使用Bi-GRU(即双向GRU，GRU为门控循环单元)来对每条推文进行表示学习，得到每条推文的向量化表示u_t：

最后用户的全局特征可以表示为u＝{u₁,u₂,…,u_T}。其中，T表示用户的历史推文数量，GRU^f表示前向GRU计算；GRU^b表示后向GRU计算；

表示t时刻前向隐含状态；

表示t时刻后向隐含状态。

在时间感知(Time-Aware)操作部分，由于用户发布内容的时间区间很长，为了区分用户在不同时间间段内发布内容的主题重要程度，本方案首先启发式地将用户内容划分为K个片段，于是对于一个用户u来说，其第k个片段的用户的历史内容被表示为u_k＝{u_k,0,u_k,1,…,u_k,s}，其中s表示每个片段的长度。然后本方案在每个时间层级内部做self-attention(自注意力)操作来获得时间片段k内各条内容的权重：

其中β^T为权重向量来调节时间片内每条内容的重要性，之后通过softmax函数归一化后可以得到用户第k片内第i条内容权重α_k,i。最终，用户历史内容中第k片的表示可以用所有该时间片内的内容加权得到：

经过时间感知操作之后的层级化用户特征可以表示为u′＝{u′₁,u′₂,…,u′_K}。

同理，本方案对目标推文的原作者也做相同的操作。首先使用Bi-GRU来处理原作者的全部历史内容，得到每条推文的表示a_t，以及其全局特征表示a＝{a₁,a₂,…,a_N}。第二步本方案将原作者的全部历史内容划分为K个片段，得到原作者a的时间层级化表示为a_k＝{a_k,0,a_k,1,…,a_k,s}。之后本方案使用自注意力操作来获得原作者每个时间片特征a′_k，最终基于时间感知的原作者特征可表示为a′＝{a′₁,a′₂,…,a′_K}。

在得到用户与原作者的全局和层级化特征之后，本方案的目标是比较两者关于目标推文内容的相似性。这里本方案首先使用BERT预训练语言模型来嵌入目标推文内容得到target(目标推文)向量，然后将目标推文分别与用户以及原作者的特征做注意力操作得到融合用户历史信息后的推文表示。其中，目标推文与用户的全局特征融合操作如下：

其中i∈T

其中，W^u1表示针对用户全局特征的前馈神经网络参数，u_i表示用户全局特征，W^t表示针对目标推文的前馈神经网络参数，target表示目标推文，

表示注意力权重，T表示用户的历史推文数量，F表示前馈神经网络，||表示将用户与推文的特征进行维度变换然后拼接在一起，最后加权得到目标推文与用户的全局融合特征g₁。

之后本方案将目标推文与用户的层级特征交互：

其中，W^u2表示针对用户的层级特征的前馈神经网络参数，u′_i表示用户的层级特征，W^h表示针对目标推文的前馈神经网络参数，target表示目标推文，

表示注意力权重，K表示历史内容划分的片段数。与全局融合相似，本方案使用用户每个时间片的特征与目标推文求权重系数，之后加权聚合得到目标推文与用户的层级特征的融合表示h₁。

使用同样的原理，本方案对推文原作者也进行相同的操作，可以得到原作者与目标推文交互后的全局特征表示g₂和层级特征表示h₂。

最后本方案将得到的推文交互表示与目标推文拼接：

target(u,a)＝concat[h₁；g₁；h₂；g₂；target]

target(u,a)表示融合了用户u及原作者a的全局和层级历史内容后的目标推文特征。这里本方案加入多轮学习来获得更加完善的推文特征，在H-hops内，每一轮学习完毕后特征向量target都将得到更新。

2.朋友圈关键信息抽取模块

目标推文在朋友圈的曝光度，很大程度上也影响着用户的转发行为。为此，本方案建模用户朋友圈内容与目标推文的主题相关性，来帮助预测用户是否会对特定推文进行转发。朋友圈关键信息抽取模块如图3所示。

在建模用户朋友圈内容时，本方案将用户的朋友圈内容拼接在一起送入BERT进行编码得到用户朋友圈内容表示f＝{w₁,w₂,…,w_N}。注意这里考虑到BERT的输入机制与训练性能，本方案是将朋友圈全部内容横向拼接到一起形成一个向量f。之后对于输入的朋友圈文本表示向量f，本方案关注两方面特性：1)朋友圈推文在做特征学习时应注意到每条推文的边界，并且在做特征学习时每条推文都应关注自身内部的信息，这样才能照顾到推文内容的完整性，学习出每条推文准确的特征表达；2)在所有朋友圈发布内容中，只有关键的一些单词与目标推文相关，所以本方案应该去关注众多词汇中与目标推文主题最相关的几个重点单词。对于以上两个问题，本方案分别设计了两个mask-attention(掩码注意力)机制来去刻画朋友圈的关键信息：

其中Tweet-Mask机制能够为推文设定边界：本方案事先准备好推文的掩码矩阵，这样在做注意力操作时只以推文为单位，每条推文内部计算注意力系数，能够保持很好的完整性。而Topk-Mask机制的作用是从众多的词汇中动态地学习最关键的单词，这样本方案可以从众多的词语中抽取出最有价值的单词，其中topk的数值由本方案手动定义。最终本方案的注意力系数由两个掩码机制与一个点乘注意力合并组成。由此本方案得到朋友圈的内容表示，即朋友圈特征表示：

其中，attn_i表示点乘注意力计算；N表示朋友圈内容的数量。

3.模块融合

在模型的输出部分，本方案将用户-原作者相似度模块、朋友圈关键信息抽取模块两个模块与目标推文相拼接，前馈传播后通过使用softmax函数归一化来获得最终的预测结果：

output＝softmax(σ(W·cancat[target(u,a),fri]))

在实验验证中，数据集采用的是MA的工作构造的数据集。该数据集使用Twitter官方API收集到的8万余名用户以及近500万条推文。作者根据用户历史信息将用户分为正负两类样本。对于每个样本，它含有一名用户与一条对应的目标推文，如果用户转发了这条推文，则标签为1(正样本)，若未发生转发行为，则标签为0(负样本)。同时该样本中还含有用户最近的30条文本动态、用户朋友圈最近推文30条(来自不同朋友用户)，以上内容共同组成为一个样本。本方案从负样本中随机多轮采样2万条来解决正负样本不平衡的问题。

表1

如表1所示，本方案的基线模型包括了传统机器学习方法如NB(朴素贝叶斯)、SVM(支持向量机)等，深度学习方法如CNN(卷积神经网络)、LSTM(长短时记忆单元)、以及DMN(动态记忆网络)，还有2019年MA的工作。本方案使用准确率(precision)、召回率(Recall)以及F1值来评估模型的效果。为了更好地与基线模型进行对比，本方案使用不同量级的用户历史数据来测试模型的鲁棒性，N＝10\20代表本方案将原先所有关于30条历史数据的设定都改为10或20。通过实验结果本方案可以看到，相比于传统的机器学习方法，深度学习模型在实验结果上有明显的提高，这是因为深度学习模型可以学习到文字信息中更深层次的表达，从而更好地对用户做向量表征。当增加用户历史数据规模后，各模型的预测准确率都得到了提高，说明更多的用户数据可以提供更加丰富的内容信息。和AUT-MASK模型相比，本方案提出的方法在用户中原作者相似度方面增加了“时间片划分”的概念，另外对朋友圈信息也做了筛选，从而使预测准确率达到最高。

本发明中对推文的表示学习除了GRU神经网络外也可以基于Transformer神经网络结构。

基于同一发明构思，本发明的另一实施例提供一种采用上述方法的基于时间感知与关键信息抽取的用户转发预测系统，其包括：

基于同一发明构思，本发明的另一实施例提供一种电子装置(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

基于同一发明构思，本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

以上实施例其目的在于帮助理解本发明的内容并据以实施，本领域的普通技术人员可以理解，在不脱离本发明的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例所公开的内容，本发明的保护范围以权利要求书界定的范围为准。

Claims

1.一种基于时间感知与关键信息抽取的用户转发预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述根据用户与原作者的全部历史发布内容的相关性，以及用户与原作者发布内容所关注的主题随时间迁移的特性，得到融合用户及原作者的全局和层级历史内容后的目标推文特征表示，包括：

将得到的推文交互表示与目标推文target拼接：

target(u，a)＝concat[h₁；g₁；h₂；g₂；target]

其中，target(u，a)表示融合了用户u及原作者a的全局和层级历史内容后的目标推文特征表示。

3.根据权利要求2所述的方法，其特征在于，所述全局特征表示g₁采用下式计算：

4.根据权利要求2所述的方法，其特征在于，所述层级特征表示h₁采用下式计算：

表示注意力权重，K表示历史内容划分的片段数；使用用户每个时间片的特征与目标推文求权重系数，之后加权聚合得到目标推文与用户的层级特征的融合表示h₁。

5.根据权利要求1所述的方法，其特征在于，所述Topk-Mask机制和所述Tweet-Mask机制为：

其中，M^tweet[i，j]表示Tweet-Mask机制的掩码矩阵；M^topk[i，j]表示Topk-Mask机制的掩码矩阵；tweet_i、tweet_j表示第i和第j条推文；attn表示点乘注意力计算，f表示朋友圈内容表示向量，dim表示朋友圈内容表示向量的维数，token_i表示第i个词。

6.根据权利要求5所述的方法，其特征在于，所述将两种机制输出的结果合并，得到用户的朋友圈特征表示，是将两个掩码机制与一个点乘注意力合并，得到朋友圈特征表示：

其中，attn_i表示点乘注意力计算；N表示朋友圈内容的数量。

7.根据权利要求6所述的方法，其特征在于，所述根据融合用户及原作者的全局和层级历史内容后的目标推文特征表示，以及用户的朋友圈特征表示，预测用户是否会对目标推文进行转发，包括：

将融合用户及原作者的全局和层级历史内容后的目标推文特征表示以及用户的朋友圈特征表示相拼接，前馈传播后通过使用sofimax函数归一化来获得最终的预测结果：

output＝softmax(σ(W·cancat[target(u，a)，fri]))

8.一种采用权利要求1～7中任一权利要求所述方法的基于时间感知与关键信息抽取的用户转发预测系统，其特征在于，包括：

9.一种电子装置，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～7中任一权利要求所述方法的指令。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1～7中任一权利要求所述的方法。