CN113657116A

CN113657116A - 基于视觉语义关系的社交媒体流行度预测方法及装置

Info

Publication number: CN113657116A
Application number: CN202110895131.0A
Authority: CN
Inventors: 刘安安; 杜宏伟; 徐宁; 宋丹; 郭俊波; 张勇东
Original assignee: Tianjin University; People Co Ltd
Current assignee: Tianjin University; Konami Sports Club Co Ltd
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2021-11-16
Anticipated expiration: 2041-08-05
Also published as: CN113657116B

Abstract

本发明公开了一种基于视觉语义关系的社交媒体流行度预测方法及装置，方法包括：利用预训练的场景图生成器从帖子的图像中提取成对的对象以及它们之间的谓词联系，生成<主语‑谓语‑宾语>关系；使用词向量模型将上述关系编码为语义特征；对帖子的其他数据进行编码，得到文本特征、数值特征和附加用户特征，并与语义特征进行连接；针对测试集部分帖子的用户在训练集中的缺失问题，利用连接的多模态特征分别训练两个Catboost模型，线性结合输出得到初步的流行度分数；利用训练集数据，针对帖子内容对初步的流行度分数进行微调，平衡用户信息带来的模型预测误差，从而得到最终的流行度分数。装置包括：处理器和存储器。本发明提高了流行度预测的准确度。

Description

基于视觉语义关系的社交媒体流行度预测方法及装置

技术领域

本发明涉及视觉关系，以及社交媒体流行度预测领域，尤其涉及一种基于视觉语义关系的社交媒体流行度预测方法及装置。

背景技术

近年来，社交媒体在日常生活中发挥着越来越重要的作用，数百万条帖子通过各种社交平台，如微博、Facebook、Flickr等进行上传和发布，这对用户体验和人际沟通有着重要的影响。因此有必要分析社交媒体的内容，并进一步预测它们的受欢迎程度^[1](即一篇帖子的点击数、浏览量等)，另外，建立社交媒体流行度的预测模型可以更好地服务于一些下游任务，如信息检索^[2]、网上广告^[3]和内容推荐^[4]。

一般来说，现有的流行度预测方法基本上采用相同的管道：首先根据帖子的多种类型的异构数据(如图像、元数据和文本)提取特征，然后将特征输入到回归模型来预测流行度分数。目前在流行度预测方面，对于提取图像特征的工作可以分为两类:(1)直接捕捉图像中的孤立物体^[5]；(2)只探索图像的全局表示^[6]，然而，他们忽视了图像中所包含的视觉关系，这是可以帮助预测模型来推断帖子受欢迎程度的又一有利信息。另外，现有技术对数据集中用户信息缺乏有利的探索，用户ID(Uid)作为流行度预测的重要特征^[5]，会出现测试集中部分帖子的用户在训练集中不存在的情况，这必然导致预测的准确率有所下降。同时预测模型对于用户信息的依赖也会导致预测偏差。

虽然研究者们在社交媒体流行度预测领域做了很多工作，并且致力于挖掘多类型数据中的有用特征，但是对于帖子的图像中所包含的视觉关系探索还有一些欠缺，并且忽略了测试集用户在训练集中不存在的问题以及预测模型对于用户信息的依赖所导致的预测偏差。基于此现状，目前面临的挑战主要有以下三个方面：

1、如何从图像中提取视觉关系进而帮助模型进行流行度预测；

2、如何解决测试集部分帖子的用户在训练集中不存在的问题；

3、如何利用训练集数据平衡用户信息所带来的模型预测误差。

发明内容

本发明提供了一种基于视觉语义关系的社交媒体流行度预测方法，受到无偏场景图生成方法在图像视觉理解领域成功应用的启发，本发明在特征提取部分引入图像中包含的视觉语义关系，弥补了现有方法在挖掘图像信息时所忽略的有用特征，在此基础上分别训练两个回归模型，解决测试集部分帖子的用户在训练集中不存在的问题，并利用训练集数据平衡用户信息所带来的模型预测误差，提高了流行度预测的精度，从而更好地服务于内容推荐等下游任务，详见下文描述：

第一方面，一种基于视觉语义关系的社交媒体流行度预测方法，所述方法包括：

利用预训练的场景图生成器^[7]从帖子的图像中提取成对的对象以及它们之间的谓词联系，生成<主语-谓语-宾语>关系；

使用词向量模型将上述关系编码为语义特征；

对帖子的其他数据进行编码，得到文本特征、数值特征和附加用户特征，并与语义特征进行连接；

针对测试集部分帖子的用户在训练集中的缺失问题，利用连接的多模态特征分别训练两个Catboost模型^[8]，线性结合输出得到初步的流行度分数；

利用训练集数据，针对帖子内容对初步的流行度分数进行微调，平衡用户信息带来的模型预测误差，从而得到最终的流行度分数。

其中，所述利用预训练的场景图生成器从帖子的图像中提取成对的对象以及它们之间的谓词联系，生成<主语-谓语-宾语>关系具体为：

采用Faster R-CNN算法^[9]预测出一幅图像中所包含的一系列对象的标签L＝{l₁，l₂，...，l_M}，其中M为检测到的对象数；

利用改进的无偏Motifs算法获得成对的对象l_i和l_j之间的谓词p_ij，其中l_i作为主语s，l_j作为宾语o；

最后，将成对的对象和它们之间的谓词结合起来，形成该图像的N个<主语-谓语-宾语>关系：即<s-p-o>×N。

进一步地，所述使用词向量模型将上述关系编码为语义特征具体为：

将每个关系<主语-谓语-宾语>视作一个句子，利用Bert模型进行嵌入处理，转换为768维的向量；

合并N个关系向量得到N*768维的矩阵，利用平均池化降维为768维的向量，即为最终的语义特征SF：

SF＝meanpooling(concat(Bert(<s-p-o>×N)))。

进一步地，所述对帖子的其他数据进行编码，得到文本特征、数值特征和附加用户特征，并与语义特征进行连接具体为：

文本特征TF包括：对数据集中的Alltags和Title，采用TF-IDF算法和GloVe算法分别得到编码向量，以及计算字母长度和单词个数；

数值特征NF包括：对数据集中的Uid，Category，Subcategory，Concept等分别进行标签编码；根据Postdate，Photo_firstdate和Photo-firstdatetaken计算时间信息；根据Longitude,Latitude和Geoaccuracy计算空间信息；计算用户数Uid_count和照片数Photo_count；

附加用户特征AF包括：通过数据集提供的Pathalias爬取followerCount，followingCount，totalViews等信息；

最后，将以上特征与语义特征进行连接，得到多模态特征MMF：

MMF＝concat(SF,TF,NF,AF)。

进一步地，所述针对测试集部分帖子的用户在训练集中的缺失问题，利用连接的多模态特征分别训练两个Catboost模型，线性结合输出得到初步的流行度分数具体为：

利用完整的多模态特征MMF训练Catboost模型，得到模型M₁；去掉特征Uid得到多模态特征MMF_{no_Uid}，利用MMF_{no_Uid}训练Catboost模型，得到模型M₂’

测试时，根据帖子的用户ID(Uid)是否在训练集中存在，将测试数据分为两部分D₁：Uid存在和D₂：Uid不存在；

对于来自D₁和D₂的测试数据，将完整的特征输入到模型M₁，去掉特征Uid输入到模型M₂，利用参数λ₁和λ₂将输出结果线性结合；

则第i个帖子的初步的流行度分数如下：

最后，所述利用训练集数据，针对帖子内容对初步的流行度分数进行微调，平衡用户信息带来的模型预测误差，从而得到最终的流行度分数具体为：

根据特征Category，Subcategory，Concept以及Alltags和Title的字母长度和单词个数，对第i个帖子的初步的流行度

进行第一次微调；

根据Alltags的GloVe向量、Title的TF-IDF向量、图片的视觉特征向量以及语义特征向量，对第i个帖子的

进行第二次微调。

第二方面，一种基于视觉语义关系的社交媒体流行度预测装置，所述装置包括：处理器和存储器，所述存储器中存储有程序指令，所述处理器调用存储器中存储的程序指令以使装置执行第一方面中的任一项所述的方法步骤。

第三方面，一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时使所述处理器执行第一方面中的任一项所述的方法步骤。

本发明提供的技术方案的有益效果是：

1、本发明通过预训练的场景图生成器提取图像中对象间的视觉关系，对其进行嵌入编码为语义特征，与其它特征进行融合，利用这种结构关系帮助预测模型寻求支持帖子受欢迎程度的证据，这是被很多预测模型所忽略的部分。目前的大多数工作只关注全局表示或孤立对象，而忽略了图像中包含的结构知识，因此本发明弥补了之前研究的盲点，可以有效地提高流行度预测的准确度。

2、现有技术对数据集中用户信息缺乏有利的探索，本发明针对测试集中部分帖子的用户在训练集中不存在的情况，利用连接的多模态特征分别训练两个Catboost模型，并线性结合输出得到初步的流行度分数；在此基础上，利用训练集数据，针对帖子的内容信息对初步的流行度分数进行微调，以此平衡预测模型对于用户信息的依赖所导致的预测偏差，从而提高了流行度预测的准确度。

附图说明

图1为一种基于视觉语义关系的社交媒体流行度预测方法的流程图；

图2为利用Bert模型编码视觉关系的示意图；

图3为基于视觉语义关系的社交媒体流行度预测的网络结构图；

图4为一种基于视觉语义关系的社交媒体流行度预测装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

一种基于视觉语义关系的社交媒体流行度预测方法，参见图1，该方法包括以下步骤：

101：利用预训练的场景图生成器从帖子的图像中提取成对的对象以及它们之间的谓词联系，生成<主语-谓语-宾语>关系；

现有流行度预测技术中从图像提取视觉特征往往只关注全局表示或孤立对象，而忽略了图像中包含的结构知识，于是本方法考虑对象间的视觉语义关系对流行度的贡献，弥补了之前研究的盲点。

102：使用有效的词向量模型将上述基于图的<主语-谓语-宾语>关系编码为语义特征；

103：对帖子的其他数据(例如：标签和标题、发布时间与位置、用户ID、用户粉丝数等)进行编码，得到文本特征、数值特征和附加用户特征，并与语义特征进行连接；

104：针对测试集部分帖子的用户在训练集中的缺失问题，利用连接的多模态特征分别训练两个Catboost模型，线性结合输出得到初步的流行度分数；

其中，Catboost模型为本领域技术人员所公知的技术模型，本发明实施例对此不做赘述。

现有技术对数据集中用户信息缺乏有利的探索，用户ID(Uid)作为流行度预测的重要特征，会出现测试集中部分帖子的用户在训练集中不存在的问题，这必然导致预测的准确率有所下降。于是本发明关注到这种情况，弥补了之前研究的漏洞。

105：利用训练集数据，针对帖子内容对初步的流行度分数进行微调，平衡用户信息带来的模型预测误差，从而得到最终的流行度分数。

预测模型对于用户信息会产生依赖，使其针对特定用户产生特定范围的流行度分数，这是不符合实际情况的，于是本发明关注到这种情况，对模型产生的预测误差在一定程度上进行弥补。

综上所述，本发明实施例针对社交媒体流行度预测基于视觉语义关系提出的全新方法，提高了流行度预测的准确度。

实施例2

下面结合具体的实例、计算公式对实施例1中的方案进行进一步地介绍，详见下文描述：

201：利用预训练的场景图生成器从帖子的图像中提取成对的对象以及它们之间的谓词联系，生成<主语-谓语-宾语>关系；

其中，本发明受到场景图生成方法在图像视觉理解领域成功应用的启发，将其创新性的应用到社交媒体流行度预测领域中，实现对象间结构关系帮助模型进行预测的有效探索。

进一步地，预训练的场景图生成方法中，首先利用Faster R-CNN(更快速的区域卷积神经网络)算法预测出图像中所包含的一系列对象的标签L＝{l₁，l₂，...，l_M}，其中M为检测到的目标数，然后采用改进的无偏Motifs算法获得成对的对象l_i和l_j之间的谓词p_ij，其中l_i作为主语s，l_j作为宾语o。

最后，将成对的对象和他们之间的谓词结合起来，形成该图像的N个<主语-谓语-宾语>关系：＜s-p-o＞×N。将<主语-谓语-宾语>关系按照置信分数进行排名，经过验证得出，对每幅图像提取的关系个数为5，即N＝5时具有最佳的预测精准度，这是因为太少的关系信息会遗漏重要的视觉关系，太多冗余的关系信息反而会覆盖有用的视觉关系。

202：使用有效的词向量模型将上述基于图的<主语-谓语-宾语>关系编码为语义特征；

其中，有效的词向量模型即为：将每个关系<主语-谓语-宾语>视作一个句子，利用Bert(双向Transformer编码器表示)模型进行嵌入处理，转换为768维的向量。

进一步地，合并N个关系向量得到N*768维的矩阵，利用平均池化降维为768维的向量，即为最终的语义特征SF：

SF＝meanpooling(concat(Bert(＜s-p-o＞×N)))

203：对帖子的其他数据(例如：标签和标题、发布时间与位置、用户ID、用户粉丝数等)进行编码，得到文本特征、数值特征和附加用户特征，并与语义特征进行连接；

其中，上述步骤203主要包括：

文本特征TF包括：对数据集中的Alltags(标签)和Title(标题)，采用TF-IDF(词频-逆文本频率指数)算法和GloVe(单词表示的全局向量)算法分别得到编码向量，以及计算字母长度和单词个数；

数值特征NF包括：对数据集中的Uid(用户ID)，Category(类别)，Subcategory(子类别)，Concept(概念)等分别进行标签编码；根据Postdate(帖子发布时间)，Photo_firstdate(用户上传第一张图片的日期)和Photo-firstdatetaken(用户拍摄第一张图片的日期)计算时间信息；根据Longitude(经度)，Latitude(纬度)和Geoaccuracy(地理位置准确性等级)计算空间信息；计算Uid_count(数据集中用户的照片数)和Photo_count(Flickr平台中用户的照片数)；

附加用户特征AF包括：通过数据集提供的Pathalias(网址)爬取followerCount(用户粉丝数)，followingCount(用户关注数)，totalViews(用户总浏览量)等信息。

最后，将以上特征与语义特征进行连接，得到多模态特征MMF:

MMF＝concat(SF,TF,NF,AF)

204：针对测试集部分帖子的用户在训练集中的缺失问题，利用连接的多模态特征分别训练两个Catboost模型，线性结合输出得到初步的流行度分数；

其中，许多回归模型在流行度预测方面都表现出了良好的预测性能，如：XGBoost、LightGBM、CatBoost等。本发明采用性能相对较好的CatBoost回归模型来建模连接的多模态特征和流行度分数之间的联系。另外，在训练阶段采用五折交叉验证算法来微调参数，以获得更好的回归结果。

进一步地，利用完整的多模态特征MMF训练Catboost模型，得到模型M₁；去掉特征Uid得到多模态特征MMF_{no_Uid}，利用MMF_{no_Uid}训练Catboost模型，得到模型M₂’。

最终，在测试时，根据帖子的用户ID(Uid)是否在训练集中存在，将测试数据分为两部分D₁：Uid存在和D₂：Uid不存在。对于来自D₁和D₂的测试数据，将完整的特征输入到模型M₁，去掉特征Uid输入到模型M₂，利用参数λ₁和λ₂将输出结果线性结合。则第i个帖子的初步的流行度分数如下：

205：利用训练集数据，针对帖子的内容信息对初步的流行度分数进行微调，平衡用户信息所带来的模型预测误差，从而得到最终的流行度分数。

其中，根据特征Category，Subcategory，Concept以及Alltags和Title的字母长度和单词个数，对第i个帖子的初步的流行度

进行第一次微调；

例如，Category共有11个类别，将训练集中与第i个帖子具有相同类别的帖子的流行度分数取均值mean_score₁，利用参数

对

进行微调：

进一步地，根据Alltags的GloVe向量、Title的TF-IDF向量、图片的视觉特征向量以及语义特征向量，对第i个帖子的

进行第二次微调。

例如，计算第i个帖子的TF-IDF向量和训练集中所有帖子的TF-IDF向量的相似度，取训练集中相似度排名前50的帖子的流行度分数的均值mean_score₂，利用参数β₁对

进行微调：

实施例3

一种基于视觉语义关系的社交媒体流行度预测装置，参见图4，该装置包括：处理器1和存储器2，存储器2中存储有程序指令，处理器1调用存储器2中存储的程序指令以使装置执行实施例中的以下方法步骤：

利用预训练的场景图生成模型从帖子的图像中提取出成对的对象以及它们之间的谓词联系，生成图像的<主语-谓语-宾语>关系；

使用有效的词向量模型将基于图的<主语-谓语-宾语>关系编码为语义特征；

对帖子中其他类型的异构数据进行编码，得到文本特征、数值特征和附加用户特征，并将它们与语义特征进行连接；

针对测试集部分帖子的用户在训练集中不存在的问题，利用连接的多模态特征分别训练两个Catboost模型，线性结合它们的输出得到初步的流行度分数；

利用训练集数据，针对帖子的内容信息对初步的流行度分数进行微调，平衡用户信息所带来的模型预测误差，从而得到最终的流行度分数。

其中，利用预训练的场景图生成模型从帖子的图像中提取出成对的对象以及他们之间的谓词联系，生成图像的<主语-谓语-宾语>关系具体为：

采用Faster R-CNN算法预测出一幅图像中所包含的一系列对象的标签L＝{l₁，l₂，...，l_M+，其中M为检测到的对象数；

利用改进的无偏Motifs算法获得成对的对象l_i(主语s)和l_j(宾语o)之间的谓词p_ij；

最后，将成对的对象和他们之间的谓词结合起来，形成该图像的N个<主语-谓语-宾语>关系：＜s-p-o＞×N。

在一种实施方式中，使用有效的词向量模型将基于图的<主语-谓语-宾语>关系编码为语义特征具体为：

合并N个关系向量得到N*768维的矩阵，利用平均池化方法降维为768维的向量，即为最终的语义特征(SF)：

S＝meanpooling(concat(Bert(<p，c，q>×N)))

在一种实施方式中，对帖子中其他类型的异构数据进行编码，得到文本特征、数值特征和附加用户特征，并将它们与语义特征进行连接具体为：

文本特征TF包括：对数据集中的Alltags和Title，采用TF-IDF和GloVe算法以及计算字母长度和单词个数；

数值特征NF包括：对数据集中的Uid，Category，Subcategory，Concept等分别进行标签编码；根据Postdate，Photo_firstdate和Photo-firstdatetaken计算时间信息；根据Longitude,Latitude和Geoaccuracy计算空间信息；计算用户数Uid_count和照片数Photo_count等；

将以上特征与语义特征进行连接，得到多模态特征(MMF):

MMF＝concat(SF,TF,NF,AF)

在一种实施方式中，针对测试集部分帖子的用户在训练集中不存在的问题，利用连接的多模态特征分别训练两个Catboost模型，线性结合它们的输出得到初步的流行度分数具体为：

测试时，根据帖子的用户ID(Uid)是否在训练集中存在，将测试数据其分为两部分D₁(Uid存在)和D₂(Uid不存在)；

对于来自D₁(D₂)的测试数据，将完整的特征输入到模型M₁，去掉特征Uid输入到模型M₂，利用参数λ₁(λ₂)将输出结果线性结合。第i个帖子的初步的流行度分数如下：

最后，利用训练集数据，针对帖子的内容信息对初步的流行度分数进行微调，平衡用户信息所带来的模型预测误差，从而得到最终的流行度分数具体为：

进行第一次微调；

根据Alltags和Title的TF-IDF向量和GloVe向量、图片的视觉特征向量以及语义特征向量，对第i个帖子的

进行第二次微调；

这里需要指出的是，以上实施例中的装置描述是与实施例中的方法描述相对应的，本发明实施例在此不做赘述。

上述的处理器1和存储器2的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件，具体实现时，本发明实施例对执行主体不做限制，根据实际应用中的需要进行选择。

存储器2和处理器1之间通过总线3传输数据信号，本发明实施例对此不做赘述。

基于同一发明构思，本发明实施例还提供了一种计算机可读存储介质，存储介质包括存储的程序，在程序运行时控制存储介质所在的设备执行上述实施例中的方法步骤。

该计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘等。

这里需要指出的是，以上实施例中的可读存储介质描述是与实施例中的方法描述相对应的，本发明实施例在此不做赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。

计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者通过计算机可读存储介质进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质或者半导体介质等。

参考文献：

[1]Francesco Gelli,Tiberio Uricchio,et al.Image Popularity Predictionin Social Media Using Sentiment and Context Features.MM,2015.

[2]Chun-Che Wu,Tao Mei,et al.Learning to personalize trending imagesearch suggestion.SIGIR,2014.

[3]Avi Goldfarb and Catherine Tucker.Online Display Advertising:Targeting and Obtrusiveness.Mark.Sci.30,2011.

[4]Patrick Le Callet and Jenny Benois-Pineau.Visual Content Indexingand Retrieval with Psycho-Visual Models.Visual Content Indexing and Retrievalwith Psycho-Visual Models,2017.[5]Ziliang He,Zijian He,et al.FeatureConstruction for Posts and Users Combined with LightGBM for Social MediaPopularity Prediction.MM,2019.

[6]Junhong Chen,Dayong Liang,et al.Social Media Popularity PredictionBased on Visual-Textual Features with XGBoost.MM,2019.

[7]Kaihua Tang,Yulei Niu,et al.Unbiased Scene Graph Generation FromBiased Training.CVPR,2020.

[8]Liudmila Ostroumova Prokhorenkova,Gleb Gusev,et al.CatBoost:unbiased boosting with categorical features.NeurIPS,2018.

[9]Shaoqing Ren,Kaiming He,et al.Faster R-CNN:Towards Real-TimeObject Detection with Region Proposal Networks.NIPS,2015.

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于视觉语义关系的社交媒体流行度预测方法，其特征在于，所述方法包括：

利用预训练的场景图生成器从帖子的图像中提取成对的对象以及它们之间的谓词联系，生成<主语-谓语-宾语>关系；

使用词向量模型将上述关系编码为语义特征；

针对测试集部分帖子的用户在训练集中的缺失问题，利用连接的多模态特征分别训练两个Catboost模型，线性结合输出得到初步的流行度分数；

2.根据权利要求1所述的一种基于视觉语义关系的社交媒体流行度预测方法，其特征在于，所述利用预训练的场景图生成器从帖子的图像中提取成对的对象以及它们之间的谓词联系，生成<主语-谓语-宾语>关系具体为：

采用Faster R-CNN算法预测出一幅图像中所包含的一系列对象的标签L＝{l₁，l₂，...，l_M}，其中M为检测到的对象数；

3.根据权利要求2所述的一种基于视觉语义关系的社交媒体流行度预测方法，其特征在于，所述使用词向量模型将上述关系编码为语义特征体为：

SF＝meanpooling(concat(Bert(<s-p-o>×N)))。

4.根据权利要求1所述的一种基于视觉语义关系的社交媒体流行度预测方法，其特征在于，所述对帖子的其他数据进行编码，得到文本特征、数值特征和附加用户特征，并与语义特征进行连接具体为：

MMF＝concat(SF,TF,NF,AF)。

5.根据权利要求1所述的一种基于视觉语义关系的社交媒体流行度预测方法，其特征在于，所述针对测试集部分帖子的用户在训练集中的缺失问题，利用连接的多模态特征分别训练两个Catboost模型，线性结合输出得到初步的流行度分数具体为：

则第i个帖子的初步的流行度分数如下：

6.根据权利要求1所述的一种基于视觉语义关系的社交媒体流行度预测方法，其特征在于，所述利用训练集数据，针对帖子内容对初步的流行度分数进行微调，平衡用户信息带来的模型预测误差，从而得到最终的流行度分数具体为：

进行第一次微调；

进行第二次微调。

7.一种基于视觉语义关系的社交媒体流行度预测装置，其特征在于，所述装置包括：处理器和存储器，所述存储器中存储有程序指令，所述处理器调用存储器中存储的程序指令以使装置执行权利要求1-6中的任一项所述的方法步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时使所述处理器执行权利要求1-6中的任一项所述的方法步骤。