CN113657116A - 基于视觉语义关系的社交媒体流行度预测方法及装置 - Google Patents
基于视觉语义关系的社交媒体流行度预测方法及装置 Download PDFInfo
- Publication number
- CN113657116A CN113657116A CN202110895131.0A CN202110895131A CN113657116A CN 113657116 A CN113657116 A CN 113657116A CN 202110895131 A CN202110895131 A CN 202110895131A CN 113657116 A CN113657116 A CN 113657116A
- Authority
- CN
- China
- Prior art keywords
- features
- popularity
- feature
- semantic
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000000007 visual effect Effects 0.000 title claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 50
- 239000013598 vector Substances 0.000 claims abstract description 44
- 238000012360 testing method Methods 0.000 claims abstract description 23
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Evolutionary Computation (AREA)
- Development Economics (AREA)
- Probability & Statistics with Applications (AREA)
- Game Theory and Decision Science (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Entrepreneurship & Innovation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于视觉语义关系的社交媒体流行度预测方法及装置,方法包括:利用预训练的场景图生成器从帖子的图像中提取成对的对象以及它们之间的谓词联系,生成<主语‑谓语‑宾语>关系;使用词向量模型将上述关系编码为语义特征;对帖子的其他数据进行编码,得到文本特征、数值特征和附加用户特征,并与语义特征进行连接;针对测试集部分帖子的用户在训练集中的缺失问题,利用连接的多模态特征分别训练两个Catboost模型,线性结合输出得到初步的流行度分数;利用训练集数据,针对帖子内容对初步的流行度分数进行微调,平衡用户信息带来的模型预测误差,从而得到最终的流行度分数。装置包括:处理器和存储器。本发明提高了流行度预测的准确度。
Description
技术领域
本发明涉及视觉关系,以及社交媒体流行度预测领域,尤其涉及一种基于视觉语义关系的社交媒体流行度预测方法及装置。
背景技术
近年来,社交媒体在日常生活中发挥着越来越重要的作用,数百万条帖子通过各种社交平台,如微博、Facebook、Flickr等进行上传和发布,这对用户体验和人际沟通有着重要的影响。因此有必要分析社交媒体的内容,并进一步预测它们的受欢迎程度[1](即一篇帖子的点击数、浏览量等),另外,建立社交媒体流行度的预测模型可以更好地服务于一些下游任务,如信息检索[2]、网上广告[3]和内容推荐[4]。
一般来说,现有的流行度预测方法基本上采用相同的管道:首先根据帖子的多种类型的异构数据(如图像、元数据和文本)提取特征,然后将特征输入到回归模型来预测流行度分数。目前在流行度预测方面,对于提取图像特征的工作可以分为两类:(1)直接捕捉图像中的孤立物体[5];(2)只探索图像的全局表示[6],然而,他们忽视了图像中所包含的视觉关系,这是可以帮助预测模型来推断帖子受欢迎程度的又一有利信息。另外,现有技术对数据集中用户信息缺乏有利的探索,用户ID(Uid)作为流行度预测的重要特征[5],会出现测试集中部分帖子的用户在训练集中不存在的情况,这必然导致预测的准确率有所下降。同时预测模型对于用户信息的依赖也会导致预测偏差。
虽然研究者们在社交媒体流行度预测领域做了很多工作,并且致力于挖掘多类型数据中的有用特征,但是对于帖子的图像中所包含的视觉关系探索还有一些欠缺,并且忽略了测试集用户在训练集中不存在的问题以及预测模型对于用户信息的依赖所导致的预测偏差。基于此现状,目前面临的挑战主要有以下三个方面:
1、如何从图像中提取视觉关系进而帮助模型进行流行度预测;
2、如何解决测试集部分帖子的用户在训练集中不存在的问题;
3、如何利用训练集数据平衡用户信息所带来的模型预测误差。
发明内容
本发明提供了一种基于视觉语义关系的社交媒体流行度预测方法,受到无偏场景图生成方法在图像视觉理解领域成功应用的启发,本发明在特征提取部分引入图像中包含的视觉语义关系,弥补了现有方法在挖掘图像信息时所忽略的有用特征,在此基础上分别训练两个回归模型,解决测试集部分帖子的用户在训练集中不存在的问题,并利用训练集数据平衡用户信息所带来的模型预测误差,提高了流行度预测的精度,从而更好地服务于内容推荐等下游任务,详见下文描述:
第一方面,一种基于视觉语义关系的社交媒体流行度预测方法,所述方法包括:
利用预训练的场景图生成器[7]从帖子的图像中提取成对的对象以及它们之间的谓词联系,生成<主语-谓语-宾语>关系;
使用词向量模型将上述关系编码为语义特征;
对帖子的其他数据进行编码,得到文本特征、数值特征和附加用户特征,并与语义特征进行连接;
针对测试集部分帖子的用户在训练集中的缺失问题,利用连接的多模态特征分别训练两个Catboost模型[8],线性结合输出得到初步的流行度分数;
利用训练集数据,针对帖子内容对初步的流行度分数进行微调,平衡用户信息带来的模型预测误差,从而得到最终的流行度分数。
其中,所述利用预训练的场景图生成器从帖子的图像中提取成对的对象以及它们之间的谓词联系,生成<主语-谓语-宾语>关系具体为:
采用Faster R-CNN算法[9]预测出一幅图像中所包含的一系列对象的标签L={l1,l2,...,lM},其中M为检测到的对象数;
利用改进的无偏Motifs算法获得成对的对象li和lj之间的谓词pij,其中li作为主语s,lj作为宾语o;
最后,将成对的对象和它们之间的谓词结合起来,形成该图像的N个<主语-谓语-宾语>关系:即<s-p-o>×N。
进一步地,所述使用词向量模型将上述关系编码为语义特征具体为:
将每个关系<主语-谓语-宾语>视作一个句子,利用Bert模型进行嵌入处理,转换为768维的向量;
合并N个关系向量得到N*768维的矩阵,利用平均池化降维为768维的向量,即为最终的语义特征SF:
SF=meanpooling(concat(Bert(<s-p-o>×N)))。
进一步地,所述对帖子的其他数据进行编码,得到文本特征、数值特征和附加用户特征,并与语义特征进行连接具体为:
文本特征TF包括:对数据集中的Alltags和Title,采用TF-IDF算法和GloVe算法分别得到编码向量,以及计算字母长度和单词个数;
数值特征NF包括:对数据集中的Uid,Category,Subcategory,Concept等分别进行标签编码;根据Postdate,Photo_firstdate和Photo-firstdatetaken计算时间信息;根据Longitude,Latitude和Geoaccuracy计算空间信息;计算用户数Uid_count和照片数Photo_count;
附加用户特征AF包括:通过数据集提供的Pathalias爬取followerCount,followingCount,totalViews等信息;
最后,将以上特征与语义特征进行连接,得到多模态特征MMF:
MMF=concat(SF,TF,NF,AF)。
进一步地,所述针对测试集部分帖子的用户在训练集中的缺失问题,利用连接的多模态特征分别训练两个Catboost模型,线性结合输出得到初步的流行度分数具体为:
利用完整的多模态特征MMF训练Catboost模型,得到模型M1;去掉特征Uid得到多模态特征MMFno_Uid,利用MMFno_Uid训练Catboost模型,得到模型M2’
测试时,根据帖子的用户ID(Uid)是否在训练集中存在,将测试数据分为两部分D1:Uid存在和D2:Uid不存在;
对于来自D1和D2的测试数据,将完整的特征输入到模型M1,去掉特征Uid输入到模型M2,利用参数λ1和λ2将输出结果线性结合;
则第i个帖子的初步的流行度分数如下:
最后,所述利用训练集数据,针对帖子内容对初步的流行度分数进行微调,平衡用户信息带来的模型预测误差,从而得到最终的流行度分数具体为:
第二方面,一种基于视觉语义关系的社交媒体流行度预测装置,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行第一方面中的任一项所述的方法步骤。
第三方面,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行第一方面中的任一项所述的方法步骤。
本发明提供的技术方案的有益效果是:
1、本发明通过预训练的场景图生成器提取图像中对象间的视觉关系,对其进行嵌入编码为语义特征,与其它特征进行融合,利用这种结构关系帮助预测模型寻求支持帖子受欢迎程度的证据,这是被很多预测模型所忽略的部分。目前的大多数工作只关注全局表示或孤立对象,而忽略了图像中包含的结构知识,因此本发明弥补了之前研究的盲点,可以有效地提高流行度预测的准确度。
2、现有技术对数据集中用户信息缺乏有利的探索,本发明针对测试集中部分帖子的用户在训练集中不存在的情况,利用连接的多模态特征分别训练两个Catboost模型,并线性结合输出得到初步的流行度分数;在此基础上,利用训练集数据,针对帖子的内容信息对初步的流行度分数进行微调,以此平衡预测模型对于用户信息的依赖所导致的预测偏差,从而提高了流行度预测的准确度。
附图说明
图1为一种基于视觉语义关系的社交媒体流行度预测方法的流程图;
图2为利用Bert模型编码视觉关系的示意图;
图3为基于视觉语义关系的社交媒体流行度预测的网络结构图;
图4为一种基于视觉语义关系的社交媒体流行度预测装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
实施例1
一种基于视觉语义关系的社交媒体流行度预测方法,参见图1,该方法包括以下步骤:
101:利用预训练的场景图生成器从帖子的图像中提取成对的对象以及它们之间的谓词联系,生成<主语-谓语-宾语>关系;
现有流行度预测技术中从图像提取视觉特征往往只关注全局表示或孤立对象,而忽略了图像中包含的结构知识,于是本方法考虑对象间的视觉语义关系对流行度的贡献,弥补了之前研究的盲点。
102:使用有效的词向量模型将上述基于图的<主语-谓语-宾语>关系编码为语义特征;
103:对帖子的其他数据(例如:标签和标题、发布时间与位置、用户ID、用户粉丝数等)进行编码,得到文本特征、数值特征和附加用户特征,并与语义特征进行连接;
104:针对测试集部分帖子的用户在训练集中的缺失问题,利用连接的多模态特征分别训练两个Catboost模型,线性结合输出得到初步的流行度分数;
其中,Catboost模型为本领域技术人员所公知的技术模型,本发明实施例对此不做赘述。
现有技术对数据集中用户信息缺乏有利的探索,用户ID(Uid)作为流行度预测的重要特征,会出现测试集中部分帖子的用户在训练集中不存在的问题,这必然导致预测的准确率有所下降。于是本发明关注到这种情况,弥补了之前研究的漏洞。
105:利用训练集数据,针对帖子内容对初步的流行度分数进行微调,平衡用户信息带来的模型预测误差,从而得到最终的流行度分数。
预测模型对于用户信息会产生依赖,使其针对特定用户产生特定范围的流行度分数,这是不符合实际情况的,于是本发明关注到这种情况,对模型产生的预测误差在一定程度上进行弥补。
综上所述,本发明实施例针对社交媒体流行度预测基于视觉语义关系提出的全新方法,提高了流行度预测的准确度。
实施例2
下面结合具体的实例、计算公式对实施例1中的方案进行进一步地介绍,详见下文描述:
201:利用预训练的场景图生成器从帖子的图像中提取成对的对象以及它们之间的谓词联系,生成<主语-谓语-宾语>关系;
其中,本发明受到场景图生成方法在图像视觉理解领域成功应用的启发,将其创新性的应用到社交媒体流行度预测领域中,实现对象间结构关系帮助模型进行预测的有效探索。
进一步地,预训练的场景图生成方法中,首先利用Faster R-CNN(更快速的区域卷积神经网络)算法预测出图像中所包含的一系列对象的标签L={l1,l2,...,lM},其中M为检测到的目标数,然后采用改进的无偏Motifs算法获得成对的对象li和lj之间的谓词pij,其中li作为主语s,lj作为宾语o。
最后,将成对的对象和他们之间的谓词结合起来,形成该图像的N个<主语-谓语-宾语>关系:<s-p-o>×N。将<主语-谓语-宾语>关系按照置信分数进行排名,经过验证得出,对每幅图像提取的关系个数为5,即N=5时具有最佳的预测精准度,这是因为太少的关系信息会遗漏重要的视觉关系,太多冗余的关系信息反而会覆盖有用的视觉关系。
202:使用有效的词向量模型将上述基于图的<主语-谓语-宾语>关系编码为语义特征;
其中,有效的词向量模型即为:将每个关系<主语-谓语-宾语>视作一个句子,利用Bert(双向Transformer编码器表示)模型进行嵌入处理,转换为768维的向量。
进一步地,合并N个关系向量得到N*768维的矩阵,利用平均池化降维为768维的向量,即为最终的语义特征SF:
SF=meanpooling(concat(Bert(<s-p-o>×N)))
203:对帖子的其他数据(例如:标签和标题、发布时间与位置、用户ID、用户粉丝数等)进行编码,得到文本特征、数值特征和附加用户特征,并与语义特征进行连接;
其中,上述步骤203主要包括:
文本特征TF包括:对数据集中的Alltags(标签)和Title(标题),采用TF-IDF(词频-逆文本频率指数)算法和GloVe(单词表示的全局向量)算法分别得到编码向量,以及计算字母长度和单词个数;
数值特征NF包括:对数据集中的Uid(用户ID),Category(类别),Subcategory(子类别),Concept(概念)等分别进行标签编码;根据Postdate(帖子发布时间),Photo_firstdate(用户上传第一张图片的日期)和Photo-firstdatetaken(用户拍摄第一张图片的日期)计算时间信息;根据Longitude(经度),Latitude(纬度)和Geoaccuracy(地理位置准确性等级)计算空间信息;计算Uid_count(数据集中用户的照片数)和Photo_count(Flickr平台中用户的照片数);
附加用户特征AF包括:通过数据集提供的Pathalias(网址)爬取followerCount(用户粉丝数),followingCount(用户关注数),totalViews(用户总浏览量)等信息。
最后,将以上特征与语义特征进行连接,得到多模态特征MMF:
MMF=concat(SF,TF,NF,AF)
204:针对测试集部分帖子的用户在训练集中的缺失问题,利用连接的多模态特征分别训练两个Catboost模型,线性结合输出得到初步的流行度分数;
其中,许多回归模型在流行度预测方面都表现出了良好的预测性能,如:XGBoost、LightGBM、CatBoost等。本发明采用性能相对较好的CatBoost回归模型来建模连接的多模态特征和流行度分数之间的联系。另外,在训练阶段采用五折交叉验证算法来微调参数,以获得更好的回归结果。
进一步地,利用完整的多模态特征MMF训练Catboost模型,得到模型M1;去掉特征Uid得到多模态特征MMFno_Uid,利用MMFno_Uid训练Catboost模型,得到模型M2’。
最终,在测试时,根据帖子的用户ID(Uid)是否在训练集中存在,将测试数据分为两部分D1:Uid存在和D2:Uid不存在。对于来自D1和D2的测试数据,将完整的特征输入到模型M1,去掉特征Uid输入到模型M2,利用参数λ1和λ2将输出结果线性结合。则第i个帖子的初步的流行度分数如下:
205:利用训练集数据,针对帖子的内容信息对初步的流行度分数进行微调,平衡用户信息所带来的模型预测误差,从而得到最终的流行度分数。
实施例3
一种基于视觉语义关系的社交媒体流行度预测装置,参见图4,该装置包括:处理器1和存储器2,存储器2中存储有程序指令,处理器1调用存储器2中存储的程序指令以使装置执行实施例中的以下方法步骤:
利用预训练的场景图生成模型从帖子的图像中提取出成对的对象以及它们之间的谓词联系,生成图像的<主语-谓语-宾语>关系;
使用有效的词向量模型将基于图的<主语-谓语-宾语>关系编码为语义特征;
对帖子中其他类型的异构数据进行编码,得到文本特征、数值特征和附加用户特征,并将它们与语义特征进行连接;
针对测试集部分帖子的用户在训练集中不存在的问题,利用连接的多模态特征分别训练两个Catboost模型,线性结合它们的输出得到初步的流行度分数;
利用训练集数据,针对帖子的内容信息对初步的流行度分数进行微调,平衡用户信息所带来的模型预测误差,从而得到最终的流行度分数。
其中,利用预训练的场景图生成模型从帖子的图像中提取出成对的对象以及他们之间的谓词联系,生成图像的<主语-谓语-宾语>关系具体为:
采用Faster R-CNN算法预测出一幅图像中所包含的一系列对象的标签L={l1,l2,...,lM+,其中M为检测到的对象数;
利用改进的无偏Motifs算法获得成对的对象li(主语s)和lj(宾语o)之间的谓词pij;
最后,将成对的对象和他们之间的谓词结合起来,形成该图像的N个<主语-谓语-宾语>关系:<s-p-o>×N。
在一种实施方式中,使用有效的词向量模型将基于图的<主语-谓语-宾语>关系编码为语义特征具体为:
将每个关系<主语-谓语-宾语>视作一个句子,利用Bert模型进行嵌入处理,转换为768维的向量;
合并N个关系向量得到N*768维的矩阵,利用平均池化方法降维为768维的向量,即为最终的语义特征(SF):
S=meanpooling(concat(Bert(<p,c,q>×N)))
在一种实施方式中,对帖子中其他类型的异构数据进行编码,得到文本特征、数值特征和附加用户特征,并将它们与语义特征进行连接具体为:
文本特征TF包括:对数据集中的Alltags和Title,采用TF-IDF和GloVe算法以及计算字母长度和单词个数;
数值特征NF包括:对数据集中的Uid,Category,Subcategory,Concept等分别进行标签编码;根据Postdate,Photo_firstdate和Photo-firstdatetaken计算时间信息;根据Longitude,Latitude和Geoaccuracy计算空间信息;计算用户数Uid_count和照片数Photo_count等;
附加用户特征AF包括:通过数据集提供的Pathalias爬取followerCount,followingCount,totalViews等信息;
将以上特征与语义特征进行连接,得到多模态特征(MMF):
MMF=concat(SF,TF,NF,AF)
在一种实施方式中,针对测试集部分帖子的用户在训练集中不存在的问题,利用连接的多模态特征分别训练两个Catboost模型,线性结合它们的输出得到初步的流行度分数具体为:
利用完整的多模态特征MMF训练Catboost模型,得到模型M1;去掉特征Uid得到多模态特征MMFno_Uid,利用MMFno_Uid训练Catboost模型,得到模型M2’
测试时,根据帖子的用户ID(Uid)是否在训练集中存在,将测试数据其分为两部分D1(Uid存在)和D2(Uid不存在);
对于来自D1(D2)的测试数据,将完整的特征输入到模型M1,去掉特征Uid输入到模型M2,利用参数λ1(λ2)将输出结果线性结合。第i个帖子的初步的流行度分数如下:
最后,利用训练集数据,针对帖子的内容信息对初步的流行度分数进行微调,平衡用户信息所带来的模型预测误差,从而得到最终的流行度分数具体为:
这里需要指出的是,以上实施例中的装置描述是与实施例中的方法描述相对应的,本发明实施例在此不做赘述。
上述的处理器1和存储器2的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件,具体实现时,本发明实施例对执行主体不做限制,根据实际应用中的需要进行选择。
存储器2和处理器1之间通过总线3传输数据信号,本发明实施例对此不做赘述。
基于同一发明构思,本发明实施例还提供了一种计算机可读存储介质,存储介质包括存储的程序,在程序运行时控制存储介质所在的设备执行上述实施例中的方法步骤。
该计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘等。
这里需要指出的是,以上实施例中的可读存储介质描述是与实施例中的方法描述相对应的,本发明实施例在此不做赘述。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例的流程或功能。
计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者通过计算机可读存储介质进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质或者半导体介质等。
参考文献:
[1]Francesco Gelli,Tiberio Uricchio,et al.Image Popularity Predictionin Social Media Using Sentiment and Context Features.MM,2015.
[2]Chun-Che Wu,Tao Mei,et al.Learning to personalize trending imagesearch suggestion.SIGIR,2014.
[3]Avi Goldfarb and Catherine Tucker.Online Display Advertising:Targeting and Obtrusiveness.Mark.Sci.30,2011.
[4]Patrick Le Callet and Jenny Benois-Pineau.Visual Content Indexingand Retrieval with Psycho-Visual Models.Visual Content Indexing and Retrievalwith Psycho-Visual Models,2017.[5]Ziliang He,Zijian He,et al.FeatureConstruction for Posts and Users Combined with LightGBM for Social MediaPopularity Prediction.MM,2019.
[6]Junhong Chen,Dayong Liang,et al.Social Media Popularity PredictionBased on Visual-Textual Features with XGBoost.MM,2019.
[7]Kaihua Tang,Yulei Niu,et al.Unbiased Scene Graph Generation FromBiased Training.CVPR,2020.
[8]Liudmila Ostroumova Prokhorenkova,Gleb Gusev,et al.CatBoost:unbiased boosting with categorical features.NeurIPS,2018.
[9]Shaoqing Ren,Kaiming He,et al.Faster R-CNN:Towards Real-TimeObject Detection with Region Proposal Networks.NIPS,2015.
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于视觉语义关系的社交媒体流行度预测方法,其特征在于,所述方法包括:
利用预训练的场景图生成器从帖子的图像中提取成对的对象以及它们之间的谓词联系,生成<主语-谓语-宾语>关系;
使用词向量模型将上述关系编码为语义特征;
对帖子的其他数据进行编码,得到文本特征、数值特征和附加用户特征,并与语义特征进行连接;
针对测试集部分帖子的用户在训练集中的缺失问题,利用连接的多模态特征分别训练两个Catboost模型,线性结合输出得到初步的流行度分数;
利用训练集数据,针对帖子内容对初步的流行度分数进行微调,平衡用户信息带来的模型预测误差,从而得到最终的流行度分数。
2.根据权利要求1所述的一种基于视觉语义关系的社交媒体流行度预测方法,其特征在于,所述利用预训练的场景图生成器从帖子的图像中提取成对的对象以及它们之间的谓词联系,生成<主语-谓语-宾语>关系具体为:
采用Faster R-CNN算法预测出一幅图像中所包含的一系列对象的标签L={l1,l2,...,lM},其中M为检测到的对象数;
利用改进的无偏Motifs算法获得成对的对象li和lj之间的谓词pij,其中li作为主语s,lj作为宾语o;
最后,将成对的对象和它们之间的谓词结合起来,形成该图像的N个<主语-谓语-宾语>关系:即<s-p-o>×N。
3.根据权利要求2所述的一种基于视觉语义关系的社交媒体流行度预测方法,其特征在于,所述使用词向量模型将上述关系编码为语义特征体为:
将每个关系<主语-谓语-宾语>视作一个句子,利用Bert模型进行嵌入处理,转换为768维的向量;
合并N个关系向量得到N*768维的矩阵,利用平均池化降维为768维的向量,即为最终的语义特征SF:
SF=meanpooling(concat(Bert(<s-p-o>×N)))。
4.根据权利要求1所述的一种基于视觉语义关系的社交媒体流行度预测方法,其特征在于,所述对帖子的其他数据进行编码,得到文本特征、数值特征和附加用户特征,并与语义特征进行连接具体为:
文本特征TF包括:对数据集中的Alltags和Title,采用TF-IDF算法和GloVe算法分别得到编码向量,以及计算字母长度和单词个数;
数值特征NF包括:对数据集中的Uid,Category,Subcategory,Concept等分别进行标签编码;根据Postdate,Photo_firstdate和Photo-firstdatetaken计算时间信息;根据Longitude,Latitude和Geoaccuracy计算空间信息;计算用户数Uid_count和照片数Photo_count;
附加用户特征AF包括:通过数据集提供的Pathalias爬取followerCount,followingCount,totalViews等信息;
最后,将以上特征与语义特征进行连接,得到多模态特征MMF:
MMF=concat(SF,TF,NF,AF)。
5.根据权利要求1所述的一种基于视觉语义关系的社交媒体流行度预测方法,其特征在于,所述针对测试集部分帖子的用户在训练集中的缺失问题,利用连接的多模态特征分别训练两个Catboost模型,线性结合输出得到初步的流行度分数具体为:
利用完整的多模态特征MMF训练Catboost模型,得到模型M1;去掉特征Uid得到多模态特征MMFno_Uid,利用MMFno_Uid训练Catboost模型,得到模型M2’
测试时,根据帖子的用户ID(Uid)是否在训练集中存在,将测试数据分为两部分D1:Uid存在和D2:Uid不存在;
对于来自D1和D2的测试数据,将完整的特征输入到模型M1,去掉特征Uid输入到模型M2,利用参数λ1和λ2将输出结果线性结合;
则第i个帖子的初步的流行度分数如下:
7.一种基于视觉语义关系的社交媒体流行度预测装置,其特征在于,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行权利要求1-6中的任一项所述的方法步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行权利要求1-6中的任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110895131.0A CN113657116B (zh) | 2021-08-05 | 2021-08-05 | 基于视觉语义关系的社交媒体流行度预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110895131.0A CN113657116B (zh) | 2021-08-05 | 2021-08-05 | 基于视觉语义关系的社交媒体流行度预测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113657116A true CN113657116A (zh) | 2021-11-16 |
CN113657116B CN113657116B (zh) | 2023-08-08 |
Family
ID=78478484
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110895131.0A Active CN113657116B (zh) | 2021-08-05 | 2021-08-05 | 基于视觉语义关系的社交媒体流行度预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113657116B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115545349A (zh) * | 2022-11-24 | 2022-12-30 | 天津师范大学 | 基于属性敏感交互的时序社交媒体流行度预测方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090070322A1 (en) * | 2007-08-31 | 2009-03-12 | Powerset, Inc. | Browsing knowledge on the basis of semantic relations |
CN103329147A (zh) * | 2010-11-04 | 2013-09-25 | 数字标记公司 | 基于智能手机的方法和系统 |
US10255352B1 (en) * | 2013-04-05 | 2019-04-09 | Hrl Laboratories, Llc | Social media mining system for early detection of civil unrest events |
CN111914622A (zh) * | 2020-06-16 | 2020-11-10 | 北京工业大学 | 一种基于深度学习的人物交互检测方法 |
CN111984872A (zh) * | 2020-09-09 | 2020-11-24 | 北京中科研究院 | 基于迭代优化策略的多模态信息社交媒体流行度预测方法 |
CN112036659A (zh) * | 2020-09-09 | 2020-12-04 | 中国科学技术大学 | 基于组合策略的社交网络媒体信息流行度预测方法 |
CN112749549A (zh) * | 2021-01-22 | 2021-05-04 | 中国科学院电子学研究所苏州研究院 | 一种基于增量学习和多模型融合的中文实体关系抽取方法 |
-
2021
- 2021-08-05 CN CN202110895131.0A patent/CN113657116B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090070322A1 (en) * | 2007-08-31 | 2009-03-12 | Powerset, Inc. | Browsing knowledge on the basis of semantic relations |
CN103329147A (zh) * | 2010-11-04 | 2013-09-25 | 数字标记公司 | 基于智能手机的方法和系统 |
US10255352B1 (en) * | 2013-04-05 | 2019-04-09 | Hrl Laboratories, Llc | Social media mining system for early detection of civil unrest events |
CN111914622A (zh) * | 2020-06-16 | 2020-11-10 | 北京工业大学 | 一种基于深度学习的人物交互检测方法 |
CN111984872A (zh) * | 2020-09-09 | 2020-11-24 | 北京中科研究院 | 基于迭代优化策略的多模态信息社交媒体流行度预测方法 |
CN112036659A (zh) * | 2020-09-09 | 2020-12-04 | 中国科学技术大学 | 基于组合策略的社交网络媒体信息流行度预测方法 |
CN112749549A (zh) * | 2021-01-22 | 2021-05-04 | 中国科学院电子学研究所苏州研究院 | 一种基于增量学习和多模型融合的中文实体关系抽取方法 |
Non-Patent Citations (1)
Title |
---|
邓旭冉;闵少波;徐静远;李攀登;谢洪涛;张勇东;: "深度细粒度图像识别研究综述", 南京信息工程大学学报(自然科学版), no. 06 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115545349A (zh) * | 2022-11-24 | 2022-12-30 | 天津师范大学 | 基于属性敏感交互的时序社交媒体流行度预测方法及装置 |
CN115545349B (zh) * | 2022-11-24 | 2023-04-07 | 天津师范大学 | 基于属性敏感交互的时序社交媒体流行度预测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113657116B (zh) | 2023-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11409791B2 (en) | Joint heterogeneous language-vision embeddings for video tagging and search | |
Wang et al. | Multilayer dense attention model for image caption | |
WO2021114745A1 (zh) | 一种基于词缀感知的社交媒体命名实体识别方法 | |
KR101721338B1 (ko) | 검색 엔진 및 그의 구현 방법 | |
CN103049435B (zh) | 文本细粒度情感分析方法及装置 | |
JP7304370B2 (ja) | ビデオ検索方法、装置、デバイス及び媒体 | |
Zhang et al. | Keywords extraction with deep neural network model | |
WO2017118427A1 (zh) | 网页训练的方法和装置、搜索意图识别的方法和装置 | |
US20170169008A1 (en) | Method and electronic device for sentiment classification | |
CN111241237B (zh) | 一种基于运维业务的智能问答数据处理方法及装置 | |
CN109284506A (zh) | 一种基于注意力卷积神经网络的用户评论情感分析系统及方法 | |
CN111753167B (zh) | 搜索处理方法、装置、计算机设备和介质 | |
WO2022134360A1 (zh) | 基于词嵌入的模型训练方法、装置、电子设备及存储介质 | |
CN110134780B (zh) | 文档摘要的生成方法、装置、设备、计算机可读存储介质 | |
Nian et al. | Learning explicit video attributes from mid-level representation for video captioning | |
CN112559747B (zh) | 事件分类处理方法、装置、电子设备和存储介质 | |
WO2024099037A1 (zh) | 数据处理、实体链接方法、装置和计算机设备 | |
Liu et al. | Uamner: uncertainty-aware multimodal named entity recognition in social media posts | |
CN113806588A (zh) | 搜索视频的方法和装置 | |
CN115359383A (zh) | 跨模态特征提取、检索以及模型的训练方法、装置及介质 | |
Angadi et al. | Multimodal sentiment analysis using reliefF feature selection and random forest classifier | |
CN115934951A (zh) | 一种网络热点话题用户情绪预测方法 | |
CN113535949B (zh) | 基于图片和句子的多模态联合事件检测方法 | |
CN113934835A (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
CN113987161A (zh) | 一种文本排序方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |