CN115545349B - 基于属性敏感交互的时序社交媒体流行度预测方法及装置 - Google Patents
基于属性敏感交互的时序社交媒体流行度预测方法及装置 Download PDFInfo
- Publication number
- CN115545349B CN115545349B CN202211479412.9A CN202211479412A CN115545349B CN 115545349 B CN115545349 B CN 115545349B CN 202211479412 A CN202211479412 A CN 202211479412A CN 115545349 B CN115545349 B CN 115545349B
- Authority
- CN
- China
- Prior art keywords
- attribute
- user
- post
- popularity
- posts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 230000003993 interaction Effects 0.000 title claims abstract description 23
- 239000011159 matrix material Substances 0.000 claims abstract description 112
- 230000006870 function Effects 0.000 claims abstract description 25
- 230000007774 longterm Effects 0.000 claims abstract description 23
- 230000015654 memory Effects 0.000 claims abstract description 15
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 13
- 230000007787 long-term memory Effects 0.000 claims abstract description 9
- 230000006403 short-term memory Effects 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 8
- 230000008859 change Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 8
- 230000000007 visual effect Effects 0.000 claims description 8
- 238000012512 characterization method Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- SLXKOJJOQWFEFD-UHFFFAOYSA-N 6-aminohexanoic acid Chemical compound NCCCCCC(O)=O SLXKOJJOQWFEFD-UHFFFAOYSA-N 0.000 claims 2
- 230000008569 process Effects 0.000 abstract description 21
- 230000002452 interceptive effect Effects 0.000 abstract description 5
- 230000007246 mechanism Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 6
- 230000004927 fusion Effects 0.000 description 6
- 230000006399 behavior Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- 230000011273 social behavior Effects 0.000 description 2
- 230000005526 G1 to G0 transition Effects 0.000 description 1
- 241000238631 Hexapoda Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Tourism & Hospitality (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于属性敏感交互的时序社交媒体流行度预测方法及装置,方法包括:利用关联矩阵中的已知元素对未知元素进行推断,弥补稀疏矩阵带来的模型学习困难的问题;对用户‑属性关联矩阵中的每一个元素序列,分别采用长短期记忆网络和卷积神经网络捕捉用户‑属性偏好的长期变化趋势和短期波动;以各种属性为桥梁,分析帖子与用户之间的匹配等级;采用注意力机制计算帖子对不同用户的吸引程度;将不同时刻帖子对用户吸引程度的表征与其它多模态特征进行整合,并构建时序衰减损失函数进行回归训练。装置包括:处理器和存储器。本发明利用社交媒体的属性信息进行交互式学习,提高了基于时序过程的流行度预测的准确度,提高了用户的体验度。
Description
技术领域
本发明涉及媒体属性,以及时序社交媒体流行度预测领域,尤其涉及一种基于属性敏感交互的时序社交媒体流行度预测方法及装置。
背景技术
最新数据显示,截至2022年1月,全球社交媒体用户超过46.2亿,相当于全球总人口的58.4%。伴随着,每天都有数以千万计的帖子在各种社交平台(如Twitter、Instagram、Flickr、微博、微信等)上被上传和分享,其内容涵盖文本、图片、音频、视频等多种形式。如此庞大的数据量,一方面给平台的管理带来了巨大的挑战,另一方面也给人们带来了信息过载的困扰。社交媒体流行度预测作为提升社交网络服务质量的一种重要手段,旨在显式地分析用户生成的内容,并进一步预测其流行程度,这可以在一定程度上辅助社交媒体平台进行质量控制,过滤掉一些无关紧要的内容,从而帮助人们摆脱信息过载的困扰。
现有的流行度预测方法主要分为两类:基于时间过程的建模方法和基于特征提取的建模方法。基于时间过程的建模方法将消息传播过程视为用户转发行为的到达点过程,依赖于统计模型或基于点过程的方法。然而,其需要基于特定的假设进行建模,而且未能充分利用媒体本身包含的有效信息,因此在一定程度上限制了模型的表达能力。基于特征提取的建模方法手动地从媒体数据中提取特征,然后将特征输入到模型中对流行度分数进行预测或者分类。然而,这种非端到端的学习方式很难全面而有效地捕捉各种有效的特征以及它们之间的关联,很容易得出不精确的预测结果。
此外,依据总浏览量将社交网络用户分为活跃用户和非活跃用户,通过对当前代表性模型的预测结果进行检测发现:如果活跃用户发布低人气的帖子,模型会习惯性地预测出高得分;相反,如果非活跃用户提供了高人气的帖子,模型仍然会错误地给出低得分。因此,现有模型存在对用户特征过拟合、对帖子内容不敏感的问题,如何平衡好不同特征的重要性是研究的关键所在。
虽然研究者们在社交媒体流行度预测领域进行了很多有利的探索,但是他们仅仅单独致力于构建时序过程或简单地提取手工特征,并忽略了特征之间存在的重要关联,导致模型表达能力弱、预测不精准的问题。基于此现状,目前面临的挑战主要有以下两个方面:
1、如何整合时间过程和内容特征来进行社交媒体帖子不同阶段的流行度预测;
2、如何对不同特征之间存在的重要关联进行建模以此来促进准确的预测。
发明内容
本发明提供了一种基于属性敏感交互的时序社交媒体流行度预测方法及装置,受到深度学习在文本、音频和图像等领域成功应用的启发,本发明一方面对媒体本身包含的各种有效特征进行充分挖掘;另一方面利用社交媒体的属性信息进行交互式学习,对用户属性与帖子属性进行关联,从而动态地捕捉用户的偏好以及帖子对社交网络用户的吸引程度;最终通过注意力网络对上述特征进行整合,从而构建了一种端到端的深度社交媒体流行度预测架构,提高了时序流行度预测的准确度,基于预测结果对社交网络的服务质量进行优化,维护了网站的实用性,提高了用户的体验度,详见下文描述:
第一方面,一种基于属性敏感交互的时序社交媒体流行度预测方法,所述方法包括:
分别利用帖子-属性关联矩阵和用户-属性关联矩阵中的已知元素,采用平方损失函数得到关于帖子、用户以及属性的潜在表示,并对两矩阵中的缺失项进行推断;
对用户-属性关联矩阵中的每一个元素序列,分别采用长短期记忆网络和卷积神经网络捕捉用户-属性偏好的长期变化趋势和短期波动;
基于完全估计的帖子-属性关联矩阵、用户-属性偏好的长期变化趋势矩阵,获取帖子与用户关于属性的第一匹配程度;基于完全估计的帖子-属性关联矩阵、用户-属性偏好的短期波动矩阵,获取帖子与用户关于属性的第二匹配程度:获取帖子和用户关于属性的潜在表示之间的第三匹配程度;
对第一匹配程度、第二匹配程度及第三匹配程度分别使用注意力网络,获取不同用户对帖子流行度的贡献值;
根据不同用户对帖子流行度的贡献值,得到更新后的帖子对所有用户吸引程度的表征,将对所有用户吸引程度的表征与多模态特征的潜在表示进行整合,预测帖子的流行度分数,并基于流行度分数对社交网站的服务质量进行优化。
其中,所述根据不同用户对帖子流行度的贡献值,得到更新后的帖子对所有用户吸引程度的表征具体为:对不同用户的贡献值分别进行归一化处理,处理后的结果分别与第一匹配程度、第二匹配程度和第三匹配程度对应相乘,并分别求和得到各自的表征值。
进一步地,所述方法还包括:构建一时间衰减因子,与平方损失函数相乘进行回归训练,用于优化预测性能。
第二方面,一种基于属性敏感交互的时序社交媒体流行度预测装置,所述装置包括:
第一获取模块,用于分别利用帖子-属性关联矩阵和用户-属性关联矩阵中的已知元素,采用平方损失函数得到关于帖子、用户以及属性的潜在表示,并对两矩阵中的缺失项进行推断;
第二获取模块,用于对用户-属性关联矩阵中的每一个元素序列,分别采用长短期记忆网络和卷积神经网络捕捉用户-属性偏好的长期变化趋势和短期波动;
第三获取模块,用于基于完全估计的帖子-属性关联矩阵、用户-属性偏好的长期变化趋势矩阵,获取帖子与用户关于属性的第一匹配程度;基于完全估计的帖子-属性关联矩阵、用户-属性偏好的短期波动矩阵,获取帖子与用户关于属性的第二匹配程度;获取帖子和用户关于属性的潜在表示之间的第三匹配程度;
学习模块,用于对第一匹配程度、第二匹配程度及第三匹配程度分别使用注意力网络,获取不同用户对帖子流行度的贡献值;
预测与优化模块,用于根据不同用户对帖子流行度的贡献值,得到更新后的帖子对所有用户吸引程度的表征,将对所有用户吸引程度的表征与多模态特征的潜在表示进行整合,预测帖子的流行度分数,并基于流行度分数对社交网站的服务质量进行优化。
第三方面,一种基于属性敏感交互的时序社交媒体流行度预测电子设备,所述电子设备包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使电子设备执行第一方面中的任一项所述的方法步骤。
第四方面,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行第一方面中的任一项所述的方法步骤。
本发明提供的技术方案的有益效果是:
1、针对现有方法仅仅单独致力于构建时序过程或简单地提取手工特征的问题,本发明提出了一种将时间过程和内容特征深度融合的时序社交媒体流行度预测架构;通过对媒体本身包含的各种有效特征进行充分挖掘,并构建端到端的学习网络,弥补了之前研究的盲点;
2、目前,大多数流行度预测算法对于多模态特征仅仅进行简单的线性整合,没有精密地处理不同特征之间的关联,而本发明首先对帖子-属性关联矩阵和用户-属性关联矩阵进行构建,并以属性为桥梁进行交互式学习,得到帖子与用户之间匹配程度的动态表征;其次,本发明采用注意力融合网络对上述动态表征与帖子本身的多模态特征进行整合,从而解决模型表达能力弱、预测不精准的问题,有效地提高了流行度预测的精准度,并基于预测结果对社交网站的服务质量进行优化,过滤掉一些无关紧要的内容,从而帮助人们摆脱信息过载的困扰,满足了实际应用中的需要,提高了用户的实用性和体验度。
附图说明
图1为一种基于属性敏感交互的时序社交媒体流行度预测方法的流程图;
图2为本发明对社交媒体帖子数据进行多模态特征编码的示意图;
图3为本发明分别采用长短期记忆网络和卷积神经网络捕捉用户-属性偏好的长期变化趋势和短期波动的示意图;
图4为基于属性敏感交互的时序社交媒体流行度预测方法的网络结构图;
图5为一种基于属性敏感交互的时序社交媒体流行度预测装置的结构示意图;
图6为一种基于属性敏感交互的时序社交媒体流行度预测电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
实施例1
一种基于属性敏感交互的时序社交媒体流行度预测方法,参见图1,该方法包括以下步骤:
101:采用不同的编码策略对社交媒体帖子的多类型数据进行处理,提取帖子的多模态特征,并构建帖子-属性关联矩阵;
本发明实施例对社交媒体帖子的多类型数据(例如:图片、标题、标签、用户信息等)进行充分挖掘,得到视觉特征、文本特征、数值特征以及附加用户特征(参见图2),并据此构建帖子-属性关联矩阵。
102:根据用户的历史社交行为,构建时序过程的用户-属性关联矩阵;
本发明实施例根据用户在不同时刻的行为状态信息,动态地构建用户-属性关联矩阵中的每一个元素。
103:分别利用帖子-属性关联矩阵和用户-属性关联矩阵中的已知元素对未知元素进行推断,弥补稀疏矩阵带来的模型学习困难的问题;
本发明实施例采用深度残差网络对关联矩阵中的已知元素进行表征,并采用平方损失函数进行训练,最终通过得到的用户、帖子以及属性的潜在表示分别获得相对平滑的帖子-属性关联矩阵和用户-属性关联矩阵,解决其稀疏性所带来的模型学习困难的问题。
104:对于用户-属性关联矩阵中的每一个元素序列,分别采用长短期记忆网络和卷积神经网络捕捉用户-属性偏好的长期变化趋势和短期波动;
考虑到用户的属性偏好会随着时间的推移不断发生变化,本发明实施例根据用户-属性关联矩阵中的每一个元素序列,分别动态地构建表示用户-属性偏好长期变化趋势的矩阵以及用户-属性偏好短期波动的矩阵。
105:以各种属性为桥梁,分析帖子与用户之间的匹配等级;
现有技术中对于多模态特征仅仅进行简单的线性整合,忽略了不同特征之间存在的重要关联,本发明实施例基于社交媒体的属性信息进行交互式学习,得到帖子与不同社交网络用户之间的匹配程度,更强有力地表征其受欢迎程度,弥补了之前研究的盲点。
106:采用注意力机制计算帖子对不同用户的吸引程度;
具体实现时,考虑到社交网络用户参与消息的稀疏性,本发明实施例采用注意力网络整合来自不同用户的偏好,进而在总体上获得更加精准的帖子吸引用户程度的表征。
107:将上述得到的不同时刻帖子对用户吸引程度的表征与其它多模态特征进行整合,并构建时序衰减损失函数进行回归训练,使得模型充分利用各种有效特征进行流行度分数的精准预测,基于预测结果对社交网络的服务质量进行优化。
本发明实施例将时间过程和内容特征进行深度融合,解决现有技术中仅单独致力于构建时序过程或简单地提取手工特征,所导致的模型表达能力弱、预测不精准的问题。
此外,针对模型在帖子发布后的早期阶段无法充分利用有关时间序列的有效特征,所导致的预测不精准问题,本发明实施例通过构建时序衰减损失函数,使得模型更加关注流行度变化的早期阶段,从而进一步优化预测性能。
综上所述,本发明实施例基于属性敏感交互提出全新方法,并设计全新的网络结构进行时间过程和内容特征的深度融合,提高了流行度预测的准确度,并基于预测结果对社交网络的服务质量进行优化,过滤掉一些无关紧要的内容,从而帮助人们摆脱信息过载的困扰,维护了网站的实用性,提高了用户的体验度。
实施例2
下面结合具体的实例、计算公式对实施例1中的方案进行进一步地介绍,详见下文描述:
201:采用不同的编码策略对社交媒体帖子的多类型数据进行处理,提取帖子的多模态特征,并构建帖子-属性关联矩阵;
其中,上述步骤201主要包括:
视觉特征:利用预训练的场景图生成器从帖子的Image(图像)中提取结构性的<主语-谓语-宾语>三元组,然后采用GloVe模型分别编码三元组的每个部分,最终对它们进行连接以及平均池化获得帖子的视觉特征。
文本特征:对于Alltags(标签)和Title(标题),采用TF-IDF(词频-逆文本频率指数)算法计算一个字词在整个语料中的重要程度,利用GloVe模型捕获词的语义及语法信息,并计算标签个数以及标题长度。
数值特征:包括时空特征和混合特征。时间特征涉及小时、天数、星期、一周中的小时、一年中的周数、Photo firstdate(照片第一次上传的时间)和Photofirstdatetaken(照片第一次拍摄的时间);空间特征涉及Longitude(经度)、Latitude(纬度)和Geoaccuracy(地理位置的精度);混合特征涉及Uid(用户ID)、Category(类别)、Subcategory(子类别)、Concept(概念)、Mediatype(媒体类型)、Ispro(是否专业)以及Ispublic(是否公开),本发明实施例使用标签编码将它们转换为数值特征。此外,本发明实施例计算每个用户的帖子数量和图像数量作为两个重要的特征项。
附加用户特征:根据数据集提供的网址从用户主页收集额外的用户信息,包括:Followercount(粉丝数)、Followingcount(关注数)、Totalviews(总浏览量)、Totaltags(总标签数)和Totalfaves(总喜爱数)。此外,本发明实施例计算Meanviews(平均浏览量),Meantags(平均标签数)和Meafaves(平均喜爱数)作为特征项。
进一步地,每个社交媒体帖子的内容都涵盖几种特定的属性,例如:体育中的“足球”和动物中的“昆虫”。本发明实施例利用提取的多模态特征构成社交媒体帖子的属性信息,并根据显式的属性信息构建帖子-属性关联矩阵,每个元素表示帖子是否包含潜在的属性,定义为:
202:根据用户的历史社交行为,构建时序过程的用户-属性关联矩阵;
直观上来讲,社交网络用户会更喜欢发布或浏览包含他们最关心的属性的帖子,而一个帖子由于其受欢迎的属性可能会吸引许多用户的青睐。因此,代替直接使用提取的特征进行流行度学习,本发明实施例以社交媒体的属性信息为桥梁,将帖子-用户关联划分为帖子-属性关联和用户-属性关联,从而可以根据各种属性合理地捕捉用户的偏好,同时结合上述帖子-属性关联矩阵获得帖子的受欢迎程度。
203:利用关联矩阵中的已知元素对未知元素进行推断,弥补稀疏矩阵带来的模型学习困难的问题;
其中,社交媒体属性的范围较广,导致帖子-属性关联矩阵和用户-属性关联矩阵中存在很多缺失项,这种稀疏性为学习动态的成对用户-帖子偏好带来了困难。因此,本发明实施例创新性地利用关联矩阵中的已知元素,采用平方损失函数得到关于帖子、用户以及属性的潜在表示,并对两矩阵中的缺失项进行推断。
其中,、和分别为经过训练后的帖子、属性和用户的潜在表示;为更新后的帖子-属性关联矩阵中第行第列的元素,表示帖子和属性之间的完全估计;为更新后的用户-属性关联矩阵中第第列的元素,表示时刻用户和属性之间的完全估计。
204:对于用户-属性关联矩阵中的每一个元素序列,分别采用长短期记忆网络和卷积神经网络捕捉用户-属性偏好的长期变化趋势和短期波动;
其中,社交网络用户的偏好随着时间的推移不断变化,并且由于外部因素的影响,例如好友的转发、推荐等,导致其突然发生改变。大多数现有工作基于外部影响的假设或基于手工提取过程进行建模来获得短期波动,然而许多外部因素是不可预测的,并且可能涵盖不同的范围和持续时间。因此,特定的假设限制了模型的表达能力,并且很难人为地划定波动的数量和形状。
基于此,本发明实施例采用长短期记忆网络(LSTM)和卷积神经网络(CNN)来自动提取用户-属性偏好的长期变化趋势和短期波动(参见图3)。LSTM用于处理用户-属性关联矩阵中的元素序列,得到矩阵,表征用户-属性偏好的长期变化趋势;CNN则用来得到矩阵,表征用户-属性偏好的短期波动。
205:以各种属性为桥梁,分析帖子与用户之间的匹配等级;
其中,本发明实施例首先根据完全估计的帖子-属性关联矩阵和用户-属性偏好的长期变化趋势矩阵,以各种属性为桥梁,对用户的偏好和帖子的流行度进行关联。为了计算帖子与用户关于各种属性的匹配程度,本发明实施例构建如下表示:
其中,“”表示逐元素乘积,和分别是完全估计的帖子-属性关联矩阵和用户-属性偏好的长期变化趋势矩阵的第行和第行,为属性的潜在表示。 利用用户与帖子之间的关联作为注意力权重,在所有属性上产生组合值,从而生成一种更具细粒度的属性感知的时序帖子表示。
通过构建上述三种帖子与用户之间的匹配程度,促进更加精准的用户-帖子交互式学习。
206:采用注意力机制计算帖子对不同用户的吸引程度;
其中,随着社交网络的快速发展,社交网络用户规模不断扩大,其参与的消息也呈现出了一定的稀疏性,即大部分用户为非活跃用户、参与的帖子总数很少,只有少部分的活跃用户参与了大量帖子的传播过程。因此,本发明实施例对于上述匹配程度,分别使用注意力网络,获取不同用户对帖子流行度的贡献值、和:
207:将上述得到的不同时刻帖子对用户吸引程度的表征与其它多模态特征进行整合,并构建时序衰减损失函数进行回归训练,使得模型充分利用各种有效特征进行流行度分数的精准预测,满足了实际应用中的需要,提高了用户的实用性和体验度。
其中,时序流行度预测建模依赖于一系列的历史过程,并且随着时间的推移表现得越来越好,因为预测的流行度分数越来越接近于帖子最终平稳阶段的流行程度。然而,在帖子发布之后的一小段时间里,很难全面了解其整体的流行趋势。相反,帖子本身包含的媒体数据不会随时间的推移而变化,因此其对于预测帖子在发布早期阶段的流行程度更加可靠,然而它未能捕捉其它有关时序变化的有效特征。
基于此,本发明实施例整合时间过程和内容特征来充分利用它们各自的优势。采用时序注意力融合网络,将帖子对所有用户吸引程度的表征、和,与其它多模态特征的潜在表示进行整合,预测帖子的流行度分数,而这种灵活的网络架构也进一步实现了对有用特征进行增强、对无用特征进行抑制的功能:
进一步地,由于在帖子发布后的早前阶段,模型难以捕捉其有关时间序列的有效特征,因而无法对流行度分数进行准确预测。本发明实施例创新性地构建一种时间衰减因子,与平方损失函数相乘进行回归训练,使模型更加关注流行度变化的早期阶段,从而优化预测性能:
实施例3
下面结合具体的算例对实施例1和2中的方案进行可行性验证,详见下文描述:
实际应用中,对于在社交网站上发布的帖子,首先采用不同的编码策略对其包含的多类型数据(图片、标题、标签、用户信息等)进行处理,得到多模态特征(视觉特征、文本特征、数值特征以及附加用户特征);然后从中提取出帖子的属性信息,并根据训练好的残差网络进行完全估计,补充缺失元素,进而得到较为平滑的帖子属性的向量表示;接下来根据不同时刻社交网络中不同用户的属性偏好,采用注意力网络得到帖子对用户吸引程度的动态表征、和;最终通过时序注意力网络,将上述表征与多模态特征的嵌入表示、、和进行深度融合,预测出帖子在发布后不同时刻的流行度分数。
本发明实施例通过上述过程中对帖子流行度的精准预测,可以在一定程度上辅助社交媒体平台进行质量控制,进而帮助人们摆脱信息过载的困扰。
实施例4
一种基于属性敏感交互的时序社交媒体流行度预测装置,参见图5,该装置包括:
第一获取模块,用于分别利用帖子-属性关联矩阵和用户-属性关联矩阵中的已知元素,采用平方损失函数得到关于帖子、用户以及属性的潜在表示,并对两矩阵中的缺失项进行推断;
第二获取模块,用于对用户-属性关联矩阵中的每一个元素序列,分别采用长短期记忆网络和卷积神经网络捕捉用户-属性偏好的长期变化趋势和短期波动;
第三获取模块,用于基于完全估计的帖子-属性关联矩阵、用户-属性偏好的长期变化趋势矩阵,获取帖子与用户关于属性的第一匹配程度;基于完全估计的帖子-属性关联矩阵、用户-属性偏好的短期波动矩阵,获取帖子与用户关于属性的第二匹配程度;获取帖子和用户关于属性的潜在表示之间的第三匹配程度;
学习模块,用于对第一匹配程度、第二匹配程度及第三匹配程度分别使用注意力网络,获取不同用户对帖子流行度的贡献值;
预测与优化模块,用于根据不同用户对帖子流行度的贡献值,得到更新后的帖子对所有用户吸引程度的表征,将对所有用户吸引程度的表征与多模态特征的潜在表示进行整合,预测帖子的流行度分数,并基于流行度分数对社交网站的服务质量进行优化。
综上所述,本发明实施例基于属性敏感交互提出全新装置,并设计全新的网络结构进行时间过程和内容特征的深度融合,提高了流行度预测的准确度,并基于预测结果对社交网络的服务质量进行优化,维护了网站的实用性,提高了用户的体验度。
实施例5
一种基于属性敏感交互的时序社交媒体流行度预测电子设备,参见图6,该电子设备包括:处理器和存储器,存储器中存储有程序指令,处理器调用存储器中存储的程序指令以使电子设备执行实施例1中的以下方法步骤:
分别利用帖子-属性关联矩阵和用户-属性关联矩阵中的已知元素,采用平方损失函数得到关于帖子、用户以及属性的潜在表示,并对两矩阵中的缺失项进行推断;
对用户-属性关联矩阵中的每一个元素序列,分别采用长短期记忆网络和卷积神经网络捕捉用户-属性偏好的长期变化趋势和短期波动;
基于完全估计的帖子-属性关联矩阵、用户-属性偏好的长期变化趋势矩阵,获取帖子与用户关于属性的第一匹配程度;基于完全估计的帖子-属性关联矩阵、用户-属性偏好的短期波动矩阵,获取帖子与用户关于属性的第二匹配程度;获取帖子和用户关于属性的潜在表示之间的第三匹配程度;
对第一匹配程度、第二匹配程度及第三匹配程度分别使用注意力网络,获取不同用户对帖子流行度的贡献值;
根据不同用户对帖子流行度的贡献值,得到更新后的帖子对所有用户吸引程度的表征,将对所有用户吸引程度的表征与多模态特征的潜在表示进行整合,预测帖子的流行度分数,并基于流行度分数对社交网站的服务质量进行优化。
其中,帖子-属性关联矩阵为:
进一步地,用户-属性关联矩阵为:
进一步地,分别利用帖子-属性关联矩阵和用户-属性关联矩阵中的已知元素,采用平方损失函数得到关于帖子、用户以及属性的潜在表示,并对两矩阵中的缺失项进行推断具体为:
其中,、和分别为经过训练后的帖子、属性和用户的潜在表示;为更新后的帖子-属性关联矩阵中第行第列的元素,表示帖子和属性之间的完全估计;为更新后的用户-属性关联矩阵中第行第列的元素,表示时刻用户和属性之间的完全估计。
其中,第一匹配程度为:
第二匹配程度为:
其中,根据不同用户对帖子流行度的贡献值,得到更新后的帖子对所有用户吸引程度的表征具体为:对不同用户的贡献值、和分别进行归一化处理,处理后的结果分别与第一匹配程度、第二匹配程度和第三匹配程度对应相乘,并分别求和得到各自的表征值。
进一步地,该电子设备还包括:构建一时间衰减因子,与平方损失函数相乘进行回归训练,用于优化预测性能。
这里需要指出的是,以上实施例中的电子设备描述是与实施例中的方法描述相对应的,本发明实施例在此不做赘述。
上述的处理器1和存储器2的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件,具体实现时,本发明实施例对执行主体不做限制,根据实际应用中的需要进行选择。
存储器2和处理器1之间通过总线3传输数据信号,本发明实施例对此不做赘述。
基于同一发明构思,本发明实施例还提供了一种计算机可读存储介质,存储介质包括存储的程序,在程序运行时控制存储介质所在的设备执行上述实施例中的方法步骤。
该计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘等。
这里需要指出的是,以上实施例中的可读存储介质描述是与实施例中的方法描述相对应的,本发明实施例在此不做赘述。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例的流程或功能。
计算机可以是通用计算机、专用计算机、计算机网络、或者其它可编程装置。计算机指令可以存储在计算机可读存储介质中,或者通过计算机可读存储介质进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质或者半导体介质等。
本发明实施例对各器件的型号除做特殊说明的以外,其它器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于属性敏感交互的时序社交媒体流行度预测方法,其特征在于,所述方法包括:
分别利用帖子-属性关联矩阵和用户-属性关联矩阵中的已知元素,采用平方损失函数得到关于帖子、用户以及属性的潜在表示,并对两矩阵中的缺失项进行推断;
对用户-属性关联矩阵中的每一个元素序列,分别采用长短期记忆网络和卷积神经网络捕捉用户-属性偏好的长期变化趋势和短期波动;
基于完全估计的帖子-属性关联矩阵、用户-属性偏好的长期变化趋势矩阵,获取帖子与用户关于属性的第一匹配程度;基于完全估计的帖子-属性关联矩阵、用户-属性偏好的短期波动矩阵,获取帖子与用户关于属性的第二匹配程度;获取帖子和用户关于属性的潜在表示之间的第三匹配程度;
对第一匹配程度、第二匹配程度及第三匹配程度分别使用注意力网络,获取不同用户对帖子流行度的贡献值;
根据不同用户对帖子流行度的贡献值,得到更新后的帖子对所有用户吸引程度的表征,将对所有用户吸引程度的表征与多模态特征的潜在表示进行整合,预测帖子的流行度分数,并基于流行度分数对社交网站的服务质量进行优化;
所述帖子-属性关联矩阵为:
每个元素cik∈C表示帖子mi∈M是否包含潜在的属性sk∈S,定义为:
其中,M为帖子集合,mi表示第i个帖子;S为属性集合,sk表示第k种属性;C为帖子-属性关联矩阵;
所述用户-属性关联矩阵为:
每个元素djk,t∈Dt表示在t时刻,用户nj∈N对潜在属性sk∈S的偏好程度,定义为:
其中,xjk,t为截止到t时刻,用户nj发布的包含属性sk的帖子的数目;N为用户集合,nj表示第j个用户;Dt为t时刻的用户-属性关联矩阵;
将对所有用户吸引程度的表征与多模态特征的潜在表示进行整合,预测帖子的流行度分数si,t为:
4.根据权利要求3所述的一种基于属性敏感交互的时序社交媒体流行度预测方法,其特征在于,所述根据不同用户对帖子流行度的贡献值,得到更新后的帖子对所有用户吸引程度的表征具体为:
对不同用户的贡献值分别进行归一化处理,处理后的结果分别与第一匹配程度、第二匹配程度和第三匹配程度对应相乘,并分别求和得到各自的表征值。
5.根据权利要求1所述的一种基于属性敏感交互的时序社交媒体流行度预测方法,其特征在于,所述方法还包括:构建一时间衰减因子,与平方损失函数相乘进行回归训练,用于优化预测性能。
6.一种基于属性敏感交互的时序社交媒体流行度预测装置,其特征在于,所述装置包括:
第一获取模块,用于分别利用帖子-属性关联矩阵和用户-属性关联矩阵中的已知元素,采用平方损失函数得到关于帖子、用户以及属性的潜在表示,并对两矩阵中的缺失项进行推断;
第二获取模块,用于对用户-属性关联矩阵中的每一个元素序列,分别采用长短期记忆网络和卷积神经网络捕捉用户-属性偏好的长期变化趋势和短期波动;
第三获取模块,用于基于完全估计的帖子-属性关联矩阵、用户-属性偏好的长期变化趋势矩阵,获取帖子与用户关于属性的第一匹配程度;基于完全估计的帖子-属性关联矩阵、用户-属性偏好的短期波动矩阵,获取帖子与用户关于属性的第二匹配程度:获取帖子和用户关于属性的潜在表示之间的第三匹配程度;
学习模块,用于对第一匹配程度、第二匹配程度及第三匹配程度分别使用注意力网络,获取不同用户对帖子流行度的贡献值;
预测与优化模块,用于根据不同用户对帖子流行度的贡献值,得到更新后的帖子对所有用户吸引程度的表征,将对所有用户吸引程度的表征与多模态特征的潜在表示进行整合,预测帖子的流行度分数,并基于流行度分数对社交网站的服务质量进行优化;
所述帖子-属性关联矩阵为:
每个元素cik∈C表示帖子mi∈M是否包含潜在的属性sk∈S,定义为:
其中,M为帖子集合,mi表示第i个帖子;S为属性集合,sk表示第k种属性;C为帖子-属性关联矩阵;
所述用户-属性关联矩阵为:
每个元素djk,t∈Dt表示在t时刻,用户nj∈N对潜在属性sk∈S的偏好程度,定义为:
其中,xjk,t为截止到t时刻,用户nj发布的包含属性sk的帖子的数目;N为用户集合,nj表示第j个用户;Dt为t时刻的用户-属性关联矩阵;
将对所有用户吸引程度的表征与多模态特征的潜在表示进行整合,预测帖子的流行度分数si,t为:
7.一种基于属性敏感交互的时序社交媒体流行度预测电子设备,其特征在于,所述电子设备包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使电子设备执行权利要求1-5中的任一项所述的方法步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行权利要求1-5中的任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211479412.9A CN115545349B (zh) | 2022-11-24 | 2022-11-24 | 基于属性敏感交互的时序社交媒体流行度预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211479412.9A CN115545349B (zh) | 2022-11-24 | 2022-11-24 | 基于属性敏感交互的时序社交媒体流行度预测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115545349A CN115545349A (zh) | 2022-12-30 |
CN115545349B true CN115545349B (zh) | 2023-04-07 |
Family
ID=84720326
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211479412.9A Active CN115545349B (zh) | 2022-11-24 | 2022-11-24 | 基于属性敏感交互的时序社交媒体流行度预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115545349B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116228282B (zh) * | 2023-05-09 | 2023-08-11 | 湖南惟客科技集团有限公司 | 一种用户数据倾向的智能商品分销方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2937824A1 (en) * | 2014-04-22 | 2015-10-28 | Athens Technology Center S.A. | System and method for evaluating the credibility of news emerging in social networks for information and news reporting purposes |
CN112036659A (zh) * | 2020-09-09 | 2020-12-04 | 中国科学技术大学 | 基于组合策略的社交网络媒体信息流行度预测方法 |
CN113657116A (zh) * | 2021-08-05 | 2021-11-16 | 天津大学 | 基于视觉语义关系的社交媒体流行度预测方法及装置 |
CN115017299A (zh) * | 2022-04-15 | 2022-09-06 | 天津大学 | 一种基于去噪图自编码器的无监督社交媒体摘要方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10832349B2 (en) * | 2014-06-02 | 2020-11-10 | International Business Machines Corporation | Modeling user attitudes toward a target from social media |
-
2022
- 2022-11-24 CN CN202211479412.9A patent/CN115545349B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2937824A1 (en) * | 2014-04-22 | 2015-10-28 | Athens Technology Center S.A. | System and method for evaluating the credibility of news emerging in social networks for information and news reporting purposes |
CN112036659A (zh) * | 2020-09-09 | 2020-12-04 | 中国科学技术大学 | 基于组合策略的社交网络媒体信息流行度预测方法 |
CN113657116A (zh) * | 2021-08-05 | 2021-11-16 | 天津大学 | 基于视觉语义关系的社交媒体流行度预测方法及装置 |
CN115017299A (zh) * | 2022-04-15 | 2022-09-06 | 天津大学 | 一种基于去噪图自编码器的无监督社交媒体摘要方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115545349A (zh) | 2022-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10958748B2 (en) | Resource push method and apparatus | |
CN109919316B (zh) | 获取网络表示学习向量的方法、装置和设备及存储介质 | |
CN111708901B (zh) | 多媒体资源推荐方法、装置、电子设备及存储介质 | |
CN111291261B (zh) | 融合标签和注意力机制的跨领域推荐方法及其实现系统 | |
Stone et al. | Autotagging facebook: Social network context improves photo annotation | |
CN112765480B (zh) | 一种信息推送方法、装置及计算机可读存储介质 | |
CN112052387B (zh) | 一种内容推荐方法、装置和计算机可读存储介质 | |
Salim et al. | Data analytics of social media 3.0: Privacy protection perspectives for integrating social media and Internet of Things (SM-IoT) systems | |
CN111400603A (zh) | 一种信息推送方法、装置、设备及计算机可读存储介质 | |
KR20210066754A (ko) | 연합 학습을 활용한 사용자 특성 분석을 위한 딥 러닝 모델 생성 방법 | |
CN112036659B (zh) | 基于组合策略的社交网络媒体信息流行度预测方法 | |
CN112749330B (zh) | 信息推送方法、装置、计算机设备和存储介质 | |
CN113761359B (zh) | 数据包推荐方法、装置、电子设备和存储介质 | |
CN112765482A (zh) | 产品投放方法、装置、设备及计算机可读介质 | |
CN115545349B (zh) | 基于属性敏感交互的时序社交媒体流行度预测方法及装置 | |
CN116628345B (zh) | 一种内容推荐方法、装置、电子设备和存储介质 | |
WO2023185320A1 (zh) | 冷启动对象推荐方法、装置、计算机设备和存储介质 | |
Karthikeyan et al. | Machine learning techniques application: social media, agriculture, and scheduling in distributed systems | |
CN113935251B (zh) | 用户行为预测模型的生成方法、用户行为预测方法及装置 | |
CN115470397B (zh) | 内容推荐方法、装置、计算机设备和存储介质 | |
CN117795502A (zh) | 消息传递系统中主题的演进 | |
CN114693409A (zh) | 产品匹配方法、装置、计算机设备、存储介质和程序产品 | |
CN114610913A (zh) | 多媒体数据的推荐方法、推荐模型训练方法及相关设备 | |
CN115482019A (zh) | 一种活动关注度预测方法、装置、电子设备和存储介质 | |
CN112785328A (zh) | 一种内容推送方法、装置及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
OL01 | Intention to license declared | ||
OL01 | Intention to license declared |