CN112883231B - 短视频流行度预测方法、系统、电子设备及存储介质 - Google Patents

短视频流行度预测方法、系统、电子设备及存储介质 Download PDF

Info

Publication number
CN112883231B
CN112883231B CN202110206067.0A CN202110206067A CN112883231B CN 112883231 B CN112883231 B CN 112883231B CN 202110206067 A CN202110206067 A CN 202110206067A CN 112883231 B CN112883231 B CN 112883231B
Authority
CN
China
Prior art keywords
short video
time
information
features
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110206067.0A
Other languages
English (en)
Other versions
CN112883231A (zh
Inventor
蔡君
张立安
刘燕
罗建桢
许迅妤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Polytechnic Normal University
Original Assignee
Guangdong Polytechnic Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Polytechnic Normal University filed Critical Guangdong Polytechnic Normal University
Priority to CN202110206067.0A priority Critical patent/CN112883231B/zh
Publication of CN112883231A publication Critical patent/CN112883231A/zh
Application granted granted Critical
Publication of CN112883231B publication Critical patent/CN112883231B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及一种短视频流行度预测方法、系统、电子设备及存储介质,其方法包括:获取短视频数据,包括文本信息、社交信息、时间序列信息;特征提取,将文本信息进行特征提取为文本特征表示,将社交信息、时间序列信息转成矩阵形式特征表示;将文本特征,将社交信息特征、时间序列信息特征转成图像三通道模式,对三通道的图像进行特征提取;将时间序列信息矩阵的顺序,按照与播放量序列的皮尔逊相关性系数的大小顺序依次排列,对时间进行归一化处理,将时间序列信息矩阵转成单通道图像;建立热门短视频预测模型进行短视频流行度预测。解决了内部噪声对短视频的影响,对循环神经网络LSTM的参数值充分利用,对流行度预测的准确值较好。

Description

短视频流行度预测方法、系统、电子设备及存储介质
技术领域
本发明涉及视频流行度预测技术领域,更具体地说,涉及一种短视频流行度预测方法、系统、电子设备及存储介质。
背景技术
在过去几年,智能设备出现前所未有的增长,使得用户能够用短视频的方式记录生活上传到社交媒体网站。短视频在许多方面有巨大的潜力,如在线营销,在线广告,网络缓存等。短视频在最近几年非常火爆,如当下的抖音,快手,哔哩哔哩视频网站等。
在视频的流行度预测上,目前的主流方法是对数线性方法,支持向量机回归方法,自编码器方法等。纯基于早期流行度预测的代表对数线性方法预测效果并不好,没有考虑冷启动的问题。后来添加与短视频信息相关的特征与早期的流行度一起预测流行度。支持向量机回归方法使用与视频视觉特征,赋予其权重的作用作为补充。自编码器方法讨论了内部噪声对短视频分析的不利影响,使用编码器编码视觉特征,社交特征等,编码成隐藏表示Z,作为LSTM网络的参数值,再使用早期流行度预测短视频的流行度。以上方法并没有解决好内部噪声对短视频的影响,对循环神经网络LSTM的参数值利用效果有限,对流行度预测的准确值较差。
因此,现有技术亟待有很大的进步。
发明内容
本发明要解决的技术问题在于现有技术中对循环神经网络LSTM的参数值利用效果有限,对流行度预测的准确值较差,针对现有技术的上述的缺陷,本发明一方面提供一种短视频流行度预测方法,包括:
S1、获取短视频数据,所述短视频数据包括文本信息、社交信息、时间序列信息;
S2、对所述短视频数据进行特征提取,将文本信息进行特征提取为文本特征表示,将社交信息、时间序列信息转成矩阵形式特征表示;
S3、将所述文本特征,将社交信息特征、时间序列信息特征转成图像的RGB三通道模式,对三通道的图像进行特征提取;
S4、将时间序列信息矩阵的顺序,按照与播放量序列的皮尔逊相关性系数的大小顺序依次排列,并对时间进行归一化处理,将时间序列信息矩阵转成单通道图像;
S5、建立热门短视频预测模型,将单通道图像输入热门短视频预测模型进行短视频流行度预测。
优选地,在所述对所述短视频数据进行特征提取步骤之前还包括:
对所述短视频数据进行清洗、填充。
优选地,所述步骤S3、将所述文本特征,将社交信息特征、时间序列信息特征转成图像的RGB三通道模式,对三通道的图像进行特征提取进一步包括:
S31、使用Bi-RNN模型将文本信息进行特征提取为文本表示,转成图像的R通道;
S32、将社交信息进行填充为二维的矩阵形式,转成图像的G通道;
S33、将时间序列信息转为时间矩阵的形式再进行降维,转成图像的B通道。
优选地,所述皮尔逊相关性系数包括:
弹幕系数总体平均为0.816~0.916,点赞系数总体平均为0.859~0.959,转发系数总体平均为0.810~0.910,硬币系数总体平均为0.838~0.938,评论系数总体平均0.789~0.889,收藏系数总体平均为0.845~0.945。
优选地,所述步骤S5、建立热门短视频预测模型,将单通道图像输入热门短视频预测模型进行短视频流行度预测进一步包括:
S51、根据热门短视频预测问题,设定循环递归卷积神经网络模型;
S52、使用样本学习步骤S51设定的循环递归卷积神经网络模型的参数,建立热门短视频预测模型,进行参数估计;
S53、使用均方根误差对循环递归卷积神经网络模型的拟合度、显著性进行检验;
S54、将建立的热门短视频预测模型应用于预测热门短视频。
优选地,所述循环递归卷积神经网络模型包括编码网络和预测网络。
相应地,本发明还提供了一种短视频流行度预测系统,包括:
数据采集模块,用于获取短视频数据,所述短视频数据包括文本信息、社交信息、时间序列信息;
特征提取模块,用于对所述短视频数据进行特征提取,将文本信息进行特征提取为文本特征表示,将社交信息、时间序列信息转成矩阵形式特征表示;
特征转化成图像模块,用于将所述文本特征,将社交信息特征、时间序列信息特征转成图像的RGB三通道模式,对三通道的图像进行特征提取;
数据分析模块,用于将时间序列信息矩阵的顺序,按照与播放量序列的皮尔逊相关性系数的大小顺序依次排列,并对时间进行归一化处理,将时间序列信息矩阵转成单通道图像;
短视频流行度预测模块,用于建立热门短视频预测模型,将单通道图像输入热门短视频预测模型进行短视频流行度预测。
优选地,所述短视频流行度预测系统还包括数据预处理模块,所述数据预处理模块用于对所述短视频数据进行清洗、填充。
另一方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现上述短视频流行度预测方法的步骤。
另一方面,本发明还提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述短视频流行度预测方法的步骤。
实施本发明的短视频流行度预测方法、系统、电子设备及存储介质,具有以下有益效果:通过计算得出播放量序列与其它时间序列之间的皮尔逊相关系数超过了0.9;时间矩阵按照与播放量序列的皮尔逊相关系数大小关系依次排列,并对数据进行归一化处理,将时间矩阵转成单通道图像;将社交特征,文本特征,时间矩阵进行归一化处理,构造成图像的R、G、B三通道,通过ResNet网络将图像进行特征提取得到其高维的特征,通过两个特殊的连接层输出作为ITRCN网络的隐藏状态和细胞状态;ITRCN模型适用于时间矩阵之间具有强相关的皮尔逊相关系,将时间序列上的预测转变为时空上的预测,解决了内部噪声对短视频的影响,对循环神经网络LSTM的参数值充分利用,对流行度预测的准确值较好。
附图说明
通过阅读下文优选的具体实施方式中的详细描述,本发明各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。说明书附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。显而易见地,下面描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明一种短视频流行度预测方法流程图。
图2是图1中采用的ITRCN模型结构示意图;
图3是图1中采用的ResNet7模型结构示意图;
图4是本发明一种短视频流行度预测系统结构示意图。
图5为根据本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
下面结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下,所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供的短视频流行度预测方法可应用于各种服务器端、终端。该服务器端、终端设备包括但不限于个人计算机、服务器计算机、手持式或膝上型设备、移动设备(如手机、移动电话、平板电脑、PDA、媒体播放器等)、消费型电子设备、车载计算机、智能手表、电视机,以及其他具有显示屏幕的终端设备等等。
实施例一
图1是本发明一种短视频流行度预测方法流程图;图2是图1中采用的ITRCN模型结构示意图;图3是图1中采用的ResNet7模型结构示意图。请参阅图1~图3,在本发明第一实施例提供的短视频流行度预测方法中,至少包括步骤:
S1、获取短视频数据,短视频数据包括文本信息、社交信息、时间序列信息;
短视频经过近十年的发展,成为信息最重要的载体,成就万亿级市场。经历了诞生、成长、蜕变、应用的过程。短视频短小零星,具有碎片属性。短视频是一个便捷的载体,散发着传播的魅力,是目前最方便,最高效的信息载体。获取短视频的途径很多,例如现在流行的抖音、快手、哔哩哔哩弹幕网(弹幕视频网站,全名bilibili,亦称哔哩哔哩,或简称为B站)、或者其他视频网站等。大数据是短视频发展的重要因素,人工智能算法,高效的范围分拣,是短视频精准营销的表现。短视频数据包括文本信息、社交信息、时间序列信息。可以使用多进程多线程的方式采集短视频数据。
S2、对短视频数据进行特征提取,将文本信息进行特征提取为文本特征表示,将社交信息、时间序列信息转成矩阵形式特征表示;
在对短视频数据进行特征提取步骤之前还包括:对短视频数据进行清洗、填充。将短视频数据分成文本数据、社交数据、时间序列数据,并对文本数据、社交数据、时间序列数据分类别进行数据处理。
文本特征:
文本编码器将标题-文本的每个词组Wi j嵌入到低维向量xi j中,其中Wi j是第i个短视频文本的第j个词组。然后使用Bi-RNN对序列进行编码。Bi-RNN通过考虑每个词语的上下文信息将一个序列映射到另一个序列得到文本表示:
其中,每个hi j总结了词语wi j的上下文信息。
将文本表示转成矩阵的形式,然后矩阵进行归一化在(0,255)。
社交特征:
假设社交网络序列为s=(s1,s2,s3,s4)。其中s1,s2,s3,s4分别是上传者的粉丝数,总发布视频数,总观看数,总获赞数。
将社交网络序列转成矩阵的形式,并对矩阵进行填充,归一化在(0,255)。
时间序列:
将时间序列矩阵x(t)进行压缩,归一化在(0,255)。
S3、将文本特征,将社交信息特征、时间序列信息特征转成图像的RGB三通道模式,对三通道的图像进行特征提取;
将时间矩阵转换为图像,将不同时间序列作为一个整体,去预测未来的时间矩阵。具体实施时,步骤S3进一步包括:
S31、使用Bi-RNN模型将文本信息进行特征提取为文本表示,转成图像的R通道;
将文本表示转成矩阵的形式,然后矩阵进行归一化在(0,255)之后,再转换为图像的R模式。
S32、将社交信息进行填充为二维的矩阵形式,转成图像的G通道;
将社交网络序列转成矩阵的形式,并对矩阵进行填充,归一化在(0,255)之后,再转换为图像G模式。
S33、将时间序列信息转为时间矩阵的形式再进行降维,转成图像的B通道。
将时间序列矩阵x(t)进行压缩,归一化在(0,255)之后,再转换为图像B模式。
S4、将时间序列信息矩阵的顺序,按照与播放量序列的皮尔逊相关性系数的大小顺序依次排列,并对时间进行归一化处理,将时间序列信息矩阵转成单通道图像;
皮尔逊相关系数( Pearson correlation coefficient),又称皮尔逊积矩相关系数(Pearson product-moment correlation coefficient,简称PPMCC或PCCs),是用于度量两个变量X和Y之间的相关程度(线性相关),其值介于-1与1之间。通过采集的几万短视频数据验证,分别计算其它的时间序列与播放量序列的皮尔逊相关程度。得出皮尔逊相关性系数包括:
弹幕系数总体平均为0.816~0.916,点赞系数总体平均为0.859~0.959,转发系数总体平均为0.810~0.910,硬币系数总体平均为0.838~0.938,评论系数总体平均0.789~0.889,收藏系数总体平均为0.845~0.945。
按照时间序列的皮尔逊相关系数大小排列构造时间矩阵。将时间矩阵输入预测模型中。下一步将建立预测模型进行预测。
S5、建立热门短视频预测模型,将单通道图像输入热门短视频预测模型进行短视频流行度预测。
基于图像的方法,主要由卷积神经网络(CNN)和长短期记忆网络(LSTM)的深度学习架构配置。
具体实施时,建立热门短视频预测模型,将单通道图像输入热门短视频预测模型进行短视频流行度预测进一步包括:
S51、根据热门短视频预测问题,设定循环递归卷积神经网络模型;
循环递归卷积神经网络模型包括编码网络和预测网络。基于图像的方法,主要由卷积神经网络(CNN)和长短期记忆网络(LSTM)的深度学习架构来进行配置。ITRCN模型由编码网络和预测网络组成,编码网络包含捕获影响因素特征网络和捕获时空矩阵网络.预测网络是长短时记忆网络,用于挖掘整个时间矩阵时间的交互特征。捕获影响因素网络提取短视频的影响因素特征并编码成鲁棒性更强的特征,使用两个特殊的全连接层对编码特征转换为长短时记忆网络(LSTM)的初始上下文变量和隐藏状态。LSTM网络用于捕获时间序列的时间特征,时间矩阵转换为图像集合得到更显著的成像特征将更容易被模型预测。ITRCN将时间矩阵转换为图像,利用CNN提取全局交互特征,将这些输出向量输入LSTM网络学习时间特征。
将社交特征、文本特征、时间序列特征构造成图像的三通道,假设为O=(h,s,x)。将影响因素特征作为LeNet7的输入。LeNet7的结构包括三个部分,分别是输入,特征提取,输出。过程可以描述为:
其中,/>,/>,/>分别是卷积层的输入,输出,权重和加性偏差,其中j,k是卷积滤波器的指数,σ是激活函数。
在ITRCN网络里,t-1时刻的细胞状态能够为t时刻细胞带来过去的信息,t-1时刻隐藏状态与t时刻输入构成了输出门。细胞状态和隐藏状态的信息是ITRCN网络不可缺失的信息。
通过两个全连接层把描述短视频影响因素的信息作为ITRCN网络的细胞状态C0和隐藏状态h0.过程描述为:
其中Wc和Wh是连接层的权值,bc和bh是连接层的偏置。
S52、使用样本学习步骤S51设定的循环递归卷积神经网络模型的参数,建立热门短视频预测模型,进行参数估计;
S53、采用A检验,B检验分布对循环递归卷积神经网络模型的拟合度、显著性进行检验;
S54、将建立的热门短视频预测模型应用于预测热门短视频。
在Bi-RNN模型中,特征按CNN层,全连接层和LSTM层的顺序传递。在训练过程中,CNNs捕获空间特征。从最后一个提取层可以得到CNN的输出,过程可以描述为:
其中L是CNN的最后一层,pool(.)表示池化层操作,flatten(.)表示级联操作.
然后,通过全连接层将向量转化为时空矩阵M(t)作为LSTM网络的输入.过程可以描述为:
其中是CNNs对时间间隔t的输出,WF和bF是连接层的权值和偏置。
两层LSTM接受连接层导出的时空矩阵,将LSTM过程表示为lstm,则第e个LSTM层的输出可写为:
因此,时间递归神经网络模型的总体输出是:
其中G是LSTM的最后一层.
以前10个时间间隔的时空矩阵作为输入,可以写为:
其中Mt是时间间隔t的时空矩阵,时间递归卷积网络从时间特征中提取时空特征对短视频下一时刻流行度精确预测。
视频噪音是由传感器、扫描仪电路或数码相机产生的图像的亮度或彩色随机变动。视频噪音也源自于胶片粒度和不变的量子检测器中的点噪声。视频噪音通常被看作图像获取中不需要的成分。短视频里同样经常会出现噪音,或者因为录音环境不封闭,产生很多杂音。可见,实施本实施例,通过计算得出播放量序列与其它时间序列之间的皮尔逊相关系数超过了0.9;时间矩阵按照与播放量序列的皮尔逊相关系数大小关系依次排列,并对数据进行归一化处理,将时间矩阵转成单通道图像;将社交特征,文本特征,时间矩阵进行归一化处理,构造成图像的R、G、B三通道,通过ResNet网络将图像进行特征提取得到其高维的特征,通过两个特殊的连接层输出作为ITRCN网络的隐藏状态和细胞状态;ITRCN模型适用于时间矩阵之间具有强相关的皮尔逊相关系,将时间序列上的预测转变为时空上的预测,解决了内部噪声对短视频的影响,对循环神经网络LSTM的参数值充分利用,对流行度预测的准确值较好。
实施例二
图4是本发明一种短视频流行度预测系统结构示意图。如图4所示,一种短视频流行度预测系统,至少包括:
数据采集模块10,用于获取短视频数据,短视频数据包括文本信息、社交信息、时间序列信息;
短视频经过近十年的发展,成为信息最重要的载体,成就万亿级市场。经历了诞生、成长、蜕变、应用的过程。短视频短小零星,具有碎片属性。短视频是一个便捷的载体,散发着传播的魅力,是目前最方便,最高效的信息载体。获取短视频的途径很多,例如现在流行的抖音、快手、哔哩哔哩弹幕网(弹幕视频网站,全名bilibili,亦称哔哩哔哩,或简称为B站)、或者其他视频网站等。大数据是短视频发展的重要因素,人工智能算法,高效的范围分拣,是短视频精准营销的表现。短视频数据包括文本信息、社交信息、时间序列信息。可以使用多进程多线程的方式采集短视频数据。
特征提取模块20,用于对短视频数据进行特征提取,将文本信息进行特征提取为文本特征表示,将社交信息、时间序列信息转成矩阵形式特征表示;
在对短视频数据进行特征提取步骤之前还包括:对短视频数据进行清洗、填充。将短视频数据分成文本数据、社交数据、时间序列数据,并对文本数据、社交数据、时间序列数据分类别进行数据处理。
文本特征:
文本编码器将标题-文本的每个词组Wi j嵌入到低维向量xi j中,其中Wi j是第i个短视频文本的第j个词组。然后使用Bi-RNN对序列进行编码。Bi-RNN通过考虑每个词语的上下文信息将一个序列映射到另一个序列得到文本表示:
其中,每个hi j总结了词语wi j的上下文信息。
将文本表示转成矩阵的形式,然后矩阵进行归一化在(0,255)。
社交特征:
假设社交网络序列为s=(s1,s2,s3,s4)。其中s1,s2,s3,s4分别是上传者的粉丝数,总发布视频数,总观看数,总获赞数。
将社交网络序列转成矩阵的形式,并对矩阵进行填充,归一化在(0,255)。
时间序列:
将时间序列矩阵x(t)进行压缩,归一化在(0,255)。
特征转化成图像模块30,用于将文本特征,将社交信息特征、时间序列信息特征转成图像的RGB三通道模式,对三通道的图像进行特征提取;
将时间矩阵转换为图像,将不同时间序列作为一个整体,去预测未来的时间矩阵。使用Bi-RNN模型将文本信息进行特征提取为文本表示,转成图像的R通道;将文本表示转成矩阵的形式,然后矩阵进行归一化在(0,255)之后,再转换为图像的R模式。将社交信息进行填充为二维的矩阵形式,转成图像的G通道;将社交网络序列转成矩阵的形式,并对矩阵进行填充,归一化在(0,255)之后,再转换为图像G模式。将时间序列信息转为时间矩阵的形式再进行降维,转成图像的B通道。将时间序列矩阵x(t)进行压缩,归一化在(0,255)之后,再转换为图像B模式。
数据分析模块40,用于将时间序列信息矩阵的顺序,按照与播放量序列的皮尔逊相关性系数的大小顺序依次排列,并对时间进行归一化处理,将时间序列信息矩阵转成单通道图像;
皮尔逊相关性系数包括:
弹幕系数总体平均为0.816~0.916,点赞系数总体平均为0.859~0.959,转发系数总体平均为0.810~0.910,硬币系数总体平均为0.838~0.938,评论系数总体平均0.789~0.889,收藏系数总体平均为0.845~0.945。
按照时间序列的皮尔逊相关系数大小排列构造时间矩阵。将时间矩阵输入预测模型中。下一步将建立预测模型进行预测。
预测模块50,用于建立热门短视频预测模型,将单通道图像输入热门短视频预测模型进行短视频流行度预测。
基于图像的方法,主要由卷积神经网络(CNN)和长短期记忆网络(LSTM)的深度学习架构配置。
根据热门短视频预测问题,设定循环递归卷积神经网络模型。循环递归卷积神经网络模型包括编码网络和预测网络。基于图像的方法,主要由卷积神经网络(CNN)和长短期记忆网络(LSTM)的深度学习架构来进行配置。ITRCN模型由编码网络和预测网络组成,编码网络包含捕获影响因素特征网络和捕获时空矩阵网络.预测网络是长短时记忆网络,用于挖掘整个时间矩阵时间的交互特征。捕获影响因素网络提取短视频的影响因素特征并编码成鲁棒性更强的特征,使用两个特殊的全连接层对编码特征转换为长短时记忆网络(LSTM)的初始上下文变量和隐藏状态。LSTM网络用于捕获时间序列的时间特征,时间矩阵转换为图像集合得到更显著的成像特征将更容易被模型预测。ITRCN将时间矩阵转换为图像,利用CNN提取全局交互特征,将这些输出向量输入LSTM网络学习时间特征。
将社交特征、文本特征、时间序列特征构造成图像的三通道,假设为O=(h,s,x)。将影响因素特征作为LeNet7的输入。LeNet7的结构包括三个部分,分别是输入,特征提取,输出。过程可以描述为:
其中,/>,/>,/>分别是卷积层的输入,输出,权重和加性偏差,其中j,k是卷积滤波器的指数,σ是激活函数。
在ITRCN网络里,t-1时刻的细胞状态能够为t时刻细胞带来过去的信息,t-1时刻隐藏状态与t时刻输入构成了输出门。细胞状态和隐藏状态的信息是ITRCN网络不可缺失的信息。
通过两个全连接层把描述短视频影响因素的信息作为ITRCN网络的细胞状态C0和隐藏状态h0.过程描述为:
其中Wc和Wh是连接层的权值,bc和bh是连接层的偏置。
使用样本学习步骤S51设定的循环递归卷积神经网络模型的参数,建立热门短视频预测模型,进行参数估计。使用均方根误差(RMSE)对循环递归卷积神经网络模型的拟合度、显著性进行检验。将建立的热门短视频预测模型应用于预测热门短视频。
在Bi-RNN模型中,特征按CNN层,全连接层和LSTM层的顺序传递。在训练过程中,CNNs捕获空间特征。从最后一个提取层可以得到CNN的输出,过程可以描述为:
其中L是CNN的最后一层,pool(.)表示池化层操作,flatten(.)表示级联操作.
然后,通过全连接层将向量转化为时空矩阵M(t)作为LSTM网络的输入.过程可以描述为:
其中是CNNs对时间间隔t的输出,WF和bF是连接层的权值和偏置。
两层LSTM接受连接层导出的时空矩阵,将LSTM过程表示为lstm,则第e个LSTM层的输出可写为:
因此,时间递归神经网络模型的总体输出是:
其中G是LSTM的最后一层.
以前10个时间间隔的时空矩阵作为输入,可以写为:
其中Mt是时间间隔t的时空矩阵,时间递归卷积网络从时间特征中提取时空特征对短视频下一时刻流行度精确预测。
实施本实施例,通过计算得出播放量序列与其它时间序列之间的皮尔逊相关系数超过了0.9;时间矩阵按照与播放量序列的皮尔逊相关系数大小关系依次排列,并对数据进行归一化处理,将时间矩阵转成单通道图像;将社交特征,文本特征,时间矩阵进行归一化处理,构造成图像的R、G、B三通道,通过ResNet网络将图像进行特征提取得到其高维的特征,通过两个特殊的连接层输出作为ITRCN网络的隐藏状态和细胞状态;ITRCN模型适用于时间矩阵之间具有强相关的皮尔逊相关系,将时间序列上的预测转变为时空上的预测,解决了内部噪声对短视频的影响,对循环神经网络LSTM的参数值充分利用,对流行度预测的准确值较好。
实施例三
图5为根据本发明实施例提供的电子设备的实体结构示意图。基于上述实施例的内容,如图5所示,该电子设备可以包括:处理器(processor)301、存储器(memory)302和总线303;其中,处理器301和存储器302通过总线303完成相互间的通信;处理器301用于调用存储在存储器302中并可在处理器301上运行的计算机程序指令,以执行上述各方法实施例所提供的短视频流行度预测方法,例如包括:
S1、获取短视频数据,短视频数据包括文本信息、社交信息、时间序列信息;
S2、对短视频数据进行特征提取,将文本信息进行特征提取为文本特征表示,将社交信息、时间序列信息转成矩阵形式特征表示;
S3、将文本特征,将社交信息特征、时间序列信息特征转成图像的RGB三通道模式,对三通道的图像进行特征提取;
S4、将时间序列信息矩阵的顺序,按照与播放量序列的皮尔逊相关性系数的大小顺序依次排列,并对时间进行归一化处理,将时间序列信息矩阵转成单通道图像;
S5、建立热门短视频预测模型,将单通道图像输入热门短视频预测模型进行短视频流行度预测。
此外,上述的存储器302中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案实质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例基于人脸识别生成备忘录的方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘,只读存储器(ROM,Read-Only Memory)、随机存储存储器(RAM,Random AccessMemory)、磁碟或者光盘等各种存储程序代码的介质。
实施本实施例,通过计算得出播放量序列与其它时间序列之间的皮尔逊相关系数超过了0.9;时间矩阵按照与播放量序列的皮尔逊相关系数大小关系依次排列,并对数据进行归一化处理,将时间矩阵转成单通道图像;将社交特征,文本特征,时间矩阵进行归一化处理,构造成图像的R、G、B三通道,通过ResNet网络将图像进行特征提取得到其高维的特征,通过两个特殊的连接层输出作为ITRCN网络的隐藏状态和细胞状态;ITRCN模型适用于时间矩阵之间具有强相关的皮尔逊相关系,将时间序列上的预测转变为时空上的预测,解决了内部噪声对短视频的影响,对循环神经网络LSTM的参数值充分利用,对流行度预测的准确值较好。
实施例四
本发明另一实施例公开一种计算机程序产品,计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,计算机能够执行上述各实施例所提供的短视频流行度预测方法,例如包括步骤:
S1、获取短视频数据,短视频数据包括文本信息、社交信息、时间序列信息;
S2、对短视频数据进行特征提取,将文本信息进行特征提取为文本特征表示,将社交信息、时间序列信息转成矩阵形式特征表示;
S3、将文本特征,将社交信息特征、时间序列信息特征转成图像的RGB三通道模式,对三通道的图像进行特征提取;
S4、将时间序列信息矩阵的顺序,按照与播放量序列的皮尔逊相关性系数的大小顺序依次排列,并对时间进行归一化处理,将时间序列信息矩阵转成单通道图像;
S5、建立热门短视频预测模型,将单通道图像输入热门短视频预测模型进行短视频流行度预测。
实施本实施例,通过计算得出播放量序列与其它时间序列之间的皮尔逊相关系数超过了0.9;时间矩阵按照与播放量序列的皮尔逊相关系数大小关系依次排列,并对数据进行归一化处理,将时间矩阵转成单通道图像;将社交特征,文本特征,时间矩阵进行归一化处理,构造成图像的R、G、B三通道,通过ResNet网络将图像进行特征提取得到其高维的特征,通过两个特殊的连接层输出作为ITRCN网络的隐藏状态和细胞状态;ITRCN模型适用于时间矩阵之间具有强相关的皮尔逊相关系,将时间序列上的预测转变为时空上的预测,解决了内部噪声对短视频的影响,对循环神经网络LSTM的参数值充分利用,对流行度预测的准确值较好。
实施例五
本发明另一实施例提供-种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令使计算机执行上述各方法实施例所提供的短视频流行度预测方法,例如包括步骤:
S1、获取短视频数据,短视频数据包括文本信息、社交信息、时间序列信息;
S2、对短视频数据进行特征提取,将文本信息进行特征提取为文本特征表示,将社交信息、时间序列信息转成矩阵形式特征表示;
S3、将文本特征,将社交信息特征、时间序列信息特征转成图像的RGB三通道模式,对三通道的图像进行特征提取;
S4、将时间序列信息矩阵的顺序,按照与播放量序列的皮尔逊相关性系数的大小顺序依次排列,并对时间进行归一化处理,将时间序列信息矩阵转成单通道图像;
S5、建立热门短视频预测模型,将单通道图像输入热门短视频预测模型进行短视频流行度预测。
实施本实施例,通过计算得出播放量序列与其它时间序列之间的皮尔逊相关系数超过了0.9;时间矩阵按照与播放量序列的皮尔逊相关系数大小关系依次排列,并对数据进行归一化处理,将时间矩阵转成单通道图像;将社交特征,文本特征,时间矩阵进行归一化处理,构造成图像的R、G、B三通道,通过ResNet网络将图像进行特征提取得到其高维的特征,通过两个特殊的连接层输出作为ITRCN网络的隐藏状态和细胞状态;ITRCN模型适用于时间矩阵之间具有强相关的皮尔逊相关系,将时间序列上的预测转变为时空上的预测,解决了内部噪声对短视频的影响,对循环神经网络LSTM的参数值充分利用,对流行度预测的准确值较好。
本发明是根据特定实施例进行描述的,但本领域的技术人员应明白在不脱离本发明范围时,可进行各种变化和等同替换。此外,为适应本发明技术的特定场合,可对本发明进行诸多修改而不脱离其保护范围。因此,本发明并不限于在此公开的特定实施例,而包括所有落入到权利要求保护范围的实施例。

Claims (7)

1.一种短视频流行度预测方法,其特征在于,包括:
S1、获取短视频数据,所述短视频数据包括文本信息、社交信息、时间序列信息;
S2、对所述短视频数据进行特征提取,将文本信息进行特征提取为文本特征表示,将社交信息、时间序列信息转成矩阵形式特征表示;
S3、将所述文本特征、社交信息特征、时间序列信息特征转成图像的RGB三通道模式,对三通道的图像进行特征提取;所述S3包括:
S31、使用Bi-RNN模型将文本信息进行特征提取为文本表示,转成图像的R通道;
S32、将社交信息进行填充为二维的矩阵形式,转成图像的G通道;
S33、将时间序列信息转为时间矩阵的形式再进行降维,转成图像的B通道;
S4、将时间序列信息矩阵的顺序,按照与播放量序列的皮尔逊相关性系数的大小顺序依次排列,并对时间进行归一化处理,将时间序列信息矩阵转成单通道图像;
S5、建立热门短视频预测模型,将单通道图像输入热门短视频预测模型进行短视频流行度预测,所述S5包括:
S51、根据热门短视频预测问题,设定循环递归卷积神经网络模型,循环递归卷积神经网络模型包括编码网络和预测网络;
编码网络包括将社交特征、文本特征、时间序列特征构造成图像的三通道,假设为O=(h,s,x),将影响因素特征作为ResNet的输入,ResNet的结构包括三个部分,分别是输入,特征提取,输出;过程描述为:
其中,/>,/>,/>分别是卷积层的输入,输出,权重和加性偏差,其中j,k是卷积滤波器的指数,σ是激活函数;
通过两个全连接层把描述短视频影响因素的信息作为循环递归卷积神经网络模型的细胞状态C0和隐藏状态h0,过程描述为:
其中Wc和Wh是连接层的权值,bc和bh是连接层的偏置;
预测网络包括特征按CNN层、全连接层和LSTM层的顺序传递;在训练过程中,CNN捕获空间特征,从最后一个提取层得到CNN的输出,过程描述为:
其中L是CNN的最后一层,pool(.)表示池化层操作,flatten(.)表示级联操作;然后,通过全连接层将向量转化为时空矩阵M(t)作为LSTM网络的输入,过程描述为:
其中是CNN对时间间隔t的输出,WF和bF是连接层的权值和偏置;
两层LSTM接受连接层导出的时空矩阵,将LSTM过程表示为lstm,则第e个LSTM层的输出可写为:
因此,循环递归卷积神经网络模型的总体输出是:
其中G是LSTM的最后一层;
以前10个时间间隔的时空矩阵作为输入,写为:
其中Mt是时间间隔t的时空矩阵,循环递归卷积神经网络模型从时间特征中提取时空特征对短视频下一时刻流行度进行预测;
S52、使用样本学习步骤S51设定的循环递归卷积神经网络模型的参数,建立热门短视频预测模型,进行参数估计;
S53、使用均方根误差对循环递归卷积神经网络模型的拟合度、显著性进行检验;
S54、将建立的热门短视频预测模型应用于预测热门短视频。
2.根据权利要求1所述的短视频流行度预测方法,其特征在于,在所述对所述短视频数据进行特征提取步骤之前还包括:
对所述短视频数据进行清洗、填充。
3.根据权利要求1所述的短视频流行度预测方法,其特征在于,所述皮尔逊相关性系数包括:
弹幕系数总体平均为0.816~0.916,点赞系数总体平均为0.859~0.959,转发系数总体平均为0.810~0.910,硬币系数总体平均为0.838~0.938,评论系数总体平均0.789~0.889,收藏系数总体平均为0.845~0.945。
4.一种短视频流行度预测系统,其特征在于,包括:
数据采集模块,用于获取短视频数据,所述短视频数据包括文本信息、社交信息、时间序列信息;
特征提取模块,用于对所述短视频数据进行特征提取,将文本信息进行特征提取为文本特征表示,将社交信息、时间序列信息转成矩阵形式特征表示;
特征转化成图像模块,用于将所述文本特征、社交信息特征、时间序列信息特征转成图像的RGB三通道模式,对三通道的图像进行特征提取,包括:
使用Bi-RNN模型将文本信息进行特征提取为文本表示,转成图像的R通道;
将社交信息进行填充为二维的矩阵形式,转成图像的G通道;
将时间序列信息转为时间矩阵的形式再进行降维,转成图像的B通道;
数据分析模块,用于将时间序列信息矩阵的顺序,按照与播放量序列的皮尔逊相关性系数的大小顺序依次排列,并对时间进行归一化处理,将时间序列信息矩阵转成单通道图像;
短视频流行度预测模块,用于建立热门短视频预测模型,将单通道图像输入热门短视频预测模型进行短视频流行度预测,包括:
根据热门短视频预测问题,设定循环递归卷积神经网络模型,循环递归卷积神经网络模型包括编码网络和预测网络;
编码网络包括将社交特征、文本特征、时间序列特征构造成图像的三通道,假设为O=(h,s,x),将影响因素特征作为ResNet的输入,ResNet的结构包括三个部分,分别是输入,特征提取,输出;过程描述为:
其中,/>,/>,/>分别是卷积层的输入,输出,权重和加性偏差,其中j,k是卷积滤波器的指数,σ是激活函数;
通过两个全连接层把描述短视频影响因素的信息作为循环递归卷积神经网络模型的细胞状态C0和隐藏状态h0,过程描述为:
其中Wc和Wh是连接层的权值,bc和bh是连接层的偏置;
预测网络包括特征按CNN层、全连接层和LSTM层的顺序传递;在训练过程中,CNN捕获空间特征,从最后一个提取层得到CNN的输出,过程描述为:
其中L是CNN的最后一层,pool(.)表示池化层操作,flatten(.)表示级联操作;然后,通过全连接层将向量转化为时空矩阵M(t)作为LSTM网络的输入,过程描述为:
其中是CNN对时间间隔t的输出,WF和bF是连接层的权值和偏置;
两层LSTM接受连接层导出的时空矩阵,将LSTM过程表示为lstm,则第e个LSTM层的输出可写为:
因此,循环递归卷积神经网络模型的总体输出是:
其中G是LSTM的最后一层;
以前10个时间间隔的时空矩阵作为输入,写为:
其中Mt是时间间隔t的时空矩阵,循环递归卷积神经网络模型从时间特征中提取时空特征对短视频下一时刻流行度进行预测;
使用样本学习设定的循环递归卷积神经网络模型的参数,建立热门短视频预测模型,进行参数估计;
使用均方根误差对循环递归卷积神经网络模型的拟合度、显著性进行检验;
将建立的热门短视频预测模型应用于预测热门短视频。
5.根据权利要求4所述的短视频流行度预测系统,其特征在于,所述特征提取模块还包括数据预处理模块,所述数据预处理模块用于对所述短视频数据进行清洗、填充。
6.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时,实现如权利要求1至3任一项所述短视频流行度预测方法的步骤。
7.一种存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述短视频流行度预测方法的步骤。
CN202110206067.0A 2021-02-24 2021-02-24 短视频流行度预测方法、系统、电子设备及存储介质 Active CN112883231B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110206067.0A CN112883231B (zh) 2021-02-24 2021-02-24 短视频流行度预测方法、系统、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110206067.0A CN112883231B (zh) 2021-02-24 2021-02-24 短视频流行度预测方法、系统、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112883231A CN112883231A (zh) 2021-06-01
CN112883231B true CN112883231B (zh) 2023-11-17

Family

ID=76054319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110206067.0A Active CN112883231B (zh) 2021-02-24 2021-02-24 短视频流行度预测方法、系统、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112883231B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113490053A (zh) * 2021-06-30 2021-10-08 北京奇艺世纪科技有限公司 播放量预测方法、装置、模型、电子设备及存储介质
CN114693812A (zh) * 2022-03-28 2022-07-01 上海哔哩哔哩科技有限公司 视频处理方法及装置
CN114970955B (zh) * 2022-04-15 2023-12-15 黑龙江省网络空间研究中心 基于多模态预训练模型的短视频热度预测方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555719A (zh) * 2019-07-31 2019-12-10 华南理工大学 一种基于深度学习的商品点击率预测方法
CN112396091A (zh) * 2020-10-23 2021-02-23 西安电子科技大学 社交媒体图像流行度预测方法、系统、存储介质及应用

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2675216A1 (en) * 2007-01-10 2008-07-17 Nick Koudas Method and system for information discovery and text analysis
US20130297694A1 (en) * 2009-12-01 2013-11-07 Topsy Labs, Inc. Systems and methods for interactive presentation and analysis of social media content collection over social networks
US20150120717A1 (en) * 2013-10-25 2015-04-30 Marketwire L.P. Systems and methods for determining influencers in a social data network and ranking data objects based on influencers

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555719A (zh) * 2019-07-31 2019-12-10 华南理工大学 一种基于深度学习的商品点击率预测方法
CN112396091A (zh) * 2020-10-23 2021-02-23 西安电子科技大学 社交媒体图像流行度预测方法、系统、存储介质及应用

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Cao X 等.Interactive temporal recurrent convolution network for traffic prediction in data centers.IEEE Access.2017,5276-5289. *
于海 ; 吕晴晴 ; 时鹏 ; 王铮 ; 胡长军 ; .基于在线社交网络事件库多因素耦合的流行度预测方法.天津大学学报(自然科学与工程技术版).2020,(第12期),66-74. *
刘培玉 ; 侯秀艳 ; 朱振方 ; 刘芳 ; 蔡肖红 ; .基于热度联合排序的微博热点话题发现.计算机科学与探索.2016,(第04期),127-135. *
张立安.基于内容流行度预测的边缘缓存技术研究.中国优秀硕士学位论文全文数据库信息科技辑.2022,(第12期),I137-143. *
李阳.短视频流行度预测研究.中国优秀硕士学位论文全文数据库信息科技辑.2022,(第02期),I138-877. *

Also Published As

Publication number Publication date
CN112883231A (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
CN112883231B (zh) 短视频流行度预测方法、系统、电子设备及存储介质
Kim et al. Deep convolutional neural models for picture-quality prediction: Challenges and solutions to data-driven image quality assessment
Zhou et al. Semantic-supervised infrared and visible image fusion via a dual-discriminator generative adversarial network
CN110929622B (zh) 视频分类方法、模型训练方法、装置、设备及存储介质
CN109543714B (zh) 数据特征的获取方法、装置、电子设备及存储介质
CN111741330B (zh) 一种视频内容评估方法、装置、存储介质及计算机设备
CN110751649B (zh) 视频质量评估方法、装置、电子设备及存储介质
CN110569814A (zh) 视频类别识别方法、装置、计算机设备及计算机存储介质
Chen et al. No-reference screen content image quality assessment with unsupervised domain adaptation
CN112883227B (zh) 一种基于多尺度时序特征的视频摘要生成方法和装置
CN114282047A (zh) 小样本动作识别模型训练方法、装置、电子设备及存储介质
CN113420179B (zh) 基于时序高斯混合空洞卷积的语义重构视频描述方法
Chen et al. MICU: Image super-resolution via multi-level information compensation and U-net
Xia et al. Combination of multi‐scale and residual learning in deep CNN for image denoising
CN115909336A (zh) 文本识别方法、装置、计算机设备和计算机可读存储介质
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
CN112613373A (zh) 图像识别方法、装置、电子设备及计算机可读存储介质
Zhu et al. Image quality assessment based on deep learning with FPGA implementation
CN113689527A (zh) 一种人脸转换模型的训练方法、人脸图像转换方法
Fang et al. Study of spatio-temporal modeling in video quality assessment
Bakhtiari et al. No-reference video quality assessment by deep feature maps relations
CN113971826A (zh) 估计连续的效价和唤醒水平的动态情感识别方法和系统
CN112560668A (zh) 一种基于场景先验知识的人体行为识别方法
Zhao et al. Face quality assessment via semi-supervised learning
Lu et al. Lightweight green citrus fruit detection method for practical environmental applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20210601

Assignee: HUDONGPAI TECHNOLOGY CO.,LTD.

Assignor: GUANGDONG POLYTECHNIC NORMAL University

Contract record no.: X2023980039910

Denomination of invention: Short video popularity prediction methods, systems, electronic devices, and storage media

License type: Common License

Record date: 20230816

EE01 Entry into force of recordation of patent licensing contract
GR01 Patent grant
GR01 Patent grant