CN117768688A

CN117768688A - 一种基于云调度与音视频大数据存储与访问模式预测方法

Info

Publication number: CN117768688A
Application number: CN202311505605.1A
Authority: CN
Inventors: 陈泽宇; 李韩; 胡磊明; 林金怡; 吴伟华; 胡高生; 余武; 于善龙
Original assignee: China Unicom Online Information Technology Co Ltd; China Unicom WO Music and Culture Co Ltd
Current assignee: China Unicom Online Information Technology Co Ltd; China Unicom WO Music and Culture Co Ltd
Priority date: 2023-11-13
Filing date: 2023-11-13
Publication date: 2024-03-26

Abstract

本申请提供一种基于云调度与音视频大数据存储与访问模式预测方法，包括：通过音视频在热播榜的存在时长的排名和艺术家获取的奖项分析现有音视频库，生成持续热门音视频的概率，并将数据上传到云存储；对持续热门和短暂热点的概率进行归一化处理，并融合这两类数据，得到持续热点指数和短暂热点指数，同时更新云存储的数据；若融合后的数据显示短暂热点属性优势，使用新闻数据进行优化，得到短暂热门效果指数,同时运用新闻数据来预测访问模式；根据上述优化后的数据，确定推送优先级，根据优先级在云调度系统进行资源分配；使用确定的推送优先级进行实际推送，推送的同时云调度系统进行资源重新分配以满足预期的访问需求，并采集推送效果数据。

Description

一种基于云调度与音视频大数据存储与访问模式预测方法

技术领域

本发明涉及信息技术领域，尤其涉及一种基于云调度与音视频大数据存储与访问模式预测方法。

背景技术

随着音视频产业的迅速发展和数字化时代的到来，音视频推送和资源调度已经成为了业界的重要议题。然而，现有的音视频推送和资源调度方式存在许多问题。首先，准确地预测热门音视频是一个关键问题。因为音视频的受欢迎程度决定了它的播放量和受众范围，同时也影响了音视频的推送和资源调度策略。现有的预测方法往往忽视了流行度的持久性和艺术家获奖对音视频热度的长期影响。其次，根据社交媒体上的帖子和流量数据，区分那些只具有短期热点效应的音视频，是目前的热门音视频预测技术尚未解决的一个问题。此外，在这些短暂热门的音视频中，识别出哪些是真正由大众兴趣驱动的热门音视频，哪些只是受到媒体关注才变得热门，也是一个迫切需要解决的问题。在对持续热门音视频进行预测时，也需要考虑用户粘性和重复播放率等因素，这些都是现有预测方法尚未充分考虑的因素。最后，在完成了热门音视频的预测后，还需要考虑如何根据音视频的热门程度和热门的持续性来进行推送和调度。现有的调度方法往往忽视了音视频的热门程度和热门的持续性，导致音视频的推送顺序混乱。另外，也没有结合音视频的访问模式和观看用户的地理位置分布来合理安排音视频的存储位置，导致用户体验较差。同时，缺乏在推送过程中进行实时资源占用计算和调度策略调整的能力，以及缺乏对推送过程的有效监控和改进机制，使得在推送过程中出现故障时难以进行及时调整。

发明内容

本发明提供了一种基于云调度与音视频大数据存储与访问模式预测方法，主要包括：

通过音视频在热播榜的存在时长的排名和艺术家获取的奖项分析现有音视频库，生成持续热门音视频的概率，并将数据上传到云存储；获取社交媒体上与音视频相关的新闻和流量数据，判断新闻中的音视频生成短暂热点音视频的概率，并将数据分发到相应的大数据处理节点；对持续热门和短暂热点的概率进行归一化处理，并融合这两类数据，得到持续热点指数和短暂热点指数，同时更新云存储的数据；若融合后的数据显示持续热门属性优势，则进一步使用用户黏性和复播率数据进行优化，得到持续热门效果指数，同时运用大数据预测模型来预见访问模式；若融合后的数据显示短暂热点属性优势，使用新闻数据进行优化，得到短暂热门效果指数,同时运用新闻数据来预测访问模式；根据上述优化后的数据，确定推送优先级，根据优先级在云调度系统进行资源分配；使用确定的推送优先级进行实际推送，推送的同时云调度系统进行资源重新分配以满足预期的访问需求，并采集推送效果数据。

作为优选方案，所述通过音视频在热播榜的存在时长的排名和艺术家获取的奖项分析现有音视频库，生成持续热门音视频的概率，并将数据上传到云存储，包括：

对音视频榜中的所有音视频统计音视频收录时长，每周播放时长和计算平均每周播放时长；根据记录的每周播放时长，计算所有音视频的每周播放时长中的中位数；根据音视频收录时长，平均每周播放时长，每周播放时长的中位数，对音视频的流行度持久性进行打分；应用LDA算法识别社交媒体、新闻和评论中的音视频奖项名称，获取艺术家所得奖项，根据音视频奖项名称出现的频率和艺术家所得奖项进行艺术家影响力打分；通过音视频在音视频热播榜的音视频收录时长的排名和艺术家影响力进行加权平均得到持续热门得分；根据流行度持久性得分、艺术家影响力得分，和持续热门指数得分得出一个数据集；根据持续热门得分生成持续热门音视频的概率分布图；使用API接口，将数据集自动上传到云存储；音视频数据出现变动时，更新持续热门得分，更新持续热门音视频概率分布图，并上传云存储。

作为优选方案，所述获取社交媒体上与音视频相关的新闻和流量数据，判断新闻中的音视频生成短暂热点音视频的概率，并将数据分发到相应的大数据处理节点，包括：

依据预设的时间步长，通过API接口定时获取社交媒体上与音视频相关的新闻和流量数据；将获取的数据与现有的新闻数据库进行匹配，识别与获取数据相关的新闻；将音视频与新闻所讨论的音视频进行关联，通过网络媒体平台的API接口获取新闻的流量数据；基于新闻的流量数据，生成与新闻相关联的音视频的热度得分；检索整个音视频库，筛选出包含热度得分的音视频；根据预设的数据清洗规则，去除异常值和无关数据；根据热度得分，计算每个音视频的热度得分在热度得分总和中的占比，根据占比生成短暂热点音视频的概率分布图；依据新闻的实时流量变化，对短暂热点音视频的概率分布图进行实时调整；通过HTTPS协议，将数据分发到预设的大数据处理节点；在大数据处理节点上，持久化存储和进一步分析数据。

作为优选方案，所述对持续热门和短暂热点的概率进行归一化处理，并融合这两类数据，得到持续热点指数和短暂热点指数，同时更新云存储的数据，包括：

应用Min-Max归一化处理方法，对音视频库中的所有音视频的持续热门概率进行归一化处理；利用自回归分析算法对每个音视频归一化后的持续热门概率进行分析，在预设的时间步长内预测每个音视频未来的持续热门概率；对预测的持续热门概率进行平均，得到音视频的预设步长时间内的持续热点指数；筛选出音视频库中短暂热点概率大于零的音视频并进行播放状态监控；以音视频被赋予短暂热点概率的时间节点为起点，以当前时间为终点，统计音视频的每日播放时长；计算音视频库中的所有音视频的每日播放时长的上四分位数；计算短暂热点音视频的每日播放时长与上四分位数的差值，生成短暂热点概率的横向调整参数；对短暂热点音视频的每日播放时长进行差分，生成短暂热点概率的纵向调整参数；根据横向调整参数和纵向调整参数更新短暂热点概率；对更新后的短暂热点概率应用Min-Max归一化处理方法进行归一化处理，得到短暂热点指数；通过短暂热点指数和持续热点指数的大小判断音视频的热门属性；将短暂热点指数和持续热点指数添加进音视频数据集并上传云存储。

作为优选方案，所述若融合后的数据显示持续热门属性优势，则进一步使用用户黏性和复播率数据进行优化，得到持续热门效果指数，同时运用大数据预测模型来预见访问模式，包括：

在融合后的数据中筛选出显示持续热门属性优势的音视频；根据预设的时间步长，以音视频的收录时间为起点，以当前时间为终点，对筛选出的音视频进行时间段划分；对筛选出的每个音视频，检索出每个时间段内的观看该音视频的所有用户，将同一时间段的用户存入一个集合；应用Apriori关联算法分析得到的所有集合，计算每个频繁项集的支持度，根据预设阈值筛选出频繁项集；根据筛选出的频繁项集的支持度和频繁项集的长度，确定音视频的用户黏性指数；通过检索音视频的播放记录与用户列表，筛选出播放次数超过预设阈值的用户；根据筛选出的用户的播放次数与音视频的总播放次数得出音视频的复播率；通过对复播率、用户黏性指数和持续热点指数加权平均得到持续热门效果指数；统计所有的用户的行为路径数据，以播放音视频为终点，将行为路径数据按照不同的音视频进行分类；在每个类别中应用kmeans聚类算法再次进行分类，得到该类别对应音视频的访问模式。

作为优选方案，所述若融合后的数据显示短暂热点属性优势，使用新闻数据进行优化，得到短暂热门效果指数,同时运用新闻数据来预测访问模式，包括：

获取音乐新闻数据，包括新闻的标题、正文内容、关键词和发布时间，对获取到的新闻数据进行清洗和标准化，去除重复项和噪声，提取新闻关键词；使用jieba识别在预设时间内出现频率高于预设频率的关键词，建立新闻关键词列表，通过词频，获取短暂热点的发展趋势，包括上升、下降或周期性变化，得出短暂热门效果指数；根据短暂热点分析的结果，更新新闻关键词列表；利用长短期记忆网络建立时间序列预测模型，使用历史新闻关键词列表和发展趋势，预测未来新闻关键词的发展趋势；通过时间序列预测模型得到新闻关键词的发展趋势，根据新闻关键词变化趋势实时调整云调度平台的预测的用户访问模式，当在时间序列预测模型得到新的新闻关键词或历史新闻关键词变化趋势时，调整云调度平台的预测的用户访问模式。

作为优选方案，所述根据上述优化后的数据，确定推送优先级，根据优先级在云调度系统进行资源分配，包括：

获取音视频库中的全部音视频数据，按照音视频的热门属性将音视频分类成持续热门和短暂热门；对于持续热门分类中的音视频按照音视频数据中的持续热门效果指数进行降序排列；对于短暂热门分类中的音视频按照音视频数据中的短暂热门效果指数进行降序排列；重新检索音视频库中的音视频数据和分类之后的音视频数据，确认音视频分类的正确性，完整性和唯一性；根据音视频数据的排列顺序确定初步推送的优先级，优先级按照排列顺序依次递减，并给所有音视频进行优先级打分；根据初步推送优先级，在云调度系统中分别为持续热门音视频和短暂热门音视频建立推送队列；获取推送队列中的音视频的观看用户的IP地址，根据IP地址匹配地理位置；根据地理位置的数量对推送的难易程度进行打分；通过空间密度分析评估地理位置的分散程度，根据地理位置的分散程度对推送的难易程度进行打分；对地理位置难易程度得分，地理位置分散程度难易程度得分和初步优先级得分进行加权平均，确定最终的推送优先级，得到最终的推送队列；对推送队列中的音视频观看用户的地理位置应用kmeans聚类算法进行分类，检索已有的存储服务器，获取距离聚类中心位置最近的服务器进行音视频存储；识别音视频数据中的访问模式，根据访问模式路径的长短来确定音视频的存储设备。

作为优选方案，所述使用确定的推送优先级进行实际推送，推送的同时云调度系统进行资源重新分配以满足预期的访问需求，并采集推送效果数据，包括：

读取推送优先级信息，进行实际推送；获取存储服务器采集的访问流量数据，采用自回归算法对所有存储服务器在预设时间步长内的访问流量进行预测；通过预设阈值判断预测的存储服务器的访问流量是否超过负载上限；如果超过负载上限则选择距离该存储服务器距离最近的服务器替代该服务器进行音视频数据的接收；获取音视频数据到达存储服务器所需的时间；对音视频数据到达存储服务器的实际距离和音视频数据到达存储服务器的时间进行线性回归分析；若回归分析结果显示负相关或者相关系数未达到预设阈值，则重新选择存储服务器；获取音视频数据从存储服务器到观看用户设备的所需时间；通过用户设备的IP地址获取用户的地理位置；根据用户的地理位置计算用户与存储服务器之间的实际距离；对用户与存储服务器之间的实际距离和音视频数据从存储服务器到用户设备的所需时间进行线性回归分析；若回归分析结果显示负相关或者相关系数未达到预设阈值，则重新选择存储服务器。

本发明实施例提供的技术方案可以包括以下有益效果：

本发明公开了一种通过流行度持久性和艺术家获取的奖项分析现有音视频库来生成持续热门音视频的概率的方法。采用多种数据来源和方法进行分析和预测，使得热门音视频的预测更加准确，能够实时收集社交媒体上的帖子和流量数据，及时捕捉到市场的最新趋势，从而更好地满足市场需求。根据预测结果优化推送策略，使用户能够更快地获得他们喜欢的热门音视频，从而提高他们的满意度，并对音视频进行资源分配和调整，避免了资源浪费和无效使用，节约了资源成本，实现更有效的音视频推送和资源调度。

附图说明

图1为本发明的一种基于云调度与音视频大数据存储与访问模式预测方法的流程图。

图2为本发明的一种基于云调度与音视频大数据存储与访问模式预测方法的示意图。

图3为本发明的一种基于云调度与音视频大数据存储与访问模式预测方法的又一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本实施例一种基于云调度与音视频大数据存储与访问模式预测方法具体可以包括：

S101、通过音视频在热播榜的存在时长的排名和艺术家获取的奖项分析现有音视频库，生成持续热门音视频的概率，并将数据上传到云存储。

示例性的，音视频库中有3个音视频，统计音视频自进入音视频库直至当前时间的收录时长，每个音视频的收录时长如下所示，音视频1收录时长300分钟，音视频2收录时长400分钟，音视频3收录时长500分钟。音视频1的每周播放时长记录如下所示，第一周播放时长500分钟，第二周播放时长600分钟，第三周播放时长700分钟，第四周播放时长800分钟。根据每周播放时长计算平均每周播放时长，(500+600+700+800)/4=650分钟。根据每周播放时长计算中位数，将每周播放时长按升序排列，500,600,700,800，中位数为第2个数和第3个数的平均值，(600+700)/2=650分钟。根据音视频收录时长、平均每周播放时长和每周播放时长的中位数，对音视频的流行度持久性进行打分，得分为300*650*650/(60*60*60)=586.8。使用LDA算法识别社交媒体、新闻和评论中的主题，根据主题匹配所讨论的艺术家，并根据艺术家出现的频率进行艺术家影响力打分。LDA算法识别出主题为流行音视频的社交媒体帖子和新闻文章，并发现艺术家A出现了100次，艺术家B出现了50次。艺术家A的影响力得分为100，艺术家B的影响力得分为50。将流行度持久性得分和艺术家影响力得分进行加权平均得到持续热门得分。流行度持久性得分的权重为6，艺术家影响力得分的权重为4。音视频1为艺术家A创作，则音视频1的持续热门得分=(流行度持久性得分*6)+(艺术家影响力得分*4)=(586.8*6)+(100*4)=3920.8。根据持续热门得分生成持续热门音视频的概率分布图。音视频2和音视频3的持续热门得分分别为3000和2000，则音视频1，音视频2，音视频3的持续热门概率分别为3920.8/(3920.8+3000+2000)=0.44，3000/(3920.8+3000+2000)=0.34，2000/(3920.8+3000+2000)=0.22，概率分布图为0.44,0.34,0.22。通过API接口，将计算得到的数据集上传到云存储服务，以便随时访问和更新数据。当音视频数据发生变动时，更新持续热门得分，更新持续热门音视频概率分布图，并上传云存储。如果有新的音视频加入音视频库或者播放数据发生变化，重新计算持续热门得分和持续热门音视频概率分布图，并更新上传到云存储。音视频库中有3个音视频，统计音视频自进入音视频库直至当前时间的收录时长，每个音视频的收录时长如下所示，音视频1收录时长300分钟，音视频2收录时长400分钟，音视频3收录时长500分钟。音视频1的每周播放时长记录如下所示，第一周播放时长500分钟，第二周播放时长600分钟，第三周播放时长700分钟，第四周播放时长800分钟。根据每周播放时长计算平均每周播放时长，(500+600+700+800)/4=650分钟。根据每周播放时长计算中位数，将每周播放时长按升序排列，500,600,700,800，中位数为第2个数和第3个数的平均值，(600+700)/2=650分钟。根据音视频收录时长、平均每周播放时长和每周播放时长的中位数，对音视频的流行度持久性进行打分，得分为300*650*650/(60*60*60)=586.8。使用LDA算法识别社交媒体、新闻和评论中的主题，根据主题匹配所讨论的艺术家，并根据艺术家出现的频率进行艺术家影响力打分。LDA算法识别出主题为流行音视频的社交媒体帖子和新闻文章，并发现艺术家A出现了100次，艺术家B出现了50次。艺术家A的影响力得分为100，艺术家B的影响力得分为50。将流行度持久性得分和艺术家影响力得分进行加权平均得到持续热门得分。流行度持久性得分的权重为6，艺术家影响力得分的权重为4。音视频1为艺术家A创作，则音视频1的持续热门得分=(流行度持久性得分*6)+(艺术家影响力得分*4)=(586.8*6)+(100*4)=3920.8。根据持续热门得分生成持续热门音视频的概率分布图。音视频2和音视频3的持续热门得分分别为3000和2000，则音视频1，音视频2，音视频3的持续热门概率分别为3920.8/(3920.8+3000+2000)=0.44，3000/(3920.8+3000+2000)=0.34，2000/(3920.8+3000+2000)=0.22，概率分布图为0.44,0.34,0.22。通过API接口，将计算得到的数据集上传到云存储服务，以便随时访问和更新数据。当音视频数据发生变动时，更新持续热门得分，更新持续热门音视频概率分布图，并上传云存储。如果有新的音视频加入音视频库或者播放数据发生变化，重新计算持续热门得分和持续热门音视频概率分布图，并更新上传到云存储。

S102、获取社交媒体上与音视频相关的新闻和流量数据，判断新闻中的音视频生成短暂热点音视频的概率，并将数据分发到相应的大数据处理节点。

示例性的，预设的时间步长为1小时，通过API接口每小时定时获取社交媒体上与音视频相关的新闻和流量数据。在第一个时间步长内，获取到了100个帖子和1000次点击的流量。根据现有的新闻数据库，识别到这些数据与一个音视频节日活动相关。接着，通过网络媒体平台的API接口获取到该音视频节日活动相关的流量数据，截止到目前，与该活动相关的帖子获取到了50000次浏览的流量数据。基于新闻的流量数据，生成与音视频节日活动相关联的音视频的热度得分。计算得出该音视频节日活动的热度得分为50。接下来，检索整个音视频库，筛选出包含热度得分的音视频。筛选出了10个音视频，它们的热度得分分别为70、80、60、90、50、80、70、80、60、70。根据预设的数据清洗规则，去除异常值和无关数据。根据清洗规则，删除最后两条数据，筛选出了8个音视频，它们的热度得分分别为70、80、60、90、50、80、70、80。根据热度得分生成短暂热点音视频的概率分布图。根据热度得分，生成了以下短暂热点音视频的概率分布图：0.12、0.14、0.1、0.16、0.09、0.14、0.12、0.14。在第二个时间步长内，新闻的实时流量变化，导致音视频节日活动的热度得分提升到90。根据实时流量变化，对音视频的热度得分和短暂热点音视频的概率分布图进行实时调整，调整后的得分为：70、80、60、90、90、80、70、80，概率分布图为：0.12、0.14、0.1、0.16、0.16、0.14、0.12、0.14最后，通过HTTPS协议将数据分发到预设的大数据处理节点。在大数据处理节点上，数据被持久化存储和进一步分析。预设的时间步长为1小时，通过API接口每小时定时获取社交媒体上与音视频相关的新闻和流量数据。在第一个时间步长内，获取到了100个帖子和1000次点击的流量。根据现有的新闻数据库，识别到这些数据与一个音视频节日活动相关。接着，通过网络媒体平台的API接口获取到该音视频节日活动相关的流量数据，截止到目前，与该活动相关的帖子获取到了50000次浏览的流量数据。基于新闻的流量数据，生成与音视频节日活动相关联的音视频的热度得分。计算得出该音视频节日活动的热度得分为50。接下来，检索整个音视频库，筛选出包含热度得分的音视频。筛选出了10个音视频，它们的热度得分分别为70、80、60、90、50、80、70、80、60、70。根据预设的数据清洗规则，去除异常值和无关数据。根据清洗规则，删除最后两条数据，筛选出了8个音视频，它们的热度得分分别为70、80、60、90、50、80、70、80。根据热度得分生成短暂热点音视频的概率分布图。根据热度得分，生成了以下短暂热点音视频的概率分布图：0.12、0.14、0.1、0.16、0.09、0.14、0.12、0.14。在第二个时间步长内，新闻的实时流量变化，导致音视频节日活动的热度得分提升到90。根据实时流量变化，对音视频的热度得分和短暂热点音视频的概率分布图进行实时调整，调整后的得分为：70、80、60、90、90、80、70、80，概率分布图为：0.12、0.14、0.1、0.16、0.16、0.14、0.12、0.14最后，通过HTTPS协议将数据分发到预设的大数据处理节点。在大数据处理节点上，数据被持久化存储和进一步分析。

S103、对持续热门和短暂热点的概率进行归一化处理，并融合这两类数据，得到持续热点指数和短暂热点指数，同时更新云存储的数据。

示例性的，音视频库中有3个音视频，它们的持续热门概率如下，音视频1：0.2，音视频2：0.5，音视频3：0.3。首先，使用Min-Max归一化处理方法对持续热门概率进行归一化处理。归一化后的持续热门概率如下，音视频1：0，音视频2：1，音视频3：0.33。接下来，使用自回归分析算法对每个音视频归一化后的持续热门概率进行分析，并预测每个音视频未来的持续热门概率。预设的时间步长为2周，预测音视频未来的持续热门概率如下，音视频1第一周的持续热门概率为0.5，音视频1第二周持续热门的概率为0.7，音视频2第一周的持续热门概率为0.6，音视频2第二周持续热门的概率为0.8。然后，对预测的持续热门概率进行平均，得到音视频的预设步长时间内的持续热点指数。音视频1的持续热点指数为，(0.5+0.7)/2=0.6，音视频2的持续热点指数为，(0.6+0.8)/2=0.7。接下来筛选出短暂热点概率大于零的音视频，并进行播放状态监控。有以下音视频被赋予短暂热点概率，音视频2：0.8，音视频4：0.75，音视频6：0.5，音视频10：0.6，以音视频被赋予短暂热点概率的时间节点为起点，以当前时间为终点，统计音视频的每日播放时长。统计结果如下，音视频2：5小时，音视频4：4小时，音视频6：2小时，音视频10：3小时，计算音视频库中的所有音视频的每日播放时长的上四分位数。音视频库中的所有音视频的每日播放时长的上四分位数为5小时。计算短暂热点音视频的每日播放时长与上四分位数的差值，生成短暂热点概率的横向调整参数。差值如下，音视频2：0小时，音视频4：-1小时，音视频6：-3小时，音视频10：-2小时。生成的横向调整参数为0，-0.1，-0.3，-0.2。对短暂热点音视频的每日播放时长进行差分，生成短暂热点概率的纵向调整参数。差分结果如下，音视频2：1小时，音视频4：-1小时，音视频6：0小时，音视频10：-1小时。生成的纵向调整参数为0.1，-0.1,0，-0.1。根据横向调整参数和纵向调整参数更新短暂热点概率。更新后的短暂热点概率如下，音视频2：0.9，音视频4：0.55，音视频6：0.2，音视频10：0.3。对更新后的短暂热点概率应用Min-Max归一化处理方法进行归一化处理，得到短暂热点指数。归一化后的短暂热点指数如下，音视频2：1，音视频4：0.5，音视频6：0，音视频10：0.43。通过短暂热点指数和持续热点指数的大小判断音视频的热门属性。短暂热点指数大于持续热点指数的音视频为短暂热门音视频，音视频2的持续热点指数为0.7，音视频2的短暂热点指数为1，则判断音视频2具有短暂热门属性。将短暂热点指数和持续热点指数添加进音视频数据集并上传云存储，供后续分析和使用。音视频库中有3个音视频，它们的持续热门概率如下，音视频1：0.2，音视频2：0.5，音视频3：0.3。首先，使用Min-Max归一化处理方法对持续热门概率进行归一化处理。归一化后的持续热门概率如下，音视频1：0，音视频2：1，音视频3：0.33。接下来，使用自回归分析算法对每个音视频归一化后的持续热门概率进行分析，并预测每个音视频未来的持续热门概率。预设的时间步长为2周，预测音视频未来的持续热门概率如下，音视频1第一周的持续热门概率为0.5，音视频1第二周持续热门的概率为0.7，音视频2第一周的持续热门概率为0.6，音视频2第二周持续热门的概率为0.8。然后，对预测的持续热门概率进行平均，得到音视频的预设步长时间内的持续热点指数。音视频1的持续热点指数为，(0.5+0.7)/2=0.6，音视频2的持续热点指数为，(0.6+0.8)/2=0.7。接下来筛选出短暂热点概率大于零的音视频，并进行播放状态监控。有以下音视频被赋予短暂热点概率，音视频2：0.8，音视频4：0.75，音视频6：0.5，音视频10：0.6，以音视频被赋予短暂热点概率的时间节点为起点，以当前时间为终点，统计音视频的每日播放时长。统计结果如下，音视频2：5小时，音视频4：4小时，音视频6：2小时，音视频10：3小时，计算音视频库中的所有音视频的每日播放时长的上四分位数。音视频库中的所有音视频的每日播放时长的上四分位数为5小时。计算短暂热点音视频的每日播放时长与上四分位数的差值，生成短暂热点概率的横向调整参数。差值如下，音视频2：0小时，音视频4：-1小时，音视频6：-3小时，音视频10：-2小时。生成的横向调整参数为0，-0.1，-0.3，-0.2。对短暂热点音视频的每日播放时长进行差分，生成短暂热点概率的纵向调整参数。差分结果如下，音视频2：1小时，音视频4：-1小时，音视频6：0小时，音视频10：-1小时。生成的纵向调整参数为0.1，-0.1,0，-0.1。根据横向调整参数和纵向调整参数更新短暂热点概率。更新后的短暂热点概率如下，音视频2：0.9，音视频4：0.55，音视频6：0.2，音视频10：0.3。对更新后的短暂热点概率应用Min-Max归一化处理方法进行归一化处理，得到短暂热点指数。归一化后的短暂热点指数如下，音视频2：1，音视频4：0.5，音视频6：0，音视频10：0.43。通过短暂热点指数和持续热点指数的大小判断音视频的热门属性。短暂热点指数大于持续热点指数的音视频为短暂热门音视频，音视频2的持续热点指数为0.7，音视频2的短暂热点指数为1，则判断音视频2具有短暂热门属性。将短暂热点指数和持续热点指数添加进音视频数据集并上传云存储，供后续分析和使用。

S104、若融合后的数据显示持续热门属性优势，则进一步使用用户黏性和复播率数据进行优化，得到持续热门效果指数，同时运用大数据预测模型来预见访问模式。

示例性的，筛选出显示持续热门属性优势的音视频。选择的时间步长为一周，当前时间为2021年1月1日。从收录时间起点开始，筛选出了100个音视频。接下来，将这100个音视频根据时间段划分。时间段为2021年1月1日至2021年1月7日，2021年1月8日至2021年1月14日等。对于每个时间段，检索出每个时间段内观看该音视频的所有用户，将他们存入一个集合。在时间段2021年1月1日至2021年1月7日，有50个用户观看了某音视频，他们被存入一个集合。然后，应用Apriori关联算法分析得到的所有集合，计算每个频繁项集的支持度。某个频繁项集的支持度为6，超过预设的阈值5，所以它被筛选出作为频繁项集。根据筛选出的频繁项集的支持度和频繁项集的长度，可以确定音视频的用户黏性指数。某个频繁项集的支持度为6，频繁项集的长度为5，那么该音视频的用户黏性指数为6*5=30。接着，筛选出播放次数超过预设阈值的用户。某用户的播放次数为10次，超过的预设阈值5次，所以该用户被筛选出。根据筛选出的用户的播放次数与音视频的总播放次数，可以得出音视频的复播率。某音视频的总播放次数为100次，某用户的播放次数为10次，那么该音视频的复播率为10/100=0.1。通过对复播率、用户黏性指数和持续热点指数加权平均，可以得到持续热门效果指数。某音视频的复播率为1，用户黏性指数为3，持续热点指数为8，那么持续热门效果指数为(1*3)+(3*4)+(8*3)=39。最后，统计所有的用户的行为路径数据，以播放音视频为终点，将行为路径数据按照不同的音视频进行分类。然后，在每个类别中应用kmeans聚类算法再次进行分类，得到该类别对应音视频的访问模式。筛选出显示持续热门属性优势的音视频。选择的时间步长为一周，当前时间为2021年1月1日。从收录时间起点开始，筛选出了100个音视频。接下来，将这100个音视频根据时间段划分。时间段为2021年1月1日至2021年1月7日，2021年1月8日至2021年1月14日等。对于每个时间段，检索出每个时间段内观看该音视频的所有用户，将他们存入一个集合。在时间段2021年1月1日至2021年1月7日，有50个用户观看了某音视频，他们被存入一个集合。然后，应用Apriori关联算法分析得到的所有集合，计算每个频繁项集的支持度。某个频繁项集的支持度为6，超过预设的阈值5，所以它被筛选出作为频繁项集。根据筛选出的频繁项集的支持度和频繁项集的长度，可以确定音视频的用户黏性指数。某个频繁项集的支持度为6，频繁项集的长度为5，那么该音视频的用户黏性指数为6*5=30。接着，筛选出播放次数超过预设阈值的用户。某用户的播放次数为10次，超过的预设阈值5次，所以该用户被筛选出。根据筛选出的用户的播放次数与音视频的总播放次数，可以得出音视频的复播率。某音视频的总播放次数为100次，某用户的播放次数为10次，那么该音视频的复播率为10/100=0.1。通过对复播率、用户黏性指数和持续热点指数加权平均，可以得到持续热门效果指数。某音视频的复播率为1，用户黏性指数为3，持续热点指数为8，那么持续热门效果指数为(1*3)+(3*4)+(8*3)=39。最后，统计所有的用户的行为路径数据，以播放音视频为终点，将行为路径数据按照不同的音视频进行分类。然后，在每个类别中应用kmeans聚类算法再次进行分类，得到该类别对应音视频的访问模式。

S105、若融合后的数据显示短暂热点属性优势，使用新闻数据进行优化，得到短暂热门效果指数,同时运用新闻数据来预测访问模式。

获取音乐新闻数据，包括新闻的标题、正文内容、关键词和发布时间，对获取到的新闻数据进行清洗和标准化，去除重复项和噪声，提取新闻关键词。使用jieba识别在预设时间内出现频率高于预设频率的关键词，建立新闻关键词列表，通过词频，获取短暂热点的发展趋势，包括上升、下降或周期性变化，得出短暂热门效果指数。根据短暂热点分析的结果，更新新闻关键词列表。利用长短期记忆网络建立时间序列预测模型，使用历史新闻关键词列表和发展趋势，预测未来新闻关键词的发展趋势。通过时间序列预测模型得到新闻关键词的发展趋势，根据新闻关键词变化趋势实时调整云调度平台的预测的用户访问模式，当在时间序列预测模型得到新的新闻关键词或历史新闻关键词变化趋势时，调整云调度平台的预测的用户访问模式。例如，张三宣布将在下月发布新专辑的新闻，标题是张三即将发布新专辑，内容包含了专辑名称、发行日期、参与制作的艺术家，其中张三、新专辑、发行日期都是关键字。将这些数据进行清洗和标准化，去掉重复项、广告、无关字符，再利用jieba工具进行分词。若设定的时间段为最近30天，关键词出现频率阈值为5次，那么通过分析，发现张三、全新专辑、发行日期、合作艺人关键词。张三、全新专辑的热度持续上升，而发行日期的热度则在临近发行日时达到高峰，然后逐渐下降。若"新专辑"在前一天的频率是20次，在今天的频率是30次，那么变化率为(30-20)/20=0.5或者50%。将关键词的频率和变化趋势结合起来，使用加权公式计算短暂热门效果指数：短暂热门效果指数=(1-α)*频率+α*变化趋势，其中，α是一个在0到1之间的权重，用于平衡频率和变化趋势的重要性。通过调整α的值，可以调整指数对于频率和变化趋势的敏感度。如果设置α为0.2，那么短暂热门效果指数=0.8*30+0.2*50%=24.1。在获得关键词热度变化趋势的基础上，再次筛选出最热的关键词，张三、全新专辑、发行日期，将其添加到新闻关键词列表中。将这些新闻关键词列表以及热度变化趋势作为输入，使用长短期记忆网络建立一个时间序列预测模型，该模型会根据过去的新闻关键词变化趋势来预测未来的关键词发展情况。发现张三的热度有持续上升的趋势时，预测在未来一段时间内，与张三相关的音视频仍然会保持高关注度。一旦模型预测出未来可能出现的新关键词或者现有关键词的热度发生变化，将这些信息反馈给云调度平台，以便它能够及时地根据预测的用户访问模式来进行资源配置优化，提升服务质量和用户体验。

S106、根据上述优化后的数据，确定推送优先级，根据优先级在云调度系统进行资源分配。

示例性的，音视频库中有以下三个音视频的数据，音视频A：持续热门效果指数为80，地理位置数量为4，地理位置分散程度难易程度得分为8，初步优先级得分为8。音视频B：持续热门效果指数为90，地理位置数量为5，地理位置分散程度难易程度得分为7，初步优先级得分为9。音视频C：持续热门效果指数为70，地理位置数量为2，地理位置分散程度难易程度得分为9，初步优先级得分为7。按照音视频数据中的持续热门效果指数，可以得到持续热门音视频的排序为：B>A>C。有以下两个音视频的数据，音视频D：短暂热门效果指数为60，地理位置数量为150，地理位置分散程度难易程度得分为6，初步优先级得分为5。音视频E：短暂热门效果指数为80，地理位置数量为80，地理位置分散程度难易程度得分为7，初步优先级得分为6。按照音视频数据中的短暂热门效果指数，可以得到短暂热门音视频的排序为：E>D。根据初步推送优先级，可以建立如下推送队列，持续热门音视频推送队列：B>A>C，短暂热门音视频推送队列：E>D。然后根据推送队列中的音视频观看用户的IP地址，进行地理位置匹配和打分。持续热门音视频队列中的IP地址分布如下，音视频B：100个IP地址分布在5个地理位置，音视频A：80个IP地址分布在4个地理位置，音视频C：50个IP地址分布在2个地理位置。根据地理位置数量，可以给每个音视频队列打分：持续热门音视频推送队列得分，音视频B：20，音视频A：20，音视频C：25。然后根据地理位置分散程度，音视频B的地理位置分散程度得分为8，音视频A的地理位置分散程度得分为8，音视频C的地理位置分散程度得分为9。音视频B的初步优先级得分为9，音视频A的初步优先级得分为8，音视频C的初步优先级得分为7。根据初步优先级得分、地理位置数量得分和地理位置分散程度得分进行加权平均，可以确定最终的推送优先级，音视频B：(9*7)+(20*2)+(8*1)=111，音视频A：(8*7)+(20*2)+(8*1)=104，音视频C：(7*7)+(25*2)+(9*1)=108。最终的推送队列为，持续热门音视频推送队列：B>C>A。接下来可以根据推送队列中的音视频观看用户的地理位置，应用kmeans聚类算法进行分类，并选择距离聚类中心位置最近的服务器进行音视频存储。同时根据音视频数据中的访问模式路径的长短，确定音视频的存储设备。音视频库中有以下三个音视频的数据，音视频A：持续热门效果指数为80，地理位置数量为4，地理位置分散程度难易程度得分为8，初步优先级得分为8。音视频B：持续热门效果指数为90，地理位置数量为5，地理位置分散程度难易程度得分为7，初步优先级得分为9。音视频C：持续热门效果指数为70，地理位置数量为2，地理位置分散程度难易程度得分为9，初步优先级得分为7。按照音视频数据中的持续热门效果指数，可以得到持续热门音视频的排序为：B>A>C。有以下两个音视频的数据，音视频D：短暂热门效果指数为60，地理位置数量为150，地理位置分散程度难易程度得分为6，初步优先级得分为5。音视频E：短暂热门效果指数为80，地理位置数量为80，地理位置分散程度难易程度得分为7，初步优先级得分为6。按照音视频数据中的短暂热门效果指数，可以得到短暂热门音视频的排序为：E>D。根据初步推送优先级，可以建立如下推送队列，持续热门音视频推送队列：B>A>C，短暂热门音视频推送队列：E>D。然后根据推送队列中的音视频观看用户的IP地址，进行地理位置匹配和打分。持续热门音视频队列中的IP地址分布如下，音视频B：100个IP地址分布在5个地理位置，音视频A：80个IP地址分布在4个地理位置，音视频C：50个IP地址分布在2个地理位置。根据地理位置数量，可以给每个音视频队列打分：持续热门音视频推送队列得分，音视频B：20，音视频A：20，音视频C：25。然后根据地理位置分散程度，音视频B的地理位置分散程度得分为8，音视频A的地理位置分散程度得分为8，音视频C的地理位置分散程度得分为9。音视频B的初步优先级得分为9，音视频A的初步优先级得分为8，音视频C的初步优先级得分为7。根据初步优先级得分、地理位置数量得分和地理位置分散程度得分进行加权平均，可以确定最终的推送优先级，音视频B：(9*7)+(20*2)+(8*1)=111，音视频A：(8*7)+(20*2)+(8*1)=104，音视频C：(7*7)+(25*2)+(9*1)=108。最终的推送队列为，持续热门音视频推送队列：B>C>A。接下来可以根据推送队列中的音视频观看用户的地理位置，应用kmeans聚类算法进行分类，并选择距离聚类中心位置最近的服务器进行音视频存储。同时根据音视频数据中的访问模式路径的长短，确定音视频的存储设备。

S107、使用确定的推送优先级进行实际推送，推送的同时云调度系统进行资源重新分配以满足预期的访问需求，并采集推送效果数据。

示例性的，有一家音视频流媒体平台，拥有多个存储服务器来存储音视频数据。现在需要推送一个热门音视频给用户设备，读取推送优先级信息，推送优先级信息为1，表示该音视频是高优先级的推送。获取存储服务器采集的访问流量数据，存储服务器A在过去10分钟内的访问流量数据为[100,90,110,120,130,140,150,160,170,180]，单位为Mbps。采用自回归算法对所有存储服务器在预设时间步长内的访问流量进行预测，预设时间步长为5分钟，使用自回归模型对存储服务器A的访问流量进行预测，得到预测值为[150,160,170,180,190]，单位为Mbps。通过预设阈值判断预测的存储服务器的访问流量是否超过负载上限，负载上限为200Mbps，由于预测的存储服务器A的访问流量未超过负载上限，因此无需替代该服务器进行音视频数据的接收。获取音视频数据到达存储服务器所需的时间，音视频数据从源服务器到达存储服务器A的时间为2秒。对音视频数据到达存储服务器的实际距离和音视频数据到达存储服务器的时间进行线性回归分析，通过线性回归分析得到的相关系数为0.8，未达到预设阈值，因此无需重新选择存储服务器。获取音视频数据从存储服务器到观看用户设备的所需时间，音视频数据从存储服务器A到用户设备的传输时间为3秒。通过用户设备的IP地址获取用户的地理位置，用户设备的IP地址确定用户位于纽约。根据用户的地理位置计算用户与存储服务器之间的实际距离，存储服务器A位于纽约市中心，与用户设备的实际距离为5公里。对用户与存储服务器之间的实际距离和音视频数据从存储服务器到用户设备的所需时间进行线性回归分析，通过线性回归分析得到的相关系数为0.2，未达到预设阈值，需要进行服务器更换。有一家音视频流媒体平台，拥有多个存储服务器来存储音视频数据。现在需要推送一个热门音视频给用户设备，读取推送优先级信息，推送优先级信息为1，表示该音视频是高优先级的推送。获取存储服务器采集的访问流量数据，存储服务器A在过去10分钟内的访问流量数据为[100,90,110,120,130,140,150,160,170,180]，单位为Mbps。采用自回归算法对所有存储服务器在预设时间步长内的访问流量进行预测，预设时间步长为5分钟，使用自回归模型对存储服务器A的访问流量进行预测，得到预测值为[150,160,170,180,190]，单位为Mbps。通过预设阈值判断预测的存储服务器的访问流量是否超过负载上限，负载上限为200Mbps，由于预测的存储服务器A的访问流量未超过负载上限，因此无需替代该服务器进行音视频数据的接收。获取音视频数据到达存储服务器所需的时间，音视频数据从源服务器到达存储服务器A的时间为2秒。对音视频数据到达存储服务器的实际距离和音视频数据到达存储服务器的时间进行线性回归分析，通过线性回归分析得到的相关系数为0.8，未达到预设阈值，因此无需重新选择存储服务器。获取音视频数据从存储服务器到观看用户设备的所需时间，音视频数据从存储服务器A到用户设备的传输时间为3秒。通过用户设备的IP地址获取用户的地理位置，用户设备的IP地址确定用户位于纽约。根据用户的地理位置计算用户与存储服务器之间的实际距离，存储服务器A位于纽约市中心，与用户设备的实际距离为5公里。对用户与存储服务器之间的实际距离和音视频数据从存储服务器到用户设备的所需时间进行线性回归分析，通过线性回归分析得到的相关系数为0.2，未达到预设阈值，需要进行服务器更换。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于云调度与音视频大数据存储与访问模式预测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其中，所述通过音视频在热播榜的存在时长的排名和艺术家获取的奖项分析现有音视频库，生成持续热门音视频的概率，并将数据上传到云存储，包括：

通过API接口获取音视频收录时长和每周播放时长的数据；确定所述每周播放时长的中位数，并根据所述音视频收录时长、平均每周播放时长及中位数对音视频的流行度持久性进行评分；采用LDA算法识别社交媒体、新闻和评论中的音视频奖项名称，获取艺术家所得奖项，以及进行艺术家影响力评分；通过音视频在热播榜的存在时长排名和艺术家影响力得分，确定持续热门得分；根据流行度持久性得分和艺术家影响力得分，获得持续热门音视频的概率分布图；使用API接口将数据集自动上传到云存储；音视频数据出现变动时，更新所述持续热门得分和概率分布图，并重新上传到云存储。

3.根据权利要求1所述的方法，其中，所述获取社交媒体上与音视频相关的新闻和流量数据，判断新闻中的音视频生成短暂热点音视频的概率，并将数据分发到相应的大数据处理节点，包括：

通过API接口定时获取社交媒体上与音视频相关的新闻和流量数据；将所述数据与现有的新闻数据库进行匹配，以识别与所述数据相关的新闻，并关联所述新闻讨论的音视频；基于所述新闻的流量数据，判断与新闻相关联音视频的热度得分；筛选包含所述热度得分的音视频，并依据预设的数据清洗规则去除异常值和无关数据；根据所述热度得分，计算每个音视频的热度得分占比，并据此生成短暂热点音视频的概率分布图；根据新闻流量的实时变化，调整所述短暂热点音视频的概率分布图；通过HTTPS协议将数据分发到大数据处理节点，以进行持久化存储和进一步分析。

4.根据权利要求1所述的方法，其中，所述对持续热门和短暂热点的概率进行归一化处理，并融合这两类数据，得到持续热点指数和短暂热点指数，同时更新云存储的数据，包括：

5.根据权利要求1所述的方法，其中，所述若融合后的数据显示持续热门属性优势，则进一步使用用户黏性和复播率数据进行优化，得到持续热门效果指数，同时运用大数据预测模型来预见访问模式，包括：

获取融合后的数据中显示持续热门属性优势的音视频；采用预设的时间步长，以所述音视频的收录时间为起点，以当前时间为终点，对所述音视频进行时间段划分；通过对所述时间段内的音视频，检索出观看所述音视频的所有用户，将同一时间段的用户存入一个集合；应用Apriori关联算法分析得到的所有集合，计算每个频繁项集的支持度，根据预设阈值筛选出频繁项集；根据筛选出的频繁项集的支持度和频繁项集的长度，确定所述音视频的用户黏性指数；通过检索所述音视频的播放记录与用户列表，筛选出播放次数超过预设阈值的用户；根据筛选出的用户的播放次数与所述音视频的总播放次数得出所述音视频的复播率；通过对复播率、用户黏性指数和持续热点指数加权平均得到持续热门效果指数；统计所有的用户的行为路径数据，以播放所述音视频为终点，将行为路径数据按照不同的音视频进行分类；在每个类别中应用kmeans聚类算法再次进行分类，得到该类别对应所述音视频的访问模式。

6.根据权利要求1所述的方法，其中，所述若融合后的数据显示短暂热点属性优势，使用新闻数据进行优化，得到短暂热门效果指数,同时运用新闻数据来预测访问模式，包括:

获取音乐新闻数据，包括新闻的标题、正文内容、关键词和发布时间，对获取到的新闻数据进行清洗和标准化，去除重复项和噪声，提取新闻关键词；使用jieba识别在预设时间内出现频率高于预设频率的关键词，建立新闻关键词列表，通过词频，获取短暂热点的发展趋势，包括上升和下降或周期性变化，得出短暂热门效果指数；根据短暂热点分析的结果，更新新闻关键词列表；利用长短期记忆网络建立时间序列预测模型，使用历史新闻关键词列表和发展趋势，预测未来新闻关键词的发展趋势；通过时间序列预测模型得到新闻关键词的发展趋势，根据新闻关键词变化趋势实时调整云调度平台的预测的用户访问模式，当在时间序列预测模型得到新的新闻关键词或历史新闻关键词变化趋势时，调整云调度平台的预测的用户访问模式。

7.根据权利要求1所述的方法，其中，所述根据上述优化后的数据，确定推送优先级，根据优先级在云调度系统进行资源分配，包括：

获取音视频库中的全部音视频数据，并根据热门属性将这些数据分类为持续热门和短暂热门；采用所述音视频数据中的持续热门效果指数，对持续热门音视频进行降序排列；采用所述音视频数据中的短暂热门效果指数，对短暂热门音视频进行降序排列；通过重新检索音视频库，确定音视频分类的正确性、完整性和唯一性；根据所述音视频数据的排列顺序，确定初步推送优先级，并对所有音视频进行优先级打分；在云调度系统中，为不同分类的音视频建立推送队列；获取所述推送队列中音视频的观看用户IP地址，并匹配其地理位置；对推送难易程度进行打分，结合所述地理位置的数量和分散程度；将地理位置难易程度得分、分散程度得分和初步优先级得分进行加权平均，得到最终的推送优先级；采用kmeans聚类算法对用户的地理位置进行分类，检索存储服务器，确定距离聚类中心最近的服务器用于音视频存储；根据所述音视频数据中的访问模式，确定音视频的存储设备。

8.根据权利要求1所述的方法，其中，所述使用确定的推送优先级进行实际推送，推送的同时云调度系统进行资源重新分配以满足预期的访问需求，并采集推送效果数据，包括: