CN112734103A - 一种基于时空轮序的视频冷片预测方法与装置 - Google Patents
一种基于时空轮序的视频冷片预测方法与装置 Download PDFInfo
- Publication number
- CN112734103A CN112734103A CN202110008601.7A CN202110008601A CN112734103A CN 112734103 A CN112734103 A CN 112734103A CN 202110008601 A CN202110008601 A CN 202110008601A CN 112734103 A CN112734103 A CN 112734103A
- Authority
- CN
- China
- Prior art keywords
- film
- cold
- video
- metadata information
- video metadata
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012544 monitoring process Methods 0.000 claims abstract description 54
- 238000012163 sequencing technique Methods 0.000 claims abstract description 29
- 238000004364 calculation method Methods 0.000 claims abstract description 26
- 238000007405 data analysis Methods 0.000 claims abstract description 24
- 230000008030 elimination Effects 0.000 claims abstract description 14
- 238000003379 elimination reaction Methods 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 106
- 238000013139 quantization Methods 0.000 claims description 28
- 230000006399 behavior Effects 0.000 claims description 19
- 230000015654 memory Effects 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 15
- 238000005259 measurement Methods 0.000 claims description 7
- 230000003993 interaction Effects 0.000 claims description 4
- 238000010899 nucleation Methods 0.000 claims description 2
- 238000012552 review Methods 0.000 claims description 2
- 238000012423 maintenance Methods 0.000 abstract description 11
- 230000007246 mechanism Effects 0.000 abstract description 9
- 238000004458 analytical method Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000010276 construction Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000002347 injection Methods 0.000 description 2
- 239000007924 injection Substances 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06311—Scheduling, planning or task assignment for a person or group
- G06Q10/063114—Status monitoring or status determination for a person or group
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Marketing (AREA)
- Educational Administration (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于时空轮序的视频冷片预测方法与装置,通过数据分析获取监控时间段内每个影片在每个存储节点上的视频元数据信息,所述视频元数据信息包括影片的基本属性信息和用户行为信息;基于影片的存储空间分布特点和视频元数据信息构建时空轮序决策模型;其中,所述时空轮序决策模型用于计算各影片的冷片排序度量值;基于得到的每个影片在每个存储节点上的视频元数据信息,利用所述时空轮序决策模型计算每个影片在监控时间段内的冷片排序度量值,进而根据计算结果完成冷片预测与淘汰。本方案可有效解决传统冷片判断机制存在的效率低、准确率低、维护复杂、自动化程度低等技术问题。
Description
技术领域
本发明属于视频数据分析服务技术领域,更具体地,涉及一种基于时空轮序的视频冷片预测方法与装置。
背景技术
随着互联网技术的大力发展,尤其是4K视频、5G技术的兴起,大视频占用的存储资源越来越多,如果一定时间内不对冷片进行干预,而是直接扩容存储设备的话,就需要资金的大量投入以及有限机柜的占用。因此,为减小人力、财力、设备等资源的浪费,通常需要对视频资源进行冷片判断,然后将选出的冷片淘汰,从而空出一部分存储资源。
目前,冷片判断机制主要是通过维护人员的主观判断或通过脚本来计算,这就存在效率低、准确率低、维护复杂、自动化程度低的问题,无法精确快速地判断冷片。还存在一种基于先进先出的淘汰机制,也就是无实际冷片判断过程,只是从时间的一个维度去考虑,但这就可能存在冷片误删,即删除不是冷片的视频,这样的话被删片源后续就可能需要重新回源,导致流量浪费。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于时空轮序的视频冷片预测方法与装置,其目的在于通过大数据分析获取各影片资源的视频元数据信息,基于获取信息利用时空轮序决策模型进行冷片分析与预测,由此解决传统冷片判断机制存在的效率低、准确率低、维护复杂、自动化程度低等技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于时空轮序的视频冷片预测方法,包括:
通过数据分析获取监控时间段内每个影片在每个存储节点上的视频元数据信息,所述视频元数据信息包括影片的基本属性信息和用户行为信息;基于影片的存储空间分布特点和视频元数据信息构建时空轮序决策模型;其中,所述时空轮序决策模型用于计算各影片的冷片排序度量值;
基于得到的每个影片在每个存储节点上的视频元数据信息,利用所述时空轮序决策模型计算每个影片在监控时间段内的冷片排序度量值,进而根据计算结果完成冷片预测与淘汰。
优选地,所述通过数据分析获取监控时间段内每个影片在每个存储节点上的视频元数据信息,具体为:
从大数据平台收集监控时间段内的用户点播日志,从系统内容库获取监控时间段内的全量内容工单;
通过大数据平台对用户点播日志的解析处理以及全量内容工单数据分析,得到监控时间段内每个存储节点上的数据集;
从得到的数据集中提取出每个影片在每个存储节点上的视频元数据信息。
优选地,所述基于影片的存储空间分布特点和视频元数据信息构建时空轮序决策模型,具体为:
定义三元数据组<N,G,J>,并配置每个视频元数据信息的权重;其中,N表示存储节点集合,G表示各存储节点上的数据集合,J表示视频元数据信息集合;
根据三元数据组和每个视频元数据信息的权重,构造影片的量化函数;
基于视频元数据信息中的一项或多项信息构造影片的收敛函数,基于影片的量化函数和上映时间构造影片的热度函数;
基于影片的收敛函数和热度函数,构造影片的冷片排序度量函数。
优选地,影片Xk的量化函数具体如下:
其中,Yk为影片Xk的量化值,Yki为影片Xk在数据集Gi的量化值;Gi为集合G中的第i个数据集,对应表示存储节点Ni上的数据集;Ni为集合N中的第i个存储节点,n为集合N中的存储节点个数以及集合G中的数据集个数;
Jkij为影片Xk在数据集Gi的视频元数据信息Jj对应的值,Pj为视频元数据信息Jj的权重,Jj为集合J中的第j个视频元数据信息,m为集合J中的视频元数据信息个数;a为去重因子,且a∈(0,1]。
优选地,影片Xk的热度函数X(t,n)具体如下:
优选地,当基于视频元数据信息中影片的总评分、关注数和点播次数构造影片的收敛函数时,影片Xk的收敛函数F(t,n)具体如下:
优选地,当影片Xk的收敛函数为F(t,n),热度函数为X(t,n)时,影片Xk的冷片排序度量函数H(t,n)具体为:H(t,n)=F(t,n)+X(t,n)。
优选地,基于得到的每个影片在每个存储节点上的视频元数据信息,利用所述时空轮序决策模型计算每个影片在监控时间段内的冷片排序度量值,进而根据计算结果完成冷片预测与淘汰,具体为:
对于每个影片,基于影片在每个存储节点上的视频元数据信息以及每个视频元数据信息的权重,利用影片的量化函数计算得到该影片的量化值;
基于该影片在每个存储节点上的视频元数据信息,利用影片的收敛函数计算得到该影片的收敛函数值;
基于该影片的量化值、上映时间和监控时间段t相关信息,利用影片的热度函数计算得到该影片的热度函数值;
基于该影片的收敛函数值和热度函数值,利用影片的冷片排序度量函数计算得到该影片的冷片排序度量值;
计算得到每个影片的冷片排序度量值后,将各影片按照冷片排序度量值进行排序,并根据排序结果进行冷片预测和淘汰。
优选地,所述视频元数据信息包括影片的上映时间、名称、时长、类型、大小、导演、演员、点播次数、热度值、总评分、收藏数、关注数、互动数、评论数、转发数以及推荐数中的一项或多项。
按照本发明的另一方面,提供了一种基于时空轮序的视频冷片预测装置,包括至少一个处理器和存储器,所述至少一个处理器和存储器之间通过数据总线连接,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令在被所述处理器执行后,用于完成上述第一方面所述的基于时空轮序的视频冷片预测方法。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有如下有益效果:本发明提供的视频冷片预测方案中,根据影片的存储空间分布特点和视频元数据信息构建时空轮序决策模型,通过数据分析获取监控时间段内每个影片的点播次数、总评分等多个视频元数据信息后,利用时空轮序决策模型可计算出每个影片的冷片排序度量值,进而可根据计算结果进行冷片预测与淘汰,为相关技术人员提供高效的决策参考依据,可有效解决传统冷片判断机制存在的效率低、准确率低、维护复杂、自动化程度低等技术问题。
附图说明
图1是本发明实施例提供的一种基于时空轮序的视频冷片预测方法流程图;
图2是本发明实施例提供的一种数据分析并导入模型处理的示意图;
图3是本发明实施例提供的一种视频元数据信息的分类组成示意图;
图4是本发明实施例提供的一种基于时空轮序的视频冷片预测系统框架图;
图5是本发明实施例提供的一种基于时空轮序的视频冷片预测装置架构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
实施例1
为解决传统冷片判断机制存在的效率低、准确率低、维护复杂、自动化程度低等技术问题,本发明实施例提供了一种基于时空轮序的视频冷片预测方法,如图1所示,主要包括以下步骤:
步骤101,通过数据分析获取监控时间段内每个影片在每个存储节点上的视频元数据信息,所述视频元数据信息包括影片的基本属性信息和用户行为信息。
该步骤主要是数据的获取与分析。IPTV(Internet Protocol Television,即网路协议电视)系统或OTT TV(Over The Top Television,是一种基于开放互联网的视频服务)系统中的每个影片通常保存在多个存储节点上,结合图2,当终端用户对影片进行操作行为(例如点播、评分、收藏、关注等)之后,这些操作行为会记录在多个存储节点Node上;然后通过所述监控时间段内的数据分析,即可得到监控时间段内每个影片在每个存储节点上的视频元数据信息。具体实施过程如下:
首先,从大数据平台收集监控时间段内IPTV或OTT TV平台的用户点播日志,从IPTV或OTT TV系统内容库获取监控时间段内的全量内容工单;其中,所述用户点播日志具体可以是DAAS(Data Aggregation Analysis System,即数据聚合分析系统)用户点播日志,所述全量内容工单具体可以是CMS(Content Management System,即内容管理系统)全量内容工单,所述CMS全量内容工单又包括CMS全量注入的内容清单和直接回源本地缓存的内容清单。
然后,通过大数据平台对用户点播日志的解析处理以及全量内容工单数据分析,得到监控时间段内每个存储节点上的数据集。具体地,通过大数据平台对DAAS用户点播日志进行ETL(Extract-Transform-Load,即抽取-转换-加载,是一种数据仓库技术)解析,以及对CMS全量内容工单进行数据分析,可以得到所有存储节点上的数据信息,每个存储节点对应一个数据集。
最后,从得到的数据集中提取出IPTV或OTT TV系统中每个影片在每个存储节点上的视频元数据信息。结合图3,所述视频元数据信息通常包括影片的上映时间、名称、时长、类型、大小、导演、演员、点播次数、热度值(具体可通过影片和影片人物搜索次数来衡量)、总评分、收藏数、关注数、互动数、评论数、转发数以及推荐数中的一项或多项;其中,影片的上映时间、名称、时长、类型、大小、导演、演员等属于基本属性信息,影片的点播次数、热度值、总评分、收藏数、关注数、互动数、评论数、转发数以及推荐数等属于用户行为信息。
其中,DAAS用户点播日志的数据分析主要用来统计每个影片的点播次数、总评分等用户行为信息,CMS全量内容工单的数据分析主要用来统计每个影片的基本属性信息。例如,通过大数据平台对DAAS用户点播日志的ETL解析处理,可得到IPTV或OTT TV系统中每个影片的访问频率以及最近访问时间,而访问频率即可代表每个影片的点播次数。当然,这里仅是以DAAS用户点播日志和CMS全量内容工单为例进行说明,但并不唯一限定;在可选的实施例中,还可采用其他具有类似功能的实体,只要通过数据分析能获取用户行为信息以及影片基本属性信息即可。
步骤102,基于影片的存储空间分布特点和视频元数据信息构建时空轮序决策模型;其中,所述时空轮序决策模型用于计算各影片的冷片排序度量值。
该步骤主要是时空轮序决策模型的构建,具体构建过程如下:
1)定义三元数据组<N,G,J>,并配置每个视频元数据信息的权重。
N表示存储节点集合,假设影片资源分布的存储节点个数为n,则N={N1,N2,…,Nn},Ni为集合N中的第i个存储节点,i∈[1,n]。
G表示各存储节点上的数据集合,也就是DAAS用户点播日志和CMS全量内容工单的总数据集合。影片资源分布的存储节点个数为n时,G={G1,G2,…,Gn},Gi为集合G中的第i个数据集,对应表示存储节点Ni上的数据集。
J表示视频元数据信息集合,由影片的上映时间、点播次数、热度值、总评分等元素组成;假设视频元数据信息个数为m,则J={J1,J2,…,Jm},Jj为集合J中的第j个视频元数据信息,j∈[1,m]。同时设置每个视频元数据信息Jj对应的权重Pj,Pj∈[0,1];其中,各视频元数据信息的具体权重值可根据实际情况动态调整,在此不做限定。
2)根据上面定义的三元数据组和配置的每个视频元数据信息的权重,构造影片的量化函数。在监控时间段t内,任一影片Xk的数据信息可用如下量化函数进行量化:
其中,Yk为影片Xk的量化值,Yki为影片Xk在数据集Gi的量化值,Jkij为影片Xk在数据集Gi的视频元数据信息Jj对应的值,a为去重因子,且a∈(0,1]。基于影片数据的分布式存储与系统的集群考虑,一份数据(例如用户的同一点播记录)可能存储于一个或多个存储节点上,因此为提高计算的准确度,需要将相同的数据在不同存储节点去重,即去重复数据,对多份重复的数据仅保留一份即可。这里其实是通过并集去重复数据,在计算时具体可根据日志的ID计算重复率,然后去重,去重因子a=1-重复率;其中,去重因子a越大,表示重复数据越少,a=1表示不存在重复数据。
3)基于视频元数据信息中的一项或多项信息构造影片的收敛函数,基于影片的量化函数和上映时间构造影片的热度函数。具体如下:
随着时间的推移,每个影片资源的总评分、关注数、点播次数等用户行为信息会收敛于某一区域,因此可基于视频元数据信息中的一项或多项用户行为信息构造一个收敛函数。假设监控时间段为t,基于视频元数据信息中的总评分、关注数和点播次数构造影片的收敛函数,则任一影片Xk的收敛函数F(t,n)具体如下:
其中,为影片Xk监控时间段t内在数据集Gi的总评分,为影片Xk监控时间段t内在数据集Gi的关注数,为影片Xk监控时间段t内在数据集Gi的点播次数。当然,这里并不仅限于总评分数、点播次数和关注数,还可以根据实际运维需要增加或减少某个用户行为信息,相应地对上述收敛函数进行动态调整,在此不做赘述。其中,b为参考底数,且b∈(1,10],也是说,b必须要大于1;一般情况下,为便于数据处理,通常可将b取为e或10;当然也可使用其它经验数据为底数,在此不做具体限定。
另外,影片的上映时间是一个相当重要的参数,会直接影响影片的热度,因此可根据该影片的上映时间构造一个热度函数。在监控时间段t内,任一影片Xk的热度函数X(t,n)具体如下:
其中,T为影片Xk的视频资源发布时间参数,具体可取值为影片的上映时间的UNIX时间戳(例如,2020.10.01上映,其Unix时间戳为1601481600;2019.10.01上映,其Unix时间戳为1569859200);显然,上映时间越近,T值越大,其热度理论越高,成为冷片的概率越小。Δt为监控时间域的中位数,即监控时间段t的开始时间t0与结束时间t1对应的UNIX时间戳的算术平均值,随着监控时间轴的拉长而变小,符合实际,此处定义为趋冷因子。c为模型超参数,是一个经验值;例如,时间参数以秒为粒度,3600为一小时的秒数,则c可取值为3600,但并不唯一限定。
4)基于影片的收敛函数和热度函数,构造影片的冷片排序度量函数。
根据上述3)的结果,当影片Xk的收敛函数为F(t,n),热度函数为X(t,n)时,影片Xk的冷片排序度量函数H(t,n)具体为:
至此,整个时空轮序决策模型的构建完成。其中,步骤101和步骤102的执行顺序可以互换,并不严格限定。
步骤103,基于得到的每个影片在每个存储节点上的视频元数据信息,利用所述时空轮序决策模型计算每个影片在监控时间段内的冷片排序度量值,进而根据计算结果完成冷片预测与淘汰。
该步骤主要是冷片的分析预测,实际上是将步骤101中通过DAAS用户点播日志和CMS全量内容工单获取的数据导入步骤102构建的时空轮序决策模型中,如图2,得出计算结果。对于每个影片Xk,具体实施过程如下:
首先,基于影片Xk在每个存储节点上的视频元数据信息以及每个视频元数据信息Jj的权重Pj,利用影片的量化函数计算得到该影片的量化值Yk;
其次,基于该影片Xk在每个存储节点上的视频元数据信息,利用影片的收敛函数F(t,n)计算得到该影片Xk的收敛函数值;
然后,基于该影片Xk的量化值Yk、上映时间和监控时间段t相关信息,利用影片的热度函数X(t,n)计算得到该影片Xk的热度函数值;
最后,基于该影片Xk的收敛函数值和热度函数值,利用影片的冷片排序度量函数H(t,n)计算得到该影片Xk的冷片排序度量值。
按照上述方法,计算得到每个影片Xk的冷片排序度量值后,将各影片按照冷片排序度量值进行排序,并根据排序结果进行冷片预测和淘汰。其中,冷片排序度量值越大,影片为冷片的概率越小,运营商可以根据给出的排序结果进行人为判断处理,按需淘汰一定数量的冷片。
进一步地,在利用模型计算之前,还可依据现实运维需求,适当更新调整模型中的相关参数或视频元数据信息的权重值,然后利用更新之后的模型进行计算,得到需要的结果。
本发明实施例提供的上述视频冷片预测方法中,根据影片的存储空间分布特点和视频元数据信息构建时空轮序决策模型,通过数据分析得到IPTV或OTT TV系统中每个影片的点播次数、总评分等多个视频元数据信息后,导入时空轮序决策模型即可计算出每个影片的冷片排序度量值,进而可根据计算结果进行冷片预测与淘汰,为相关技术人员提供高效的决策参考依据,可有效解决传统冷片判断机制存在的效率低、准确率低、维护复杂、自动化程度低等技术问题。
实施例2
在上述实施例1的基础上,为使本发明的理论原理和实现变得通俗易懂,本发明实施例以采用最近三个月(2020.8.1-2020.10.31)上映的影片数据为例,即监控时间段t为最近三个月,提供了一种基于时空轮序的视频冷片预测方法的具体实施方式。
在该具体实施例中,定义三元数据组<N,G,J>。IPTV系统中影片的存储节点总数n=5,中心节点数有1个,定义为N1;边缘节点数有4个,定义为N2、N3、N4、N5,则集合N={N1,N2,N3,N4,N5},G={G1,G2,G3,G4,G5}。
假设总共有300个影片,全量的数据集合为300,存储于中心节点N1上,即G1为节点N1上DAAS用户点播日志通过ETL处理后和CMS全量内容工单数据解析后的数据集。这里需要说明的是,N1作为中心节点会存储所有影片的基本属性信息,但并不一定会存储用户行为信息,用户行为信息通常存储在边缘节点上;即G1中包含每个影片的基本属性信息,但未必包含每个影片的用户行为信息。假设300个影片分别编号为1-300,视频编号{1,2,3...100}存储在节点{N2,N3}位置上,视频编号{101,102...200}存储在节点{N4,N5}位置上,视频编号{201,202...300}存储在节点{N3,N4,N5}位置上,对应节点上的数据集记为{G2,G3,G4,G5}。这里需要说明的是,影片存储在某个边缘节点上是指影片的基本属性信息和用户行为信息均存储在该节点上;也就是说,G2、G3、G4、G5中则既包含对应影片的基本属性信息,又包含用户行为信息。
假设选取影片的上映时间、点播次数、总评分、热度值、收藏数、关注数和类型这7项视频元数据信息,即J={J1,J2,J3,J4,J5,J6,J7}={上映时间,点播次数,总评分,收藏数,关注数,热度值,类型},m=7。根据该具体实施例,则三元数据组的描述可参考表1。
表1:
为方便描述,编号为k的影片可记为Xk,用XkGi表示影片Xk的数据信息在数据集Gi上的量化,如表2所示。
表2:
基于上述数据描述,本发明实施例提供的视频冷片预测过程具体如下:
步骤201,通过对最近三个月DAAS用户点播日志的ETL解析处理以及CMS全量内容工单数据分析,提取出每个影片在每个存储节点上的视频元数据信息,即上映时间、点播次数、总评分、热度值、收藏数、关注数和类型。
其中,数据来源可使用现场的实际数据或模拟数据。本实施例中为方便解释和说明时空轮序决策模型,采用模拟数据。根据调度原则,用户的请求记录数据可分布在不同存储节点;假设用户的点播行为数据量为10000,则影片的点播次数、收藏数、关注数等理论取值在[0,10000]范围内。取最近三个月上映的影片,热度值的数据可基于影片名称和影片人物的搜索次数评定,得到的模拟数据如表3所示。
表3:
步骤202,根据表3中的数据和每个视频元数据信息的权重,利用影片的量化函数计算每个影片Xk的量化值Yk。
其中,每个视频元数据信息Jj的权重Pj取值范围为[0,1],各权重值系统可视实际情况动态调整,假设本实施例按照表4所示进行设置。
表4:
视频元数据信息J<sub>j</sub> | 上映时间 | 点播次数 | 总评分 | 收藏数 | 关注数 | 热度值 | 类型 |
权重P<sub>j</sub> | 0.9 | 0.95 | 0.9 | 0.8 | 0.95 | 0.95 | 0.5 |
考虑到用户的同一点播记录可能存储于一个或多个存储节点上,为提高计算的准确度,需要将相同的记录在不同存储节点去重,对多份重复的数据仅保留一份即可。在计算时具体可根据日志的ID计算重复率,然后进行去重。基于实施例1中的量化函数,以日志重复率取0.1为例,则去重因子a=1-0.1=0.9,每个影片的数据信息可通过如下量化函数进行量化:
以影片X1为例,在进行计算时,只有同时保存影片X1的基本属性信息和用户行为信息的节点才会参与运算。由表1-表3可知,影片X1存储的节点为N2和N3,即节点N2和N3同时存储有影片X1的基本属性信息和用户行为信息;而节点N1仅存储有影片X1的基本属性信息,未存储对应的用户行为信息,因此节点N1不参与运算,节点N2和N3参与运算。则根据上述量化函数,影片X1的量化值Y1采用如下公式计算:
其中,Y12为影片X1在数据集G2的量化值,Y13为影片X1在数据集G3的量化值,需要用对应存储节点上各视频元数据信息的数据值与对应权重的乘积再求和量化得到。结合表3中的数据和表4中的权重值,影片X1在数据集G2的量化值Y12为:
因此,影片X1的量化值Y1=Y12+Y13=16165.26+16499.12=32664.38。
在该实施例中,由于影片的上映时间在后续步骤204中参与热度函数的计算,因此为避免重复使用,此处计算量化值时上映时间未参与运算;当然,在可选的实施例中也可使上映时间同时参与此处量化值的运算(具体将上映时间对应的UNIX时间戳代入进行计算),在此不做限定。
步骤203,根据表3中的数据,利用影片的收敛函数F(t,n)计算每个影片Xk的收敛函数值。
随着时间的推移,每个影片资源的总评分、关注数、点播次数等用户行为信息会收敛于某一区域;基于实施例1中的收敛函数,以底数b取10为例,则每个影片的收敛函数值可通过如下收敛函数得到:
仍以影片X1为例,影片X1存储的节点为N2和N3,则结合表3中的数据和上述收敛函数,影片X1的收敛函数值Y1为:
步骤204,根据每个影片的量化值、上映时间和监控时间段t相关信息,利用影片的热度函数X(t,n)计算每个影片的热度函数值。
显然,影片的上映时间是一个相当重要的参数,会直接影响影片的热度;基于实施例1中的热度函数,此处以参数c取3600为例,则每个影片的热度函数值可通过如下热度函数得到:
其中,3600为一小时的秒数;T为影片Xk的视频资源发布时间参数,即影片Xk的上映时间的UNIX时间戳;Δt为监控时间域的中位数,即监控时间段t的开始时间t0与结束时间t1对应的UNIX时间戳的算术平均值。
根据表3中各影片的上映时间,对应得到UNIX时间戳如表5所示。
表5:
上映时间 | Unix时间戳(秒) |
2020/8/1 | 1596211200 |
2020/8/2 | 1596297600 |
... | |
2020/10/30 | 1603987200 |
2020/10/31 | 1604073600 |
仍以影片X1为例,根据表3、表5以及步骤202中计算的Y1可得:
因此,可得到影片X1的热度函数值X(t,n)=9.05。
步骤205,基于影片的收敛函数值和热度函数值,利用影片的冷片排序度量函数H(t,n)计算每个影片的冷片排序度量值。
仍以影片X1为例,根据上面的计算,影片X1的冷片排序度量值具体为:
H(t,n)=F(t,n)+X(n)=4.57+9.05=13.62
同理地,可按照上述步骤202-步骤205中的方法计算得到所有300个影片的冷片排序度量值,然后将300个影片按照冷片排序度量值的大小进行排序。其中,冷片排序度量值越大,影片为冷片的概率越小,运营商可以根据给出的排序结果进行人为判断处理,按需淘汰一定数量的冷片,即按照冷片排序度量值从小到大的顺序,按需删除影片。
通过上述视频冷片预测方法,可为相关技术人员提供高效的决策参考依据,有效解决传统冷片判断机制存在的效率低、准确率低、维护复杂、自动化程度低等技术问题。
实施例3
在上述实施例1和实施例2提供的基于时空轮序的视频冷片预测方法的基础上,本发明还提供了一种可用于实现上述方法的基于时空轮序的视频冷片预测系统,如图4所示,主要包括数据分析处理单元、模型构建单元和冷片预测单元。
所述数据分析处理单元主要用于数据的获取与分析,即通过数据分析获取监控时间段内每个影片在每个存储节点上的视频元数据信息;其中,所述视频元数据信息包括影片的基本属性信息和用户行为信息。具体如下:
1)从大数据平台收集监控时间段内IPTV或OTT TV平台的用户点播日志,从IPTV或OTT TV系统内容库获取监控时间段内的全量内容工单;其中,所述用户点播日志具体可以是DAAS户点播日志,所述全量内容工单具体可以是CMS全量内容工单,所述CMS全量内容工单包括CMS全量注入的内容清单和直接回源本地缓存的内容清单。2)通过大数据平台对DAAS用户点播日志的ETL解析处理以及CMS全量内容工单数据分析,得到监控时间段内每个存储节点上的数据集。3)从得到的数据集中提取出IPTV或OTT TV系统中每个影片在每个存储节点上的视频元数据信息。更具体的实现过程可参考实施例1和实施例2中的相关介绍,在此不做赘述。
所述模型构建单元主要用于时空轮序决策模型的构建,即基于影片的存储空间分布特点和视频元数据信息构建时空轮序决策模型,以便计算各影片的冷片排序度量值。具体如下:
1)定义三元数据组<N,G,J>,并配置每个视频元数据信息的权重;其中,N表示存储节点集合,G表示各存储节点上的数据集合,J表示视频元数据信息集合。2)根据上面定义的三元数据组和配置的每个视频元数据信息的权重,构造影片的量化函数。3)基于视频元数据信息中的一项或多项信息构造影片的收敛函数,基于影片的量化函数和上映时间构造影片的热度函数。4)基于影片的收敛函数和热度函数,构造影片的冷片排序度量函数。其中,更具体的实现过程和函数公式可参考实施例1和实施例2中的相关介绍,在此不做赘述。
所述冷片预测单元主要用于冷片的分析预测,即基于得到的每个影片在每个存储节点上的视频元数据信息,利用所述时空轮序决策模型计算每个影片在监控时间段内的冷片排序度量值,进而根据计算结果完成冷片预测与淘汰。也就是将所述数据分析处理单元得到的数据,导入所述模型构建单元构建的时空轮序决策模型中,得出计算结果。具体如下:
1)基于影片Xk在每个存储节点上的视频元数据信息以及每个视频元数据信息Jj的权重Pj,利用影片的量化函数计算得到该影片的量化值Yk;2)基于该影片Xk在每个存储节点上的视频元数据信息,利用影片的收敛函数F(t,n)计算得到该影片Xk的收敛函数值;3)基于该影片Xk的量化值Yk、上映时间和监控时间段t相关信息,利用影片的热度函数X(t,n)计算得到该影片Xk的热度函数值;4)最后,基于该影片Xk的收敛函数值和热度函数值,利用影片的冷片排序度量函数H(t,n)计算得到该影片Xk的冷片排序度量值;5)将各影片按照冷片排序度量值进行排序,并根据排序结果进行冷片预测和淘汰。其中,冷片排序度量值越大,影片为冷片的概率越小,运营商可以根据给出的排序结果进行人为判断处理,按需淘汰一定数量的冷片。
本发明实施例提供的上述视频冷片预测系统中,所述模型构建单元可根据影片的存储空间分布特点和视频元数据信息构建时空轮序决策模型,所述数据分析处理单元通过数据分析得到每个影片的点播次数、总评分等多个视频元数据信息,所述冷片预测单元将数据导入时空轮序决策模型即可计算出每个影片的冷片排序度量值,进而可根据计算结果进行冷片预测与淘汰,为相关技术人员提供高效的决策参考依据,可有效解决传统冷片判断机制存在的效率低、准确率低、维护复杂、自动化程度低等技术问题。
实施例4
在上述实施例1和实施例2提供的基于时空轮序的视频冷片预测方法的基础上,本发明还提供了一种可用于实现上述方法的基于时空轮序的视频冷片预测装置,如图5所示,是本发明实施例的装置架构示意图。本实施例的基于时空轮序的视频冷片预测装置包括一个或多个处理器21以及存储器22。其中,图5中以一个处理器21为例。
所述处理器21和所述存储器22可以通过总线或者其他方式连接,图5中以通过总线连接为例。
所述存储器22作为一种基于时空轮序的视频冷片预测方法非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如实施例1中的基于时空轮序的视频冷片预测方法。所述处理器21通过运行存储在所述存储器22中的非易失性软件程序、指令以及模块,从而执行基于时空轮序的视频冷片预测装置的各种功能应用以及数据处理,即实现实施例1和实施例2的基于时空轮序的视频冷片预测方法。
所述存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,所述存储器22可选包括相对于所述处理器21远程设置的存储器,这些远程存储器可以通过网络连接至所述处理器21。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述程序指令/模块存储在所述存储器22中,当被所述一个或者多个处理器21执行时,执行上述实施例1中的基于时空轮序的视频冷片预测方法,例如,执行以上描述的图1所示的各个步骤。
本领域普通技术人员可以理解实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁盘或光盘等。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于时空轮序的视频冷片预测方法,其特征在于,包括:
通过数据分析获取监控时间段内每个影片在每个存储节点上的视频元数据信息,所述视频元数据信息包括影片的基本属性信息和用户行为信息;基于影片的存储空间分布特点和视频元数据信息构建时空轮序决策模型;其中,所述时空轮序决策模型用于计算各影片的冷片排序度量值;
基于得到的每个影片在每个存储节点上的视频元数据信息,利用所述时空轮序决策模型计算每个影片在监控时间段内的冷片排序度量值,进而根据计算结果完成冷片预测与淘汰。
2.如权利要求1所述的基于时空轮序的视频冷片预测方法,其特征在于,所述通过数据分析获取监控时间段内每个影片在每个存储节点上的视频元数据信息,具体为:
从大数据平台收集监控时间段内的用户点播日志,从系统内容库获取监控时间段内的全量内容工单;
通过大数据平台对用户点播日志的解析处理以及全量内容工单数据分析,得到监控时间段内每个存储节点上的数据集;
从得到的数据集中提取出每个影片在每个存储节点上的视频元数据信息。
3.如权利要求1所述的基于时空轮序的视频冷片预测方法,其特征在于,所述基于影片的存储空间分布特点和视频元数据信息构建时空轮序决策模型,具体为:
定义三元数据组<N,G,J>,并配置每个视频元数据信息的权重;其中,N表示存储节点集合,G表示各存储节点上的数据集合,J表示视频元数据信息集合;
根据三元数据组和每个视频元数据信息的权重,构造影片的量化函数;
基于视频元数据信息中的一项或多项信息构造影片的收敛函数,基于影片的量化函数和上映时间构造影片的热度函数;
基于影片的收敛函数和热度函数,构造影片的冷片排序度量函数。
7.如权利要求3所述的基于时空轮序的视频冷片预测方法,其特征在于,当影片Xk的收敛函数为F(t,n),热度函数为X(t,n)时,影片Xk的冷片排序度量函数H(t,n)具体为:H(t,n)=F(t,n)+X(t,n)。
8.如权利要求3所述的基于时空轮序的视频冷片预测方法,其特征在于,基于得到的每个影片在每个存储节点上的视频元数据信息,利用所述时空轮序决策模型计算每个影片在监控时间段内的冷片排序度量值,进而根据计算结果完成冷片预测与淘汰,具体为:
对于每个影片,基于影片在每个存储节点上的视频元数据信息以及每个视频元数据信息的权重,利用影片的量化函数计算得到该影片的量化值;
基于该影片在每个存储节点上的视频元数据信息,利用影片的收敛函数计算得到该影片的收敛函数值;
基于该影片的量化值、上映时间和监控时间段t相关信息,利用影片的热度函数计算得到该影片的热度函数值;
基于该影片的收敛函数值和热度函数值,利用影片的冷片排序度量函数计算得到该影片的冷片排序度量值;
计算得到每个影片的冷片排序度量值后,将各影片按照冷片排序度量值进行排序,并根据排序结果进行冷片预测和淘汰。
9.如权利要求1-8任一所述的基于时空轮序的视频冷片预测方法,其特征在于,所述视频元数据信息包括影片的上映时间、名称、时长、类型、大小、导演、演员、点播次数、热度值、总评分、收藏数、关注数、互动数、评论数、转发数以及推荐数中的一项或多项。
10.一种基于时空轮序的视频冷片预测装置,其特征在于,包括至少一个处理器和存储器,所述至少一个处理器和存储器之间通过数据总线连接,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令在被所述处理器执行后,用于完成权利要求1-9任一所述的基于时空轮序的视频冷片预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110008601.7A CN112734103A (zh) | 2021-01-05 | 2021-01-05 | 一种基于时空轮序的视频冷片预测方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110008601.7A CN112734103A (zh) | 2021-01-05 | 2021-01-05 | 一种基于时空轮序的视频冷片预测方法与装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112734103A true CN112734103A (zh) | 2021-04-30 |
Family
ID=75589790
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110008601.7A Pending CN112734103A (zh) | 2021-01-05 | 2021-01-05 | 一种基于时空轮序的视频冷片预测方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112734103A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107105320A (zh) * | 2017-03-07 | 2017-08-29 | 上海交通大学 | 一种基于用户情绪的在线视频热度预测方法及系统 |
CN109522470A (zh) * | 2018-11-06 | 2019-03-26 | 汪浩 | 一种视频热度预测方法、装置、设备及存储介质 |
CN109697018A (zh) * | 2017-10-20 | 2019-04-30 | 北京京东尚科信息技术有限公司 | 调整存储节点副本数量的方法和装置 |
CN110209345A (zh) * | 2018-12-27 | 2019-09-06 | 中兴通讯股份有限公司 | 数据存储的方法及装置 |
CN110807009A (zh) * | 2019-11-06 | 2020-02-18 | 湖南快乐阳光互动娱乐传媒有限公司 | 文件处理方法及装置 |
CN111225267A (zh) * | 2018-11-26 | 2020-06-02 | 中国电信股份有限公司 | 内容缓存调度方法、装置和系统、内容分发网络节点 |
-
2021
- 2021-01-05 CN CN202110008601.7A patent/CN112734103A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107105320A (zh) * | 2017-03-07 | 2017-08-29 | 上海交通大学 | 一种基于用户情绪的在线视频热度预测方法及系统 |
CN109697018A (zh) * | 2017-10-20 | 2019-04-30 | 北京京东尚科信息技术有限公司 | 调整存储节点副本数量的方法和装置 |
CN109522470A (zh) * | 2018-11-06 | 2019-03-26 | 汪浩 | 一种视频热度预测方法、装置、设备及存储介质 |
CN111225267A (zh) * | 2018-11-26 | 2020-06-02 | 中国电信股份有限公司 | 内容缓存调度方法、装置和系统、内容分发网络节点 |
CN110209345A (zh) * | 2018-12-27 | 2019-09-06 | 中兴通讯股份有限公司 | 数据存储的方法及装置 |
CN110807009A (zh) * | 2019-11-06 | 2020-02-18 | 湖南快乐阳光互动娱乐传媒有限公司 | 文件处理方法及装置 |
Non-Patent Citations (6)
Title |
---|
张翠苹等: "云存储环境下副本选择策略研究", 《计算机科学》 * |
汪敏娟等: "一种IPTV点播内容热度预测模型及其应用", 《广东通信技术》 * |
王冬: "基于自决策的分布式代理缓存技术研究", 《中国优秀硕士学位论文全文数据库》 * |
胡涛等: "分布存储VOD系统的负载均衡设计及其仿真", 《计算机仿真》 * |
贾昊龙: "基于多因素分析的电视剧热度指标研究", 《电子世界》 * |
顾军华等: "基于大数据的IPTV视频评估模型", 《计算机应用与软件》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3568117B2 (ja) | ビデオ画像の分割、分類、および要約のための方法およびシステム | |
CA2777506C (en) | System and method for grouping multiple streams of data | |
TW202007178A (zh) | 用戶特徵的生成方法、裝置、設備及儲存介質 | |
US10423387B2 (en) | Methods for highly efficient data sharding | |
JP5711387B2 (ja) | 映像を比較する方法および装置 | |
KR20210118452A (ko) | 소셜 데이터 스트림에 대한 실시간 이벤트 검출 | |
US20170193531A1 (en) | Intelligent Digital Media Content Creator Influence Assessment | |
US11051053B2 (en) | Cloud DVR optimization | |
CN106534784A (zh) | 一种用于视频分析数据结果集的采集分析存储统计系统 | |
WO2017156994A1 (zh) | 多媒体资源的质量评估方法和装置 | |
KR101541495B1 (ko) | 캡쳐된 이미지를 이용한 동영상 분석 장치, 방법 및 컴퓨터 판독 가능한 기록 매체 | |
US20230069999A1 (en) | Method and apparatus for updating recommendation model, computer device and storage medium | |
CN106604068B (zh) | 一种更新媒体节目的方法及其系统 | |
CN111078944B (zh) | 视频内容热度预测方法和装置 | |
CN111159559A (zh) | 根据用户需求和用户行为构建推荐引擎的方法 | |
CN104657383B (zh) | 一种基于关联特性的重复视频检测方法与系统 | |
US11061916B1 (en) | Computing approximate distinct counts for large datasets | |
CN112734103A (zh) | 一种基于时空轮序的视频冷片预测方法与装置 | |
WO2023087933A1 (zh) | 内容推荐方法、装置、设备、存储介质及程序产品 | |
CN117171161A (zh) | 数据查询方法及装置 | |
CN112804566A (zh) | 节目推荐方法、设备及计算机可读存储介质 | |
CN109361904A (zh) | 一种监控视频切片存储方法及系统 | |
CN113010373B (zh) | 数据监测方法、装置、电子设备及存储介质 | |
CN116028572A (zh) | 通信业务数据的处理方法、装置和计算机存储介质 | |
Jung | Discovering social bursts by using link analytics on large-scale social networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210430 |
|
RJ01 | Rejection of invention patent application after publication |