CN116847132A - 基于时间分片的视频更新方法、装置、电子设备及存储介质 - Google Patents

基于时间分片的视频更新方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116847132A
CN116847132A CN202311091243.6A CN202311091243A CN116847132A CN 116847132 A CN116847132 A CN 116847132A CN 202311091243 A CN202311091243 A CN 202311091243A CN 116847132 A CN116847132 A CN 116847132A
Authority
CN
China
Prior art keywords
video
statistical result
statistical
videos
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311091243.6A
Other languages
English (en)
Other versions
CN116847132B (zh
Inventor
章动
潘世铭
张远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Small Sugar Technology Co ltd
Original Assignee
Beijing Small Sugar Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Small Sugar Technology Co ltd filed Critical Beijing Small Sugar Technology Co ltd
Priority to CN202311091243.6A priority Critical patent/CN116847132B/zh
Publication of CN116847132A publication Critical patent/CN116847132A/zh
Application granted granted Critical
Publication of CN116847132B publication Critical patent/CN116847132B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/24Monitoring of processes or resources, e.g. monitoring of server load, available bandwidth, upstream requests
    • H04N21/2407Monitoring of transmitted content, e.g. distribution time, number of downloads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/231Content storage operation, e.g. caching movies for short term storage, replicating data over plural servers, prioritizing data for deletion
    • H04N21/23103Content storage operation, e.g. caching movies for short term storage, replicating data over plural servers, prioritizing data for deletion using load balancing strategies, e.g. by placing or distributing content on different disks, different memories or different servers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/262Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists
    • H04N21/26291Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists for providing content or additional data updates, e.g. updating software modules, stored at the client
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/433Content storage operation, e.g. storage operation in response to a pause request, caching operations
    • H04N21/4334Recording operations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44204Monitoring of content usage, e.g. the number of times a movie has been viewed, copied or the amount which has been watched
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/458Scheduling content for creating a personalised stream, e.g. by combining a locally stored advertisement with an incoming stream; Updating operations, e.g. for OS modules ; time-related management operations
    • H04N21/4586Content update operation triggered locally, e.g. by comparing the version of software modules in a DVB carousel to the version stored locally
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及数据挖掘技术领域,公开了一种基于时间分片的视频更新方法、装置、电子设备及存储介质,解决了无法准确计算出爆款视频的技术问题。该方法包括:基于多个视频的历史播放信息,周期性地获取多个视频的多种统计结果,其中第一统计结果包括各个视频在统计周期内的播放次数,第二统计结果包括指定视频在统计周期内的播放次数,指定视频包括被搜索过的视频,第三统计结果包括各个视频在统计周期内获得的感兴趣操作的次数;以键值对的形式将第一统计结果、第二统计结果、第三统计结果及对应的视频信息存储在磁盘存储空间的分布式数据库中,分布式数据库中的键名以视频信息标识。利用本申请实施例能够提高爆款视频计算的实时性以及准确性。

Description

基于时间分片的视频更新方法、装置、电子设备及存储介质
技术领域
本申请涉及数据挖掘技术领域,尤其涉及一种基于时间分片的视频更新方法、装置、电子设备及计算机可读存储介质。
背景技术
目前,针对爆款视频的挖掘技术在各大视频播放平台的应用非常广泛,利用爆款视频挖掘技术能够从大量的视频中筛选出播放效果较好的一些视频,然后将这些视频作为爆款视频推荐给老用户或者是新用户。对于老用户来说,老用户看到推荐的爆款视频容易产生兴趣,进而能够提高用户的浏览时间;对于新用户来说,将爆款视频推荐给新用户,能够容易引起用户的关注和兴趣,获得新用户的喜爱,进而能够增加用户量。另外,挖掘出的爆款视频还可以作为各大媒体的榜单,进一步增加爆款视频的曝光量和点击量,爆款视频作为热门或者评分高的视频,用户在看到榜单的时候会容易产生兴趣,进而能够提高用户的浏览时间,提高用户粘性。
但是,现有技术中爆款视频的挖掘往往只以播放量的多少作为爆款视频的筛选条件,从而导致了爆款视频的挖掘不够准确。
另外,由于视频更新的速度非常快,因此,爆款视频往往具有时效性。例如,一个视频昨天是爆款视频,今天就有可能不是爆款视频了。但是由于视频更新速度快并且数量庞大,为了解决爆款视频的时效性,往往需要大量数据参与计算,因此会占用较多存储空间,导致系统容易发生卡顿,影响用户体验。
发明内容
有鉴于此,本申请实施例提供一种基于时间分片的视频方法、装置、电子设备及计算机可读存储介质,用于解决至少一种技术问题。
本申请实施例提供一种基于时间分片的视频更新方法,包括:基于多个视频的历史播放信息,周期性地获取多个视频的多种统计结果,其中第一统计结果包括各个视频在统计周期内的播放次数,第二统计结果包括指定视频在统计周期内的播放次数,指定视频包括被搜索过的视频,第三统计结果包括各个视频在统计周期内获得的感兴趣操作的次数;以键值对的形式将第一统计结果、第二统计结果、第三统计结果及对应的视频信息存储在磁盘存储空间的分布式数据库中,分布式数据库中的键名以视频信息标识,键值对应的存储空间按照统计周期的时间顺序被划分为多个时间分片,每个时间分片中存储对应周期的第一统计结果、第二统计结果和第三统计结果;在到达爆款视频更新时刻之前,调取各个键名对应的键值中距离爆款视频更新时刻最近的N个时间分片内的第一统计结果、第二统计结果和第三统计结果,N为正整数;根据调取的第一统计结果,计算各个键名对应的各个视频在N个时间分片内的播放总次数,排序并生成第一视频集合;根据调取的第二统计结果,计算各个键名对应的各个指定视频在N个时间分片内的播放总次数,排序并生成第二视频集合;根据调取的第三统计结果,计算各个键名对应的各个视频在N个时间分片内的感兴趣操作总次数,排序并生成第三视频集合;根据第一视频集合、第二视频集合和第三视频集合的交集,确定要更新的爆款视频。
可选地,根据本申请实施例的方法,所述方法还包括:以爆款视频的更新周期与所述统计周期的比值作为N的值。
可选地,根据本申请实施例的方法,所述分布式数据库包括以下数据库中的至少一种:hbase、cassandra、redis数据库。
可选地,根据本申请实施例的方法,所述分布式数据库为hbase数据库,所述hbase数据库中键值对应存储空间以时间分片的形式划分为多个列。
可选地,根据本申请实施例的方法,所述根据第一视频集合、第二视频集合和第三视频集合的交集,确定要更新的爆款视频,包括:当所述第一视频合集、所述第二视频合集和所述第三视频合集具有相同的第一视频时,将第一视频作为爆款视频;当所述第一视频合集、所述第二视频合集和所述第三视频合集不具有相同的视频,且第一视频合集、所述第二视频合集有相同的第二视频时,将第二视频作为爆款视频。
可选地,根据本申请实施例的方法,所述根据第一视频集合、第二视频集合和第三视频集合的交集,确定要更新的爆款视频,包括:当所述第一视频合集、所述第二视频合集和所述第三视频合集不具有相同的视频时,将第一视频合集中的视频作为爆款视频。
可选地,根据本申请实施例的方法,所述方法还包括:当交集中视频的数量小于爆款视频的预设数量时,按照第一视频合集中视频的排列顺序选取目标数量的视频作为爆款视频的补充视频,所述目标数量等于爆款视频的预设数量与交集中视频的数量的差。
可选地,根据本申请实施例的方法,基于实时计算框架flink按周期的时长计算每个视频的第一统计结果、第二统计结果和第三统计结果。
本申请实施例提供一种基于时间分片的视频更新装置,包括:获取模块,用于基于多个视频的历史播放信息,周期性地获取多个视频的多种统计结果,其中第一统计结果包括各个视频在统计周期内的播放次数,第二统计结果包括指定视频在统计周期内的播放次数,指定视频包括被搜索过的视频,第三统计结果包括各个视频在统计周期内获得的感兴趣操作的次数;存储模块,用于以键值对的形式将第一统计结果、第二统计结果、第三统计结果及对应的视频信息存储在磁盘存储空间的分布式数据库中,分布式数据库中的键名以视频信息标识,键值对应的存储空间按照统计周期的时间顺序被划分为多个时间分片,每个时间分片中存储对应周期的第一统计结果、第二统计结果和第三统计结果;调取模块,用于在到达爆款视频更新时刻之前,调取各个键名对应的键值中距离爆款视频更新时刻最近的N个时间分片内的第一统计结果、第二统计结果和第三统计结果,N为正整数;第一计算模块,用于根据调取的第一统计结果,计算各个键名对应的各个视频在N个时间分片内的播放总次数,排序并生成第一视频集合;第二计算模块,用于根据调取的第二统计结果,计算各个键名对应的各个指定视频在N个时间分片内的播放总次数,排序并生成第二视频集合;第三计算模块,用于根据调取的第三统计结果,计算各个键名对应的各个视频在N个时间分片内的感兴趣操作总次数,排序并生成第三视频集合;爆款视频确定模块,用于根据第一视频集合、第二视频集合和第三视频集合的交集,确定要更新的爆款视频。
本申请实施例提供一种电子设备,所述电子设备包括处理器以及存储有计算机程序指令的存储器;所述处理器执行所述计算机程序指令时实现如上所述的方法的步骤。
本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如上所述的方法的步骤。
本申请的实施例通过对多种用户行为数据进行统计,以及根据统计结果获取多种行为数据的交集的方式来计算爆款视频,提高了爆款视频的计算准确性,通过按照统计的时间顺序对磁盘存储空间进行分片,进而存储对应时间的统计结果,不仅提高了爆款视频计算的实时性,还最大限度地节省了内存空间,避免引发系统卡顿或死机。
附图说明
为了更清楚地说明本申请实施例的技术方案,以下对本申请实施例中的附图作简单介绍。
图1示出了本申请实施例的一种系统架构的示意图;
图2示出了本申请实施例的基于时间分片的视频更新方法的流程示意图;
图3示出了本申请实施例的一种划分时间段的方式;
图4是本申请实施例的一种基于时间分片的视频更新方法的流程图;
图5是本申请实施例的基于时间分片的视频更新装置的结构框图;
图6示出本申请实施例的电子设备的硬件结构示意图。
具体实施方式
以下将参考若干示例性实施方式来描述本申请的原理和精神。应当理解,提供这些实施方式的目的是为了使本申请的原理和精神更加清楚和透彻,使本领域技术人员能够更好地理解进而实现本申请的原理和精神。本文中提供的示例性实施方式仅是本申请的一部分实施方式,而不是全部的实施方式。基于本文中的实施方式,本领域普通技术人员在不付出创造性劳动前提下所获得的所有其他实施方式,都属于本申请保护的范围。
本申请的实施例涉及终端设备和/或服务器。本领域技术人员知晓,本申请的实施方式可以实现为一种系统、装置、设备、方法、计算机可读存储介质或计算机程序产品。因此,本公开可以具体实现为以下至少一种形式:完全的硬件、完全的软件,或者硬件与软件结合的形式。根据本申请的实施方式,本申请请求保护一种基于时间分片的视频更新方法、装置、电子设备及计算机可读存储介质。图1示出了本申请实施例的一种系统架构的示意图。如图1所示,该系统包括终端设备102和服务器104。其中,终端设备102可以包括以下至少一项:智能手机、平板电脑、笔记本电脑、台式电脑、智能电视、各类可穿戴设备、增强现实AR设备、虚拟现实VR设备等等。终端设备102上可以安装客户端,例如,该客户端可以为专门执行特定功能的客户端(如应用程序app),或者为内嵌有多种应用小程序(不同功能)的客户端,还可以是通过浏览器登录的客户端。用户可以在终端设备102上进行操作,比如,用户可以打开终端设备102上安装的客户端,并通过客户端操作输入指令,或者,用户可以打开终端设备102上安装的浏览器,并通过浏览器操作输入指令。在终端设备102接收到用户输入的指令之后,将包含指令的请求信息发送至服务器104。服务器104接收到请求信息之后执行相应的处理,然后将处理结果信息返回给终端设备102。通过一系列数据处理和信息交互完成用户指令。
在本文中,诸如第一、第二、第三之类的用语,仅用来将一个实体(或操作)与另一个实体(或操作)区分开来,而不在于要求或暗示这些实体(或操作)之间存在任何顺序或关联。
图2示出了本申请实施例的基于时间分片的视频更新方法的流程示意图,该方法包括以下步骤:
S101,基于多个视频的历史播放信息,周期性地获取多个视频的多种统计结果,其中第一统计结果包括各个视频在统计周期内的播放次数,第二统计结果包括指定视频在统计周期内的播放次数,指定视频包括被搜索过的视频,第三统计结果包括各个视频在统计周期内获得的感兴趣操作的次数。
S102,以键值对的形式将第一统计结果、第二统计结果、第三统计结果及对应的视频信息存储在磁盘存储空间的分布式数据库中,分布式数据库中的键名以视频信息标识,键值对应的存储空间按照统计周期的时间顺序被划分为多个时间分片,每个时间分片中存储对应周期的第一统计结果、第二统计结果和第三统计结果。
S103,在到达爆款视频更新时刻之前,调取各个键名对应的键值中距离爆款视频更新时刻最近的N个时间分片内的第一统计结果、第二统计结果和第三统计结果,N为正整数。
S104,根据调取的第一统计结果,计算各个键名对应的各个视频在N个时间分片内的播放总次数,排序并生成第一视频集合。
S105,根据调取的第二统计结果,计算各个键名对应的各个指定视频在N个时间分片内的播放总次数,排序并生成第二视频集合。
S106,根据调取的第三统计结果,计算各个键名对应的各个视频在N个时间分片内的感兴趣操作总次数,排序并生成第三视频集合。
S107,根据第一视频集合、第二视频集合和第三视频集合的交集,确定要更新的爆款视频。
在本申请的实施例中,视频的历史播放信息包括视频的播放量、点击量、点赞次数、下载次数等信息,基于视频的历史播放信息可以统计下面这些用户的行为数据:
(1)各个视频在视频播放平台的所有模块上的播放次数,其中,视频播放平台的模块指的是根据视频播放平台的功能划分的模块,在一些实施例中,可选地,视频播放平台的模块包括搜索模块、推荐模块、关注模块等;
(2)视频播放平台的搜索模块上的视频的播放次数,其中,出现在搜索模块上的视频是被用户搜索过的视频,搜索模块上的视频代表了用户的主动请求,它的播放次数的高低在一定程度上也能说明该视频是否是爆款视频;
(3)视频获得的用户感兴趣的操作的次数,其中,用户感兴趣的操作包括点赞、关注、收藏等操作。
进而,将统计得到的第一种行为数据作为第一统计结果,统计得到的第二种行为数据作为第二统计结果,统计得到的第三种行为数据作为第三种统计结果。
为了保证爆款视频的时效性,在本申请中,将周期性的统计上述三种行为数据,具体地,将时间划分为多个连续的时间段,一个时间段为一个周期,对统计得到的各个时间段的第一统计结果、第二统计结果和第三统计结果按照统计周期的时间顺序进行分片存储。
在本申请的实施例中,第一统计结果、第二统计结果、第三统计结果及对应的视频信息存储在磁盘存储空间的分布式数据库中,其中,第一统计结果、第二统计结果和第三统计结果以键值的形式存储在分布式数据库中,各个统计结果数据对应的视频信息以键名的形式存储在分布式数据库中。在本申请的一些实施例中,可选地,视频信息包括视频的ID信息。
由于需要存储的数据量比较大,为了简化数据库减少加载时间,本申请将键值对应的分布式数据库中的存储空间按照周期的时间顺序划分为多个时间分片,例如,第一个周期获取的统计结果被存储在第一个时间分片,第二个周期获取的统计结果被存储在第二个时间分片中,第三个周期获取的统计数据被存储在第三个时间分片中……,获取统计结果时,直接从对应的时间分片中调取,提高了调取速度。
具体地,在爆款视频的更新时刻,可以根据其更新周期和统计周期,调取距离更新时刻最近的N个时间分片的第一统计结果、第二统计结果和第三统计结果,其中,每个时间分片中均包含第一统计结果、第二统计结果和第三统计结果。
另外,为了便于理解第一视频集合、第二视频集合或第三视频集合的生成过程,下面以第一统计结果的整合过程为例进行说明:
在本申请实施例中,将N个时间分片中的第一统计结果进行整合,确定各个视频在N个时间分片中的播放总次数,并根据播放总次数的多少进行排序,生成第一视频集合。在一些实施例中,可选地,根据播放总次数按照由多到少的顺序对各个播放总次数对应的视频信息进行排序。在本申请的一些实施例中,可选地,生成的第一视频合集包括排在前100位的视频对应的视频信息。
类似地,可以得到第二视频集合和第三视频集合,其中,作为示例,第二视频集合也可以是排在前100位的视频对应的视频信息的集合、第三视频合集也可以是排在前100位的视频对应的视频信息的集合。之后,求取第一视频集合、第二视频集合和第三视频集合的交集就可以得到爆款视频的集合。
本申请实施例将统计结果存储在磁盘空间的分布式数据库中,能够节省内存空间,防止因为存储数据过大导致的加载缓慢等问题的出现。并且,分布式数据库还具有高可用性、可扩展性、高可靠性,进而能够更好的保存和管理统计结果以及对应的视频信息。
另外,在爆款视频的计算过程中需要有大量的数据参与,也会产生大量的数据,因此会占用较多存储空间,采用本申请实施例提出的视频更新方法,既能够满足实时爆款推荐的需求,又能够最大限度节约存储空间,避免引发系统卡顿或死机,提高爆款视频更新的实时性和爆款视频计算结果的准确性。
在本申请的一些实施例中,可选地,所述方法还包括:以爆款视频的更新周期与所述统计周期的比值作为N的值。
图3示出了本申请实施例的一种划分时间段的方式。如图3所示,时间被分成多个时间片段,“第1片”对应第1个统计周期,“第2片”对应第2个统计周期,“第3片”对应第3个统计周期,“第13片”对应第13个统计周期,“第14片”对应第14个统计周期。每个时间片段的时长为5分钟,即每个统计周期的时长为5分钟,每个统计周期内的第一统计结果、第二统计结果、第三统计结果按照时间顺序存储在键值对应的存储空间的时间分片中,即第1统计周期对应第1个时间分片、第2统计周期对应第2个时间分片、第3个统计周期对应第3个时间分片……。
在到达爆款视频更新时刻之前,根据爆款视频的更新周期以及统计周期来确定需要调取的时间分片。结合图3所示,假设当前时间是第70分钟也即是爆款视频的更新时刻,爆款视频的更新周期为一个小时,那么只需要获取第3个统计周期到第14个统计周期这12个统计周期对应的统计结果并进行整合排序就能够得到相应的视频集合,其中,选取的时间段为第70分钟前12个统计周期对应的时间段,即N=60/5=12。
在本申请的一些实施例中,可选地,所述分布式数据库包括以下数据库中的至少一种:hbase、cassandra、redis数据库。
利用分布式数据库存储本申请的统计结果能够提高数据存储的可靠性,使得本申请的实施例即使在面对较多存储数据时,仍能够具有较高的加载速度。
在本申请的一些实施例中,可选地,所述分布式数据库为hbase数据库,所述hbase数据库中键值对应存储空间以时间分片的形式划分为多个列。
与其它数据库相比,hbase数据库具有容量巨大、良好的扩展性、稀疏性、高性能等优点,在本申请实施例中使用hbase数据库能提高视频存储的可靠性以及扩大存储空间。
在本申请的一些实施例中,可选地,所述根据第一视频集合、第二视频集合和第三视频集合的交集,确定要更新的爆款视频,包括:
当所述第一视频合集、所述第二视频合集和所述第三视频合集具有相同的第一视频时,将第一视频作为爆款视频;
当所述第一视频合集、所述第二视频合集和所述第三视频合集不具有相同的视频,且第一视频合集、所述第二视频合集有相同的第二视频时,将第二视频作为爆款视频。
例如,第一视频合集中包括A视频、B视频和C视频;第二视频合集中包括A视频、D视频和E视频;第三视频合集包括A视频、B视频和D视频,那么第一视频为A视频,爆款视频则包括A视频;
当第一视频合集中包括A视频、B视频和C视频;第二视频合集中包括A视频、B视频和F视频;第三视频合集包括D视频、E视频和I视频,那么第二视频为A视频和B视频,爆款视频则包括A视频和B视频。
在本申请的一些实施例中,可选地,所述根据第一视频集合、第二视频集合和第三视频集合的交集,确定要更新的爆款视频,包括:
当所述第一视频合集、所述第二视频合集和所述第三视频合集不具有相同的视频时,将第一视频合集中的视频作为爆款视频。
需要说明的是,如果第一视频合集中视频的数量大于预设的爆款视频的数量,可以选取第一视频合集中排列在前的预设数量的视频作为爆款视频,其中预设数量等于预设的爆款视频的数量。例如,预设的爆款视频的数量为50个,而第一视频合集中视频的数量为80个,那么可以从第一视频合集的80个视频中挑选出排在前50个的视频作为爆款视频。
在本申请的一些实施例中,可选地,当交集中视频的数量小于爆款视频的预设数量时,按照第一视频合集中视频的排列顺序选取目标数量的视频作为爆款视频的补充视频,所述目标数量等于爆款视频的预设数量与交集中视频的数量的差。
例如,交集中视频的数量是30个,而爆款视频的预设数量是50个,那么爆款视频还差20个,对此,可以按照第一视频合集中视频的排列顺序从第一视频合集中选取20个视频作为爆款视频的补充视频。这20个视频不包括已经出现在交集中的视频。
在本申请的一些实施例中,可选地,对获取的交集中的视频进行排序后推荐给用户,具体地,可以根据计算出的热度值对交集中的视频进行排序,其中,交集中的视频的热度值的计算公式如下:
热度值 =totalplayNum×10 + searchPlayNum×30+ actionNum×60
其中, searchPlayNum指的是搜索模块的累积和, totalPlayNum指的是搜索、推荐、关注所有模块播放数累积和, actionNum指的是收藏、点赞和下载次数累积和。
最后按热度值倒序排序即为最终的爆款视频输出结果。
在本申请的一些实施例中,可选地,基于实时计算框架flink按周期的时长计算每个视频的第一统计结果、第二统计结果和第三统计结果。
在本申请中,时间计算框架flink能够按照周期的时长计算每个视频的统计量,并将计算的统计量存储在分布式数据库的时间分片中。并且实时计算框架flink是一种高吞吐、低延迟、高性能兼具的实时流式计算框架,能够支持基于事件时间语义进行窗口计算,即按照周期时长和顺序进行行为数据的统计和计算,即使用户对于视频的操作行为乱序到达,流系统也能够计算出精确的结果,保持了事件原本产生时的时序性,尽可能避免网络传输或硬件系统的影响。
以上通过多个实施例描述了本申请实施例的实现方式以及带来的优势。以下结合具体的例子,详细描述本申请实施例的具体处理过程。
图4是本申请实施例的一种基于时间分片的视频更新方法的流程图。如图4所示,基于时间分片的视频更新方法包括以下步骤:
S10,app日志数据采集和上报;
S20,实时日志采集清洗;其中,实时日志包括:搜索模块播放日志、所有模块的播放日志、感兴趣操作日志(点赞、收藏、下载日志);
S30,基于实时计算框架flink按周期时长计算每个视频的统计量。
具体包括:实时统计searchPlayNum(只统计搜索模块的累积和)、实时统计totalPlayNum(搜索、推荐、关注所有模块播放数累积和)、实时统计actionNum(收藏、点赞和下载次数累积和)。
并且,实时计算框架flink把计算结果(包括统计量和视频信息)以键值对的形式存储至hbase数据库中。键值对应的存储空间按照周期的时间顺序被划分为时间分片1、时间分片2、时间分片3……时间分片n,各个时间分片存储对应周期的统计结果。
例如,第1个周期中搜索模块中A视频的播放量为2000,B视频的播放量为3000,C视频的播放量为6000;所有模块中C视频的播放量为3000,D视频的播放量为2000,E视频的播放量为1000;关于兴趣操作(收藏、点赞和下载操作)的统计为:C视频累计兴趣操作3000;B视频累计兴趣操作1000,E视频累计兴趣操作2000。
将第1周期的各个统计结果(例如,播放量2000、播放量3000、播放量6000等)以键值的形式存储在分布式数据库的时间分片1中,统计结果对应的视频信息(A视频、B视频、C视频等)以键名的形式存储在分布式数据库中。
第2个周期中搜索模块中A视频的播放量为3000,B视频的播放量为1000,C视频的播放量为5000;所有模块中C视频的播放量为4000,D视频的播放量为1000,E视频的播放量为3000;关于兴趣操作(收藏、点赞和下载操作)的统计为:C视频累计兴趣操作2000;B视频累计兴趣操作1000,E视频累计兴趣操作2000。
将第2周期的各个统计结果以键值的形式存储在分布式数据库中的时间分片2中,统计结果对应的视频信息以键名的形式存储在分布式数据库中。
S40,定时任务计算最近某个时间段内所有时间的searchPlayNum、totalPlayNum、actionNum,取这三个统计量topM的视频的交集即为目标爆款视频集合。定时任务可以根据爆款视频的更新周期确定。例如,爆款视频的更新周期为1小时,定时任务中可以设定每隔一个小时获取与当前更新时间点相近的N个时间分片中的统计结果。
例如,爆款视频的更新周期为两个统计周期之和,爆款视频的更新时刻和第2周期相邻,因此,选取第1周期对应的时间分片1和第2周期对应的时间分片2中的数据计算爆款视频,具体地,两个周期的搜索模块中A视频的播放量为2000+3000=5000,B视频的播放量为3000+1000=4000,C视频的播放量为6000+5000=11000;所有模块中C视频的播放量为3000+4000=7000,D视频的播放量为2000+1000=3000,E视频的播放量为1000+3000=4000;关于兴趣操作(收藏、点赞和下载操作)的统计为:C视频累计兴趣操作3000+2000=5000;B视频累计兴趣操作1000+1000=2000,E视频累计兴趣操作2000+2000=4000。
对搜索模块中的视频排序:
第一名:C视频 110000
第二名:A视频 5000
第三名:B视频 4000
选取前2名作为第二视频合集:C视频 A视频
对所有模块中的视频排序:
第一名:C视频 7000
第二名:E视频 4000
第三名:D视频 3000
选取前2名作为第一视频合集:C视频 E视频
统计兴趣操作次数的视频排序:
第一名:C视频 5000
第二名:E视频 4000
第三名:B视频 2000
选取前2名作为第三视频合集:C视频 E视频
最终,取第一视频合集、第二视频合集和第三视频合集的交集作为爆款视频,由此可得,爆款视频为C视频。
与本申请的方法实施例对应地,本申请还提供一种基于时间分片的视频更新装置。图5是本申请实施例的基于时间分片的视频更新装置的结构框图。如图5所示,基于时间分片的视频更新装置100包括:
获取模块110,用于基于多个视频的历史播放信息,周期性地获取多个视频的多种统计结果,其中第一统计结果包括各个视频在统计周期内的播放次数,第二统计结果包括指定视频在统计周期内的播放次数,指定视频包括被搜索过的视频,第三统计结果包括各个视频在统计周期内获得的感兴趣操作的次数;
存储模块120,用于以键值对的形式将第一统计结果、第二统计结果、第三统计结果及对应的视频信息存储在磁盘存储空间的分布式数据库中,分布式数据库中的键名以视频信息标识,键值对应的存储空间按照统计周期的时间顺序被划分为多个时间分片,每个时间分片中存储对应周期的第一统计结果、第二统计结果和第三统计结果;
调取模块130,用于在到达爆款视频更新时刻之前,调取各个键名对应的键值中距离爆款视频更新时刻最近的N个时间分片内的第一统计结果、第二统计结果和第三统计结果,N为正整数;
第一计算模块140,用于根据调取的第一统计结果,计算各个键名对应的各个视频在N个时间分片内的播放总次数,排序并生成第一视频集合;
第二计算模块150,用于根据调取的第二统计结果,计算各个键名对应的各个指定视频在N个时间分片内的播放总次数,排序并生成第二视频集合;
第三计算模块160,用于根据调取的第三统计结果,计算各个键名对应的各个视频在N个时间分片内的感兴趣操作总次数,排序并生成第三视频集合;
爆款视频确定模块170,用于根据第一视频集合、第二视频集合和第三视频集合的交集,确定要更新的爆款视频。
本申请实施例中的电子设备可以是用户终端设备,可以是服务器,还可以是其他计算设备,也可以是云端服务器。图6示出本申请实施例的电子设备的硬件结构示意图,该电子设备可以包括处理器601以及存储有计算机程序指令的存储器602,处理器601执行计算机程序指令时实现上述任一实施例方法的流程或功能。
具体地,处理器601可以包括中央处理器(CPU),或者特定集成电路(ApplicationSpecific Integrated Circuit ,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。存储器602可以包括用于数据或指令的大容量存储器。举例来说,存储器602可以是以下至少一者:硬盘驱动器(Hard Disk Drive,HDD)、只读存储器(ROM),随机存取存储器(RAM)、软盘驱动器、闪存、光盘、磁光盘、磁带、通用串行总线(Universal Serial Bus,USB)驱动器或其他物理/有形的存储器存储设备。又如,存储器602可包括可移除或不可移除(或固定)的介质。再如,存储器602可在综合网关容灾设备的内部或外部。存储器602可以是非易失性固态存储器。换句话说,通常存储器602包括编码有计算机可执行指令的有形(非暂态)计算机可读存储介质(如存储器设备),并且当该软件被执行(如由一个或多个处理器执行)时,可执行本申请实施例的方法所描述的操作。处理器601通过读取并执行存储器602中存储的计算机程序指令,实现上述实施例中任一种方法的流程或功能。
在一个示例中,图6所示的电子设备还可包括通信接口603和总线610。其中,处理器601、存储器602、通信接口603通过总线610连接并完成相互间的通信。通信接口603主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。总线610包括硬件、软件或两者皆有,可将在线数据流量计费设备的部件彼此耦接在一起。举例来说,总线610可包括以下至少一者:加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线。总线610可包括一个或多个总线。尽管本申请实施例描述或示出了特定的总线,但本申请实施例可考虑任何合适的总线或互连方式。
结合上述实施例中的方法,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序指令,该计算机程序指令被处理器执行时实现上述实施例中任一种方法的流程或功能。
以上示例性地描述了本申请实施例的方法、装置、系统和计算机程序产品的流程图和/或框图,并描述了相关的各个方面。应当理解,流程图和/或框图中的每个方框或其组合,可以由计算机程序指令实现,也可以由执行指定功能或动作的专用硬件来实现,还可由专用硬件和计算机指令的组合来实现。例如,这些计算机程序指令可被提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,以形成一种机器可使得经由这种处理器执行的这些指令使能对流程图和/或框图中的每个方框或其组合中指定的功能/动作的实现。这种处理器可以是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。
本申请实施例的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等;当以软件方式实现时,是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在存储器中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
需说明,本申请并不局限于上文所描述或在图中示出的特定配置和处理。以上所述仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,所描述的系统、设备、模块或单元的具体工作过程,可以参考方法实施例中的对应过程,不需再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。

Claims (11)

1.一种基于时间分片的视频更新方法,其特征在于,包括:
基于多个视频的历史播放信息,周期性地获取多个视频的多种统计结果,其中第一统计结果包括各个视频在统计周期内的播放次数,第二统计结果包括指定视频在统计周期内的播放次数,指定视频包括被搜索过的视频,第三统计结果包括各个视频在统计周期内获得的感兴趣操作的次数;
以键值对的形式将第一统计结果、第二统计结果、第三统计结果及对应的视频信息存储在磁盘存储空间的分布式数据库中,分布式数据库中的键名以视频信息标识,键值对应的存储空间按照统计周期的时间顺序被划分为多个时间分片,每个时间分片中存储对应周期的第一统计结果、第二统计结果和第三统计结果;
在到达爆款视频更新时刻之前,调取各个键名对应的键值中距离爆款视频更新时刻最近的N个时间分片内的第一统计结果、第二统计结果和第三统计结果,N为正整数;
根据调取的第一统计结果,计算各个键名对应的各个视频在N个时间分片内的播放总次数,排序并生成第一视频集合;
根据调取的第二统计结果,计算各个键名对应的各个指定视频在N个时间分片内的播放总次数,排序并生成第二视频集合;
根据调取的第三统计结果,计算各个键名对应的各个视频在N个时间分片内的感兴趣操作总次数,排序并生成第三视频集合;
根据第一视频集合、第二视频集合和第三视频集合的交集,确定要更新的爆款视频。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:以爆款视频的更新周期与所述统计周期的比值作为N的值。
3.根据权利要求1所述的方法,其特征在于,所述分布式数据库包括以下数据库中的至少一种:hbase、cassandra、redis数据库。
4.根据权利要求1所述的方法,其特征在于,所述分布式数据库为hbase数据库,所述hbase数据库中键值对应存储空间以时间分片的形式划分为多个列。
5.根据权利要求1所述的方法,其特征在于,所述根据第一视频集合、第二视频集合和第三视频集合的交集,确定要更新的爆款视频,包括:
当所述第一视频合集、所述第二视频合集和所述第三视频合集具有相同的第一视频时,将第一视频作为爆款视频;
当所述第一视频合集、所述第二视频合集和所述第三视频合集不具有相同的视频,且第一视频合集、所述第二视频合集有相同的第二视频时,将第二视频作为爆款视频。
6.根据权利要求1所述的方法,其特征在于,所述根据第一视频集合、第二视频集合和第三视频集合的交集,确定要更新的爆款视频,包括:
当所述第一视频合集、所述第二视频合集和所述第三视频合集不具有相同的视频时,将第一视频合集中的视频作为爆款视频。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当交集中视频的数量小于爆款视频的预设数量时,按照第一视频合集中视频的排列顺序选取目标数量的视频作为爆款视频的补充视频,所述目标数量等于爆款视频的预设数量与交集中视频的数量的差。
8.根据权利要求1所述的方法,其特征在于,基于实时计算框架flink按周期的时长计算每个视频的第一统计结果、第二统计结果和第三统计结果。
9. 一种基于时间分片的视频更新装置, 其特征在于,包括:
获取模块,用于基于多个视频的历史播放信息,周期性地获取多个视频的多种统计结果,其中第一统计结果包括各个视频在统计周期内的播放次数,第二统计结果包括指定视频在统计周期内的播放次数,指定视频包括被搜索过的视频,第三统计结果包括各个视频在统计周期内获得的感兴趣操作的次数;
存储模块,用于以键值对的形式将第一统计结果、第二统计结果、第三统计结果及对应的视频信息存储在磁盘存储空间的分布式数据库中,分布式数据库中的键名以视频信息标识,键值对应的存储空间按照统计周期的时间顺序被划分为多个时间分片,每个时间分片中存储对应周期的第一统计结果、第二统计结果和第三统计结果;
调取模块,用于在到达爆款视频更新时刻之前,调取各个键名对应的键值中距离爆款视频更新时刻最近的N个时间分片内的第一统计结果、第二统计结果和第三统计结果,N为正整数;
第一计算模块,用于根据调取的第一统计结果,计算各个键名对应的各个视频在N个时间分片内的播放总次数,排序并生成第一视频集合;
第二计算模块,用于根据调取的第二统计结果,计算各个键名对应的各个指定视频在N个时间分片内的播放总次数,排序并生成第二视频集合;
第三计算模块,用于根据调取的第三统计结果,计算各个键名对应的各个视频在N个时间分片内的感兴趣操作总次数,排序并生成第三视频集合;
爆款视频确定模块,用于根据第一视频集合、第二视频集合和第三视频集合的交集,确定要更新的爆款视频。
10.一种电子设备,其特征在于,所述电子设备包括:处理器以及存储有计算机程序指令的存储器;所述电子设备执行所述计算机程序指令时实现如权利要求1-8中任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-8中任一项所述的方法。
CN202311091243.6A 2023-08-29 2023-08-29 基于时间分片的视频更新方法、装置、电子设备及存储介质 Active CN116847132B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311091243.6A CN116847132B (zh) 2023-08-29 2023-08-29 基于时间分片的视频更新方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311091243.6A CN116847132B (zh) 2023-08-29 2023-08-29 基于时间分片的视频更新方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN116847132A true CN116847132A (zh) 2023-10-03
CN116847132B CN116847132B (zh) 2023-12-08

Family

ID=88167401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311091243.6A Active CN116847132B (zh) 2023-08-29 2023-08-29 基于时间分片的视频更新方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116847132B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117349347A (zh) * 2023-12-05 2024-01-05 北京天元特通科技有限公司 数据集的更新统计方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104065981A (zh) * 2014-06-20 2014-09-24 海信集团有限公司 一种视频推荐方法和装置
US20170171627A1 (en) * 2015-12-15 2017-06-15 Le Holdings(Beijing)Co., Ltd. Method and electronic device for pushing a video over a cdn
CN109274987A (zh) * 2018-08-30 2019-01-25 武汉斗鱼网络科技有限公司 一种视频集合排序方法、服务器及可读存储介质
CN113382302A (zh) * 2021-05-27 2021-09-10 北京达佳互联信息技术有限公司 视频确定方法、装置、服务器及存储介质
CN116049540A (zh) * 2022-11-18 2023-05-02 深圳市元创时代科技有限公司 一种数据统计方法、系统、终端及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104065981A (zh) * 2014-06-20 2014-09-24 海信集团有限公司 一种视频推荐方法和装置
US20170171627A1 (en) * 2015-12-15 2017-06-15 Le Holdings(Beijing)Co., Ltd. Method and electronic device for pushing a video over a cdn
CN109274987A (zh) * 2018-08-30 2019-01-25 武汉斗鱼网络科技有限公司 一种视频集合排序方法、服务器及可读存储介质
CN113382302A (zh) * 2021-05-27 2021-09-10 北京达佳互联信息技术有限公司 视频确定方法、装置、服务器及存储介质
CN116049540A (zh) * 2022-11-18 2023-05-02 深圳市元创时代科技有限公司 一种数据统计方法、系统、终端及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117349347A (zh) * 2023-12-05 2024-01-05 北京天元特通科技有限公司 数据集的更新统计方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN116847132B (zh) 2023-12-08

Similar Documents

Publication Publication Date Title
US11775411B2 (en) Detection of computing resource leakage in cloud computing architectures
CN109857935B (zh) 一种信息推荐方法及装置
CN116847132B (zh) 基于时间分片的视频更新方法、装置、电子设备及存储介质
EP2815335A1 (en) Method of machine learning classes of search queries
CN107026892B (zh) 消息推荐方法和装置
CN108388509B (zh) 一种软件测试方法、计算机可读存储介质及终端设备
CN107633023A (zh) 一种图像去重方法和装置
CN111400546B (zh) 一种视频召回方法、视频推荐方法及装置
CN104243590A (zh) 资源对象推荐方法和装置
CN112650921B (zh) 一种对象推荐方法、装置、设备及存储介质
CN110619095A (zh) 排序方法及装置
CN107291835B (zh) 一种搜索词的推荐方法和装置
CN111241381A (zh) 信息推荐方法、装置、电子设备及计算机可读存储介质
CN112182370A (zh) 物品类目信息推送方法、装置、电子设备和介质
CN108228598B (zh) 媒体信息排序方法、服务器和系统
CN107277118B (zh) 生成节点的常用访问路径的方法和装置
CN116955808A (zh) 一种游戏推荐方法、装置、电子设备及介质
CN103530392B (zh) 确定抓取流量的方法及设备
CN111177561B (zh) 一种测试方法和装置
CN111125158B (zh) 数据表处理方法、装置、介质及电子设备
CN110020166B (zh) 一种数据分析方法及相关设备
CN113780666B (zh) 一种缺失值的预测方法及装置、可读存储介质
CN108595513B (zh) 一种视频搜索作弊处理方法及装置
CN114489574B (zh) 一种基于svm的流处理框架的自动调优方法
CN109213922A (zh) 一种对搜索结果排序的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant