CN116156263A - 一种用户实时追剧处理方法 - Google Patents
一种用户实时追剧处理方法 Download PDFInfo
- Publication number
- CN116156263A CN116156263A CN202310205033.9A CN202310205033A CN116156263A CN 116156263 A CN116156263 A CN 116156263A CN 202310205033 A CN202310205033 A CN 202310205033A CN 116156263 A CN116156263 A CN 116156263A
- Authority
- CN
- China
- Prior art keywords
- time
- user
- chasing
- real
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 36
- 238000004458 analytical method Methods 0.000 claims abstract description 13
- 230000010354 integration Effects 0.000 claims abstract description 11
- 238000000034 method Methods 0.000 claims description 15
- 230000009471 action Effects 0.000 claims description 13
- 230000003247 decreasing effect Effects 0.000 claims description 6
- 230000000737 periodic effect Effects 0.000 claims description 6
- 230000003203 everyday effect Effects 0.000 claims description 4
- 230000014759 maintenance of location Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000007405 data analysis Methods 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 230000006399 behavior Effects 0.000 description 25
- 230000008569 process Effects 0.000 description 3
- 241001334134 Rugopharynx epsilon Species 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4667—Processing of monitored end-user data, e.g. trend analysis based on the log file of viewer selections
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/442—Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
- H04N21/44204—Monitoring of content usage, e.g. the number of times a movie has been viewed, copied or the amount which has been watched
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4882—Data services, e.g. news ticker for displaying messages, e.g. warnings, reminders
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明提供了一种用户实时追剧处理方法,包括以下步骤:获取视频行为数据;基于视频行为数据分析用户追剧偏好;基于用户追剧偏好的分析结果进行实时追剧整合更新;基于更新结果进行实时追剧推送。本发明的目的是提出一种用户实时追剧处理方法,采用实时偏好追剧视频与线下历史追剧列表实时整合处理的方式,解决用户追剧视频列表数据不合理问题,避免用户实际在追看视频被忽略的情形,提高追剧列表视频覆盖率和曝光率,提高用户个性化追剧数据的合理性。
Description
技术领域
本发明涉及大数据处理技术领域,具体涉及一种用户实时追剧处理方法。
背景技术
智能终端设备发展迅速,特别是大屏终端设备的智能化普及,用户在享受利用智能化大屏设备观看视频带来感官刺激的同时,也对观看内容体验产生了更进一步的要求。当用户在观看连续剧集型的视频时,不管视频内容本身是否处于更新状态,只要用户有持续的观看行为,其实就已经产生了追剧的偏好。
现如今的用户追剧领域普遍的技术处理方式仅是根据视频有相关状态更新时,对比用户的追剧列表保存的原始信息差异来给用户发出相关提示,这种方式只关注有相关内容更新的视频,把用户现阶段历史观看过且更新完成的视频内容信息忽略掉了,而只有当追剧列表中有视频更新时系统才会在终端活跃状态下给用户发出提示,这种方式忽略了用户追剧阶段性行为特点,造成追剧内容缺失。
用户有对某个具体剧集型视频连续的点击观看行为,在没有观看至视频的最后剧集,这个过程就是用户有追剧的行为,这个阶段是用户正处于对该视频‘追剧’的状态,此时的追剧视频信息不在乎视频本身是否会更新,如果能获取到用户的这种追剧偏好视频,在用户终端活跃状态下主动为用户作出提示,这将更好的提升用户体验。
发明内容
对于上述用户追剧存在的问题,本发明提供一种用户实时追剧处理方法,采用实时偏好追剧分析结合历史追剧列表偏好整合推送的处理方法,能很好的解决用户追剧内容缺失的问题;换句话说,就是能提高追剧视频覆盖率、曝光率,生成更丰富化、个性化、的追剧内容供用户选择,提升用户体验。
为了实现上述目的,本发明采用以下技术方案:
一种用户实时追剧处理方法,包括以下步骤:
获取视频行为数据;
基于视频行为数据分析用户追剧偏好;
基于用户追剧偏好的分析结果进行实时追剧整合更新;
基于更新结果进行实时追剧推送。
在一些实施例中,所述获取视频行为数据包括:实时数据和离线数据,实时数据经过数据平台实时采集,将用户日志记录打入消息队列kafka中;离线数据统一加载到大数据hadoop平台。
在一些实施例中,所述实时数据的kafka消息包含用户的唯一标识Mac、点击起播视频的唯一标识Cid、视频具体的剧集表识Vid、用户点击起播开始时间s_time、用户点击结束时间即播放完成时间e_time。
在一些实施例中,离线数据加载到hdfs文件系统,建立hive记录数据分析表,表字段包含Mac、Cid、Vid、action、time等信息,其中:
time字段是采集的具体时间;
action字段是行为标记,值包含start、end,分别是观看开始和结束的标记。
在一些实施例中,所述基于视频行为数据分析用户追剧偏好,包括:对实时数据的分析和对离线数据的分析;
分析用户追剧偏好是为获取到用户的追剧视频内容,生成用户追剧列表数据;实时的视频偏好偶然性比较大,所以我们用历史的视频偏好作为数据基础,保证追剧列表数据内容偏好生成过程可溯源,保障数据合理性。
对于实时数据,观看的时长是重点关注的维度;实时处理计算用户点击观看具体视频的实时观看总时长T_r;实时观看时长是根据用户实时点播行为的开始时间s_time与结束时间e_time以及时间窗口步长H来判定,如果H时间里没有收到用户对某视频的e_time,此时用户是持续在观看这个视频,则当前用户观看视频时长T_r=H,如果H时间内收到用户点播某视频的e_time,则T_r=e_time-s_time;记录用户观看的剧集信息vid、最近起播视频的时间即点击起播事件时间;根据视频实时观看时长采取分段权重分配策略,权重R是0到1之间的小数值:R∈(0,1],比如:
我们将一个实时窗口内用户观看视频时长划分为多个段:
T_r∈{(0,t1]、(t1,t2]、(t2,t3]、(t3,t4]、(t4,H]};
不同时长分段内对应分配不同的权重值,最大权重为1:
R∈{R1,R2,R3,R4,R5},0<R1<R2<R3<R4<R5<=1;
经过上述处理,用户的实时视频观看时长就转化成了实时追剧偏好权重值。我们得到了用户实时追剧偏好记录数据,实时偏好记录包含了Mac、Cid、Vid、R值。
对于离线的视频行为数据,其本身是滞后的,一般数据是延迟到后一天作处理。统计计算出每天离线行为的视频最近时长T_d、观看剧集信息Vid、最近点播时间n_time等关键信息,形成每天用户的离线观看记录数据;每次离线的观看时长T_*=e_time–s_time,即用户每次观看的结束时间减去开始时间,此时的时长是用户观看视频剧集的时长T_vid;每天离线记录数据包Mac、Cid、Vid、T_vid、n_time等;根据用户观看留存率下降到低于50%对应的日期差值N为一个统计周期,统计N天里用户的离线视频观看记录,周期观看记录数据包含:Mac、Cid、最后观看剧集Vid_last、观看的不同剧集数Vid_count、视频观看总时长T、观看次数K、视频最近观看时间n_time、观看天数day_count、最近天数差D等信息,其中:最后观看剧集是用户在统计周期中某视频最后一条记录的剧集,观看次数K是周期里统计每天里同一视频记录的条数,最近观看时间n_time=max(s_time)[注:max()表示求最大值],D=date_diff(n_time,处理时间)[注:date_diff(n,m)表示求两个日期天数差值],即最近时间和离线处理时间计算天数差,D为自然数。对周期观看记录,结合视频信息库获取用户观看视频的总集数eps、更新剧集数ep_update,总时长T_ep等维度信息,再采用加权权重均值分配策略,即:
(1)对于观看时长T:
T=sum(T_vid),时长权重R_T=min((T/K)/(T_ep/eps),1)[注:min()表示求最小值];
(2)对于观看次数K:
K=sum(count(vid)),次数权重R_K=min(K/eps,1);
(3)对于观看天数day_count:
day_count=count(distinct day),周期里看某个Cid的天数,将天数分为多个段;
day_count∈{(0,d1]、(d1,d2]、(d2,d3]、(d3,d4]、(d4,N]},周期观看天数;
最大值为N。
天数权重采取分段权重分配:R_day∈(R1,R2,R3,R4,R5),0<R1<R2<R3<R4<R5<=1;
(4)对于最近天数差D:
D的值与我们的周期N息息相关,D的值越小,说明用户观看的Cid越新,用户越可能被吸引,所以最近天数差权重R_D是D的递减函数,即D值越大R_D越小,且D∈[0,N],我们把R_D作为D的线性递减函数:R_D=1-(D/N)。
经如上各个维度权重处理,取加权平均值得到用户线下追剧偏好:
R=(R_T*a1+R_K*a2+R_day*a3+R_D*a4)/4,其中a1,a2,a3,a4是加权值。
最后得到每个mac的离线追剧偏好数据,为保证历史追剧数据的质量,需要进行偏好阈值R_min和追剧个数L_max双重限制,即保证最终用户追剧列表中:R>=R_min,size(list)<=L_max;这两个阈值根据整体的数据召回率指标来取定,也可以根据实际数据情况直接赋值。
在一些实施例中,所述基于用户追剧偏好的分析结果进行实时追剧整合更新,包括:
经过上述步骤的处理,我们得到了实时追剧偏好和离线历史追剧偏好列表数据,实时的偏好反应的是用户即时性兴趣,偶然性比较大,换句话说即实时的偏好不能很好反应一个用户对具体视频的喜好延续性,而离线历史分析处理得到的偏好追剧列表能很好表示出用户对某些视频的喜好;两个不同形式的视频偏好整合,实时调整追剧列表偏好视频排列顺序,能让用户更可能感兴趣的内容被定位到,从而把用户失去兴趣的内容排列到列表阈值以外,保证数据质量。
我们实时处理整合两个形式的数据方式如下:
(1)当离线历史追剧列表中没有存在实时偏好的视频,则将实时偏好视频插入离线列表相应位置,插入位置与实时偏好权重有关;
(2)当离线历史追剧列表中存在实时偏好的视频,将视频从历史列表的位置提到第一,此时不管实时偏好权重如何;
离线历史的追剧偏好是每天的初始化数据,在新一天中,离线数据按照上述步骤处理完成时会在一个用户活跃状态最低时间段进行覆盖实时合并的偏好数据,如此保证追剧列表过滤掉实时整合进来的用户兴趣不高的视频数据,保障用户追剧列表数值质量。
视频信息库保存了视频所有状态,对于视频信息库的信息更新,我们实时获取更新的内容,通过离线历史追剧列表建立视频Cid到用户Mac的倒排映射数据;当存在视频更新时,就能定位到每个列表中存在偏好更新的视频的用户。
所述基于更新结果进行实时追剧推送,包括以下步骤:
追剧数据的推送是涵盖多个交互场景的,在终端有多种方式可以给用户进行提示,我们主要的方式为:
(1)在终端有专门栏目展示,即专题展示的方式给用户推送:
这个场景是用户追剧主要的曝光点,使得追剧的实时更新让用户可见。
(2)用户终端开机时,给用户发出相应提示:
用户终端开机时,实时获取mac信息,索引到其追剧数据并下发数据到终端供用户选择。
(3)视频更新时,获取视频用户倒排映射数据信息,给相应用户发出提示:
实时获取视频信息库的更新信息,对于有更新新剧集的视频,获取到Cid,索引视频用户倒排数据,获得这部分Mac,然后利用消息分发系统进行消息推送给用户终端。
实时追剧在多场景下推送给用户,增强追剧视频的曝光,同时又能实时获取到用户的观看行为,根据实时行为分析又进一步对追剧列表进行调整,形成了一个闭环。
本申请所提供的一种用户实时追剧处理方法具有的有益效果包括但不限于:
通过实时追剧偏好与线下追剧整合调整的追剧处理方式,解决用户追剧视频列表数据不合理问题,避免用户实际在追看视频被忽略的情形,提高追剧列表视频覆盖率和曝光率,提高用户个性化追剧数据的合理性。
本发明所提出的一种用户实时追剧处理方法,通过实时分析用户实时视频点播行为以及处理离线历史视频行为分别获取到实时的用户追剧偏好视频与历史追剧偏好视频列表;根据实时偏好视频与历史列表整合重排,实时的偏好视频作为短时段状态偏好调整数据,历史追剧偏好分析得到的追剧列表作为新一天追剧状态的初始化数据;当终端用户下一次活跃时为用户下发追剧列表信息提示,同时实时监测视频信息库获取到用户追剧视频有内容更新时实时地给用户发出追剧更新内容提示,以及在终端实时为展示追剧专题数据供用户选择。本发明能更好的定位用户实际的追剧视频内容,能有效避免用户实际在追看视频被忽略的情形,提高追剧列表视频覆盖率和曝光率,提高用户个性化追剧数据的合理性。
附图说明
附图1为用户实时追剧处理方法的流程图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
相反,本申请涵盖任何由权利要求定义的在本申请的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本申请有更好的了解,在下文对本申请的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本申请。
以下将结合图1对本申请实施例所涉及的一种用户实时追剧处理方法进行详细说明。值得注意的是,以下实施例仅仅用于解释本申请,并不构成对本申请的限定。
如图1所示,一种用户实时追剧处理方法,包括以下步骤:
S1:获取视频行为数据;
S2:基于视频行为数据分析用户追剧偏好;
S3:基于用户追剧偏好的分析结果进行实时追剧整合更新;
S4:基于更新结果进行实时追剧推送。
S1:获取视频行为数据
实时行为数据我们经过数据平台实时采集,将用户日志记录打入消息队列kafka中;离线数据部分统一加载到大数据hadoop平台。
实时行为数据的kafka消息包含用户的唯一标识Mac、点击起播视频的唯一标识Cid、视频具体的剧集表识Vid、用户点击起播开始时间s_time、用户点击结束时间即播放完成时间e_time等。
离线数据加载到hdfs文件系统,建立hive记录数据分析表,表字段包含Mac、Cid、Vid、action、time等信息,其中:
time字段是采集的具体时间,时间数据形式如:‘yyyy-MM-dd HH:mm:ss’
action字段是行为标记,值包含start、end,分别是观看开始和结束的标记。
S2基于视频行为数据分析用户追剧偏好
对于实时数据,采用行业热门的实时处理引擎Flink进行消费kafka消息,实时处理计算出时间窗口内用户点击观看具体视频的实时观看总时长T_r;实时观看时长与s_time、e_time、时间窗口步长H有关,如果H时间里没有收到用户对某视频的额额e_time则T_r=H,如果H时间内收到用户点播某视频的e_time,则T_r=e_time-s_time;同时记录用户观看的剧集信息vid、最近起播点击事件时间n_time;数据处理如下:
kafka用户实时行为数据为:
{Mac:"mac01",Cid:"cid01",Vid:"vid01",action:"start",time:"s_time01"}
{Mac:"mac02",Cid:"cid02",Vid:"vid02",action:"start",time:"s_time02"}
{Mac:"mac02",Cid:"cid02",Vid:"vid02",action:"end",time:"e_time01"}
{Mac:"mac03",Cid:"cid01",Vid:"vid03",action:"start",time:"s_time03"}
{Mac:"mac01",Cid:"cid01",Vid:"vid01",action:"end",time:"e_time02"}
{Mac:"mac03",Cid:"cid01",Vid:"vid03",action:"end",time:"e_time03"}
{Mac:"mac01",Cid:"cid03",Vid:"vid01",action:"start",time:"s_time04"}
...
经过flink处理:
{Mac:"mac01",Cid:"cid01",Vid:"vid01",T_r:"t_r01"},
其中e_time02-s_time01>H,t_r01=H;
{Mac:"mac02",Cid:"cid02",Vid:"vid02",T_r:"t_r02"},
其中t_r02=e_time01-s_time02;
{Mac:"mac03",Cid:"cid01",Vid:"vid03",T_r:"t_r03"},
其中t_r03=e_time03-s_time03;
...
根据视频实时观看时长采取分段权重分配策略,权重R是0到1之间的小数值:
R∈(0,1],如下:
我们将一个实时窗口内用户观看视频时长划分为多个段:
T_r∈{(0,t1]、(t1,t2]、(t2,t3]、(t3,t4]、(t4,H]};
不同时长分段内对应分配不同的权重值,最大权重为1;
R∈{R1,R2,R3,R4,R5},0<R1<R2<R3<R4<R5<=1;
则:t_r01∈(t4,H]则:R_01=1;
t_r02∈(0,t1]则:R_02=R1;
t_r03∈(t2,t3]则:R_03=R3;
得到用户实时追剧偏好记录数据:
{Mac:"mac01",Cid:"cid01",Vid:"vid01",R:"1"}
{Mac:"mac02",Cid:"cid02",Vid:"vid02",R:"R1"}
{Mac:"mac03",Cid:"cid01",Vid:"vid03",R:"R3"}
...
实时偏好记录包含了Mac、Cid、Vid、R值,最后生成实时追剧数据流,将数据发送到下游消息队列中。
对于离线的视频行为数据,其本身是滞后的,一般数据是延迟到后一天作处理。原始记录数据载入hive分区表:
经过hive处理得到观看记录信息表:
Mac | Cid | Vid | T_vid | N_time | Par_dt |
mac01 | cid01 | vid01 | t_d01 | n_time01 | yyyyMMdd |
mac02 | cid02 | vid02 | t_d02 | n_time02 | yyyyMMdd |
mac03 | cid03 | vid03 | t_d03 | n_time03 | yyyyMMdd |
... | ... | ... | ... | ... |
计算出每天离线行为的视频最近时长T_d、观看剧集信息Vid、最近点播时间n_time等关键信息,形成每天用户的离线观看记录数据;每次离线的剧集观看时长T_vid=e_time–s_time;每天离线记录数据包Mac、Cid、Vid、T_vid、n_time等;根据用户观看留存率下降到低于50%对应的日期差值N为一个统计周期,统计N天里用户的离线视频观看记录,得到用户周期记录表:
周期观看记录数据包含:Mac、Cid、最后观看剧集Vid_last、观看的不同剧集数Vid_count、视频观看总时长T、观看次数K、视频最近观看时间n_time、观看天数day_count、最近天数差D等信息,其中:
最后观看剧集是用户在统计周期中某视频最后一条记录的剧集Max(vid);
观看次数K是周期里统计每天里同一视频记录的条数count(cid记录条数);
最近观看时间n_time=max(s_time),max()表示求最大值;
D=date_diff(n_time,处理时间)即最近时间和离线处理时间计算天数差,D为自然数。
获取视频信息库所有视频的关键信息同步到hive表:
Cid | Eps | Ep_update | T_ep | other |
cid01 | E1 | Ep_pt01 | T_ep01 | ... |
cid02 | E2 | Ep_pt02 | T_ep02 | ... |
cid03 | E3 | Ep_pt03 | T_ep03 | ... |
包括总集数eps、更新剧集数ep_update,总时长T_ep等维度信息。
经过周期记录表与视频信息表合并取到用户观看的cid的维度信息,对各指标项采用加权权重均值分配策略:
(1)对于观看时长T:
T=sum(T_vid),时长权重R_T=min((T/K)/(T_ep/eps),1);
如mac01对cid01在观看时长维度得到的权重为:
R_T01=min((T1/K1)/(T_ep01/E1),1)。
(2)对于观看次数K:
K=sum(count(vid)),次数权重R_K=min(K/eps,1);
mac01对cid01在观看次数维度得到的权重为:
R_K01=min(K1/E1,1)
(3)对于观看天数day_count:
day_count=count(distinct day),周期里看某个Cid的天数,
day_count∈{(0,d1]、(d1,d2]、(d2,d3]、(d3,d4]、(d4,N]}
天数权重采取分段权重分配:R_day∈(R1,R2,R3,R4,R5),0<R1<R2<R3<R4<R5<=1;
假设mac01观看cid01的天数day_count1∈(d3,d4],则R_day01=R4。
(4)对于最近天数差D:
D的值与我们的周期N息息相关,最近天数差权重R_D是D的递减函数,
D∈[0,N],把R_D作为D的线性递减函数:R_D=1-(D/N),如mac01观看cid01的最近天数差D1对应的权重R_D01=1-(D1/N)。
经如上各个维度权重处理,取加权平均值得到用户线下追剧偏好:
R=(R_T*a1+R_K*a2+R_day*a3+R_D*a4)/4,其中a1,a2,
a3,a4是加权值。
我们给定(a1,a2,a3,a4)=(0.5,1,1,1)则mac01对于cid01的追剧偏好为:
R01=(R_T01*0.5+R_K01*1+R_day01*1+R_D01*1)/4,为保证历史追剧数据的质量,需要进行偏好阈值R_min和追剧个数L_max双重限制,即保证最终用户追剧列表中:R>=R_min,size(list)<=L_max;
这两个阈值根据整体的数据召回率指标来取定,也可以直接赋值,经过对用户后续观看MRR指标和召回率的分析,我们合适的R_min=0.25,L_max=20。
最后得到每个mac的离线追剧偏好数据,将结果按照权重降序同步到Hbase数据库中,同时为了便于S3步骤视频更新时消息内容的推送,我们同步视频用户倒排映射数据到Hbase中。
S3基于用户追剧偏好的分析结果进行实时追剧整合更新
离线历史处理得到的追剧列表是用于用户数据的初始化,利用Flink架构实时读取S2步骤中的实时偏好视频信息,同时查询加载Hbase中Mac的追剧数据:
比如:
实时获取到mac01的一条实时偏好:
{Mac:"mac01",Cid:"cid01",Vid:"vid03",R:"R3"}
同时查询到mac01的离线追剧列表:
[cid04-vid01-R5,cid05-vid02-R2,cid01-vid02-R2,cid03-v
id02-R1,...]
Mac01离线历史追剧列表中存在cid01的偏好,则将实时偏好视频插入离线列表相应位置,插入位置保持偏好权重是降序的:
[cid04-vid01-R5,cid01-vid03-R3,cid05-vid02-R2,cid03-vid02-R1,...]
当离线历史追剧列表中存在实时偏好的视频,将视频从历史列表的位置提到第一,此时不管实时偏好权重如何,比如:
又实时获取到mac01的另一条实时偏好:
{Mac:"mac01",Cid:"cid02",Vid:"vid01",R:"R4"}
Mac01离线历史追剧列表中不存在cid02的偏好,将视频从历史列表的位置提到第一,此时不管实时偏好权重如何:
[cid02-vid01-R4,cid04-vid01-R5,cid05-vid02-R2,cid01-vid
02-R2,cid03-vid02-R1,...]
实时更新完成的数据同步到Hbase覆盖历史的追剧列表。
S4实时追剧推送
追剧数据的推送是涵盖多个交互场景的,在终端有多种方式可以给用户进行提示:
(1)在终端有追剧专题展示的方式给用户展示推送的数据,时更新追剧列表数据时,为用户下发专题数据;
(2)Flink实时监测用户终端开机时间,当用户开机时从Hbase获取追剧信息给用户发出相应提示;
(3)Flink监控视频更新,当获取到某个Cid更新信息,从Hbase数据库中查询该Cid映射的Mac,给这些用户发出提示。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种用户实时追剧处理方法,其特征在于,包括以下步骤:
获取视频行为数据;
基于视频行为数据分析用户追剧偏好;
基于用户追剧偏好的分析结果进行实时追剧整合更新;
基于更新结果进行实时追剧推送。
2.根据权利要求1所述的一种用户实时追剧处理方法,其特征在于,所述获取视频行为数据包括:实时数据和离线数据,实时数据经过数据平台实时采集,将用户日志记录打入消息队列kafka中;离线数据统一加载到大数据hadoop平台。
3.根据权利要求2所述的一种用户实时追剧处理方法,其特征在于,所述实时数据的kafka消息包含用户的唯一标识Mac、点击起播视频的唯一标识Cid、视频具体的剧集表识Vid、用户点击起播开始时间s_time、用户点击结束时间即播放完成时间e_time。
4.根据权利要求3所述的一种用户实时追剧处理方法,其特征在于,离线数据加载到hdfs文件系统,建立hive记录数据分析表,表字段包含Mac、Cid、Vid、action、time等信息,其中:
time字段是采集的具体时间;
action字段是行为标记,值包含start、end,分别是观看开始和结束的标记。
5.根据权利要求3所述的一种用户实时追剧处理方法,其特征在于,所述基于视频行为数据分析用户追剧偏好,包括:对实时数据的分析;
根据用户实时点播行为的开始时间s_time与结束时间e_time以及时间窗口步长H来判定用户点击观看具体视频的实时观看总时长T_r;将用户的实时观看总时长T_r转化成实时追剧偏好权重值。
6.根据权利要求5所述的一种用户实时追剧处理方法,其特征在于,所述基于视频行为数据分析用户追剧偏好,包括:对离线数据的分析;
统计每天用户的离线观看记录数据;每次离线的观看时长T_*=e_time–s_time,根据用户观看留存率下降到低于50%对应的日期差值N为一个统计周期,统计N天里用户的离线视频观看记录,周期观看记录数据包含:Mac、Cid、最后观看剧集Vid_last、观看的不同剧集数Vid_count、视频观看总时长T、观看次数K、视频最近观看时间n_time、观看天数day_count、最近天数差D信息;其中:最后观看剧集是用户在统计周期中某视频最后一条记录的剧集,观看次数K是周期里统计每天里同一视频记录的条数,最近观看时间n_time=max(s_time),D=date_diff(n_time,处理时间),即最近时间和离线处理时间计算天数差,D为自然数;对周期观看记录,结合视频信息库获取用户观看视频的总集数eps、更新剧集数ep_update,总时长T_ep等维度信息,再采用加权权重均值分配策略处理。
7.根据权利要求6所述的一种用户实时追剧处理方法,其特征在于,所述采用加权权重均值分配策略处理,包括:
(1)对于观看时长T:
T=sum(T_vid),时长权重R_T=min((T/K)/(T_ep/eps),1);
(2)对于观看次数K:
K=sum(count(vid)),次数权重R_K=min(K/eps,1);
(3)对于观看天数day_count:
day_count=count(distinct day),周期里看某个Cid的天数,将天数分为多个段,
day_count∈{(0,d1]、(d1,d2]、(d2,d3]、(d3,d4]、(d4,N]},周期观看天数最大值为N;
天数权重采取分段权重分配:R_day∈(R1,R2,R3,R4,R5),0<R1<R2<R3<R4<R5<=1;
(4)对于最近天数差D:
D的值与周期N相关,D的值越小,用户观看的Cid越新,用户越能被吸引,最近天数差权重R_D是D的递减函数,即D值越大R_D越小,且D∈[0,N],把R_D作为D的线性递减函数:R_D=1-(D/N);
取加权平均值得到用户线下追剧偏好:
R=(R_T*a1+R_K*a2+R_day*a3+R_D*a4)/4,其中a1,a2,a3,a4是加权值;
最后得到每个mac的离线追剧偏好数据,对其进行偏好阈值R_min和追剧个数L_max双重限制,保证最终用户追剧列表中:R>=R_min,size(list)<=L_max;这两个阈值根据整体的数据召回率指标来取定,也可以根据实际数据情况直接赋值。
8.根据权利要求7所述的一种用户实时追剧处理方法,其特征在于,所述基于用户追剧偏好的分析结果进行实时追剧整合更新,包括:
当离线历史追剧列表中没有存在实时偏好的视频,则将实时偏好视频插入离线列表相应位置,插入位置与实时偏好权重有关;
当离线历史追剧列表中存在实时偏好的视频,将视频从历史列表的位置提到第一,此时不管实时偏好权重如何。
9.根据权利要求8所述的一种用户实时追剧处理方法,其特征在于,
离线历史的追剧偏好是每天的初始化数据,在新一天中,离线数据处理完成时会在一个用户活跃状态最低时间段进行覆盖实时合并的偏好数据;
视频信息库保存视频所有状态,对于视频信息库的信息更新,实时获取更新的内容,通过离线历史追剧列表建立视频Cid到用户Mac的倒排映射数据;当存在视频更新时,能定位到每个列表中存在偏好更新的视频的用户。
10.根据权利要求1所述的一种用户实时追剧处理方法,其特征在于,所述基于更新结果进行实时追剧推送,包括:
在终端用追剧专题展示的方式给用户展示推送的数据,更新追剧列表数据时,为用户下发专题数据;
Flink实时监测用户终端开机时间,当用户开机时从Hbase获取追剧信息给用户发出相应提示;
Flink监控视频更新,当获取到某个Cid更新信息,从Hbase数据库中查询该Cid映射的Mac,给这些用户发出提示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310205033.9A CN116156263A (zh) | 2023-03-06 | 2023-03-06 | 一种用户实时追剧处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310205033.9A CN116156263A (zh) | 2023-03-06 | 2023-03-06 | 一种用户实时追剧处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116156263A true CN116156263A (zh) | 2023-05-23 |
Family
ID=86361839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310205033.9A Pending CN116156263A (zh) | 2023-03-06 | 2023-03-06 | 一种用户实时追剧处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116156263A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104333773A (zh) * | 2013-12-18 | 2015-02-04 | 乐视网信息技术(北京)股份有限公司 | 一种视频推荐方法及服务器 |
WO2015032353A1 (zh) * | 2013-09-06 | 2015-03-12 | 北京奇虎科技有限公司 | 视频推荐方法及装置 |
WO2017107464A1 (zh) * | 2015-12-22 | 2017-06-29 | 乐视控股(北京)有限公司 | 一种视频跟播方法及装置 |
WO2017107453A1 (zh) * | 2015-12-23 | 2017-06-29 | 乐视控股(北京)有限公司 | 一种视频内容推荐方法、设备和系统 |
CN107635143A (zh) * | 2017-11-06 | 2018-01-26 | 四川长虹电器股份有限公司 | 基于观看行为预测用户在电视上追剧的方法 |
KR20190129558A (ko) * | 2018-05-11 | 2019-11-20 | 한양대학교 산학협력단 | 시청가능 에피소드 기반의 tv 프로그램 추천 방법 및 그 시스템 |
US20210051356A1 (en) * | 2019-08-15 | 2021-02-18 | Novatek Microelectronics Corp. | Program recommendation method and local machine using the same |
CA3150183A1 (en) * | 2021-02-25 | 2022-08-25 | 10353744 Canada Ltd. | Flink streaming processing engine method and device for real-time recommendation and computer equipment |
-
2023
- 2023-03-06 CN CN202310205033.9A patent/CN116156263A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015032353A1 (zh) * | 2013-09-06 | 2015-03-12 | 北京奇虎科技有限公司 | 视频推荐方法及装置 |
CN104333773A (zh) * | 2013-12-18 | 2015-02-04 | 乐视网信息技术(北京)股份有限公司 | 一种视频推荐方法及服务器 |
WO2017107464A1 (zh) * | 2015-12-22 | 2017-06-29 | 乐视控股(北京)有限公司 | 一种视频跟播方法及装置 |
WO2017107453A1 (zh) * | 2015-12-23 | 2017-06-29 | 乐视控股(北京)有限公司 | 一种视频内容推荐方法、设备和系统 |
CN107635143A (zh) * | 2017-11-06 | 2018-01-26 | 四川长虹电器股份有限公司 | 基于观看行为预测用户在电视上追剧的方法 |
KR20190129558A (ko) * | 2018-05-11 | 2019-11-20 | 한양대학교 산학협력단 | 시청가능 에피소드 기반의 tv 프로그램 추천 방법 및 그 시스템 |
US20210051356A1 (en) * | 2019-08-15 | 2021-02-18 | Novatek Microelectronics Corp. | Program recommendation method and local machine using the same |
CA3150183A1 (en) * | 2021-02-25 | 2022-08-25 | 10353744 Canada Ltd. | Flink streaming processing engine method and device for real-time recommendation and computer equipment |
Non-Patent Citations (1)
Title |
---|
张翔;袁政;蒋旦;朱明;: "基于语义和用户偏好的网络电视直播推荐方法", 微电子学与计算机, no. 12, 5 December 2016 (2016-12-05) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11012749B2 (en) | Recommendation engine apparatus and methods | |
US6670971B1 (en) | Internet television system and method with user selectable genres and schedule | |
US7328448B2 (en) | Advertisement distribution system for distributing targeted advertisements in television systems | |
JP5475030B2 (ja) | ターゲット決めされたビデオ番組編成の配送のための方法および装置 | |
CN104935968B (zh) | 网络电视推荐节目的方法与系统 | |
CN101828199B (zh) | 用于产生内容项目的推荐的方法和系统 | |
US8156198B2 (en) | Live custom media play lists | |
US20030097657A1 (en) | Method and system for delivery of targeted programming | |
US11974000B2 (en) | Controller for establishing personalized video channels | |
JP2004535716A (ja) | 分布したクライアントからのフィードバックに基づいて最適なバッチ配信スケジュールを定期的に配信するための方法および装置 | |
JP2002530969A (ja) | クライアント−サーバ電子番組ガイド | |
AU2010290905B2 (en) | Advertisement selection | |
JP2004537201A (ja) | 最新のクライアント・デマンド・フィードバックに基づいて配信スケジュールを決定するための方法及び装置 | |
WO2008008439A2 (en) | Video content service monitoring | |
CN102388621B (zh) | 基于元信道的媒体系统控制技术 | |
WO2018236424A1 (en) | EFFECTIVE INSERTION OF MULTIMEDIA ELEMENTS IN MULTIMEDIA STREAMS | |
CN116156263A (zh) | 一种用户实时追剧处理方法 | |
CN112784069A (zh) | 一种iptv内容智能推荐系统以及方法 | |
EP1775949A2 (en) | Method and apparatus for delivery of targeted video programming | |
AU2013204458B2 (en) | Client-Server Electronic Program Guide | |
AU2008201052B2 (en) | Client-Server Electronic Program Guide |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |