CN115811634B - 一种视频用户行为数据的处理方法、系统、设备和介质 - Google Patents
一种视频用户行为数据的处理方法、系统、设备和介质 Download PDFInfo
- Publication number
- CN115811634B CN115811634B CN202310069529.8A CN202310069529A CN115811634B CN 115811634 B CN115811634 B CN 115811634B CN 202310069529 A CN202310069529 A CN 202310069529A CN 115811634 B CN115811634 B CN 115811634B
- Authority
- CN
- China
- Prior art keywords
- user behavior
- behavior data
- video
- data
- video user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title abstract description 12
- 230000006399 behavior Effects 0.000 claims abstract description 235
- 230000000694 effects Effects 0.000 claims abstract description 138
- 238000012545 processing Methods 0.000 claims abstract description 85
- 238000000034 method Methods 0.000 claims abstract description 56
- 238000003860 storage Methods 0.000 claims description 24
- 238000001914 filtration Methods 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 10
- 230000007246 mechanism Effects 0.000 claims description 9
- 238000011161 development Methods 0.000 claims description 5
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 239000002699 waste material Substances 0.000 abstract description 5
- 230000000875 corresponding effect Effects 0.000 description 28
- 230000008569 process Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 10
- 230000009471 action Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例中提供了一种视频用户行为数据的处理方法、系统、设备和介质,所述方法包括:获取视频用户行为数据;根据下游业务方活动规则,利用通用组件对所述视频用户行为数据进行计算,得到满足下游业务方活动规则的结果数据;将所述结果数据下发给下游业务方。在本发明实施例中,由于是基于通用组件对视频用户行为数据进行处理,具有较强的通用性和扩展性,针对不同类型的用户行为以及下游业务方的不同活动规则,可灵活利用不同的通用组件组合完成数据处理,进而实现视频用户行为数据的集中处理,减少资源浪费。
Description
技术领域
本发明涉及视频内容相关领域,特别涉及一种视频用户行为数据的处理方法、系统、设备和介质。
背景技术
随着互联网的井喷式发展以及信息传播的便利性,产生了大量和用户相关的数据。这些数据通常不具有普遍地规律性,可能是短时间内急剧增长的数据,也可能是持续存在的海量数据,如何稳定地接收这些数据,并从中按照一定的规则提取有用的信息作为下游业务方进行相应的业务处理的依据,成为了关键。
在实际应用中,可能存在多种不同类型的用户行为,而视频应用的下游是不同的业务方,每一个业务方不一定有能力独自处理海量的高并发数据,且若多个业务方都去开发一套系统来处理这些处理,对人力等各方面资源也是一种浪费。并且视频用户行为数据处理可能并不是业务方的主业务范围,把过多的精力消耗在数据处理上,反而得不偿失。
发明内容
鉴于上述问题,本发明实施例提供了一种视频用户行为数据的处理方法、系统、设备和介质,以便克服上述问题或者至少部分地解决上述问题。
本发明实施例的第一方面,公开了一种视频用户行为数据的处理方法,所述方法包括:
获取视频用户行为数据;
根据下游业务方活动规则,利用通用组件对所述视频用户行为数据进行计算,得到满足下游业务方活动规则的结果数据;
将所述结果数据下发给下游业务方。
可选地,所述获取视频用户行为数据,包括:
基于管理后台获取视频用户行为数据;
从订阅的Kafka主题中获取视频用户行为数据,所述Kafka主题中的视频用户行为数据是当检测到用户观看视频时,将用户的行为数据写入到相应的Kafka主题中的。
可选地,所述基于管理后台获取视频用户行为数据,包括:
通过数据接口接收下游业务方上传的视频用户行为数据;
根据数据获取配置,从指定的数据源、指定视频、指定收藏夹、指定aid、指定mid中获取视频用户行为数据。
可选地,所述根据下游业务方活动规则,利用通用组件组合对所述视频用户行为数据进行计算,包括:
利用过滤器对所述视频用户行为数据进行过滤处理,得到与下游业务方活动规则相匹配的视频用户行为数据;
利用计数器和公式组件对所述与下游业务方活动规则相匹配的视频用户行为数据进行计算,得到满足下游业务方活动规则的结果数据。
可选地,所述利用过滤器对所述视频用户行为数据进行过滤处理,包括:
在所述视频用户行为数据的数据量小于阈值的情况下,将所述视频用户行为数据进行内存过滤;
在所述视频用户行为数据的数据量超过阈值的情况下,将所述视频用户行为数据进行Kv分布式存储过滤。
可选地,所述利用计数器和公式组件对所述与下游业务方活动规则相匹配的视频用户行为数据进行计算,得到满足下游业务方活动规则的结果数据,包括:
根据下游业务方活动规则信息,利用公式组件将多种不同的用户行为和多种计数器进行串联,得到满足下游业务方活动规则的组合场景算子;
利用所述组合场景算子对所述与下游业务方活动规则相匹配的视频用户行为数据进行计算,得到满足下游业务方活动规则的结果数据。
可选地,在根据下游业务方活动规则信息,利用公式组件将多种不同的用户行为和多种计数器进行串联之前,还包括:
从存储模块中读取下游业务方活动规则信息,所述下游业务方活动规则信息包括:基础信息和活动用户相关数据。
可选地,所述将所述结果数据下发给下游业务方,包括:
将所述结果数据写入到相应的主题中;
并将写有结果数据的主题发送给订阅了相应主题的下游业务方。
可选地,所述方法还包括:
对视频流量进行检测;
在视频流量突然增加且超过预设流量阈值的情况下,确定该视频为热门视频;
利用热Key打散机制对所述热门视频的视频用户行为数据进行计算,得到所述热门视频的结果数据。
可选地,所述利用热Key打散机制对所述热门视频的视频用户行为数据进行计算,得到所述热门视频的结果数据,包括:
将所述热门视频的视频用户行为数据分为多个协程进行计算;
针对每个协程,根据下游业务方活动规则,利用通用组件对所述热门视频的视频用户行为数据进行计算,得到每个协程满足下游业务方活动规则的结果数据;
将所述每个协程满足下游业务方活动规则的结果数据进行合并,得到所述热门视频的结果数据。
本发明实施例的第二方面,公开了一种视频用户行为数据的处理系统,用于执行本发明实施例第一方面所述的视频用户行为数据的处理方法,所述系统包括:
管理后台,所述管理后台为交互界面,用于获取视频用户行为数据,以及利用所述管理后台对活动规则进行配置;
Job模块,Job模块用于从订阅的Kafka主题中获取视频用户行为数据,并将结果数据下发给下游业务方;
计算模块,所述计算模块用于根据下游业务方活动规则信息,利用通用组件对视频用户行为数据进行计算,以得到满足下游业务方活动规则的结果数据;
存储模块,所述存储模块用于存储下游业务方活动规则信息和实时窗口信息,所述下游业务方活动规则信息包括:基础信息和活动用户相关数据。
可选地,所述通用组件,包括:
活动组件,所述活动组件为需要处理的下游业务方活动规则的集合,和活动内容的基本描述;
计数器,所述计数器为视频用户行为数据的处理算子;
过滤器,所述过滤器用于过滤视频用户行为数据中的无效数据,得到与下游业务方活动规则相匹配的视频用户行为数据;
公式组件,所述公式组件用于串联多种不同的用户行为和计数器,得到满足下游业务方活动规则的组合场景算子;
通知组件,所述通知组件用于将结果数据写入到相应的主题中。
可选地,所述系统还包括:
对外接口,下游业务方通过所述对外接口调用系统中的结果数据,以基于所述结果数据进行二次开发。
本发明实施例的第三方面,公开了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现如本发明实施例第一方面所述的视频用户行为数据的处理方法。
本发明实施例的第四方面,公开了一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现如本发明实施例第一方面所述的视频用户行为数据的处理方法。
本发明实施例包括以下优点:
在本发明实施例中,为了对不同的视频用户行为数据做统一的识别与分析,实现对视频用户行为数据集中处理,减少资源浪费,提供了一种视频用户行为数据的处理方法。首先获取视频用户行为数据,然后根据下游业务方活动规则,利用通用组件对所述视频用户行为数据进行计算,得到满足下游业务方活动规则的结果数据,并将所述结果数据下发给下游业务方。由于是基于通用组件对视频用户行为数据进行处理,具有较强的通用性和扩展性,针对不同类型的用户行为以及下游业务方的不同活动规则,可灵活利用不同的通用组件组合完成数据处理,进而实现视频用户行为数据的集中处理,减少资源浪费。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种视频用户行为数据的处理方法步骤流程图;
图2是本发明实施例提供的一种正常视频和热门视频的视频用户行为数据的处理流程示意图;
图3是本发明实施例提供的一种视频用户行为数据的处理系统结构示意图;
图4是本发明实施例提供的一种视频用户行为数据的处理系统的应用场景示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种视频用户行为数据的处理方法,如图1所示,图1为本发明实施例提供的一种视频用户行为数据的处理方法步骤流程图,包括步骤S101至步骤S103:
步骤S101:获取视频用户行为数据。
在本实施例中,视频用户行为数据是指用户观看视频时,产生的与视频相关的数据。视频用户行为数据包括:用户的id,用户对视频的观看时长、用户对视频进行点赞操作、用户对视频进行收藏等操作等数据。
需要说明的是,本实施例提供的视频用户行为数据的处理方法是基于一个视频用户行为数据的处理系统来实现的,首先利用该系统来获取视频用户行为数据。
在一种可选的实施例中,所述获取视频用户行为数据,包括以下两种方式:
(1)基于管理后台获取视频用户行为数据。
其中,管理后台是视频用户行为数据的处理系统中的一个交互界,下游业务方(运营人员、开发人员等)可基于管理后台上传视频用户行为数据和对数据获取进行配置。
具体地,所述基于管理后台获取视频用户行为数据。包括:
1)通过数据接口接收下游业务方上传的视频用户行为数据。
管理后台中具有数据接口,下游业务方可通过该数据接口将需要处理的视频用户行为数据进行上行,进而系统通过该数据接口接收相应的视频用户行为数据。其中,下游业务方通过数据接口上传的视频用户行为数据是按照活动数据、公式数据和计数器数据进行上传。
例如,下游业务方期望得到“连续三天点赞了该视频用户id”,则下游业务方将与该视频相关的视频用户行为数据(即活动数据、公式数据和计数器数据)通过管理后台进行上传,以便于在后续步骤中对该视频用户行为数据进行计算,得到连续三天点赞了该视频用户id。
2)根据数据获取配置,从指定的数据源、指定视频、指定收藏夹、指定aid、指定mid中获取视频用户行为数据。
下游业务方还可以通过管理后台对数据获取方式进行配置,即指定的视频用户行为数据的来源,以便于处理系统进行分析,具体地,下游业务方通过管理后台对数据获取进行配置(即指定数据源、指定视频、指定收藏夹、指定aid、指定mid),进而处理系统根据数据获取配置来获取相应的视频用户行为数据。
(2)从订阅的Kafka主题中获取视频用户行为数据,所述Kafka主题中的视频用户行为数据是当检测到用户观看视频时,将用户的行为数据写入到相应的Kafka主题中的。
需要说明的是,Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据,并且在Kafka中数据以主题(Topic)为单位进行归类,每个主题都有一个主题名,生产者根据主题名将数据写入到特定的主题,消费者则同样根据主题名从对应的主题进行消费,以获取相应的数据。
当用户观看某视频时,Kafka会统计与该视频相关的视频用户行为数据(如,视频被观看时长,如用户id,用户点赞操作等数据),并将视频用户行为数据写入到Kafka相应的主题中。当处理系统获取视频用户行为数据时,作为消费者,通过订阅相应的Kafka主题进行消费,从相应的Kafka主题获取到视频用户行为数据。
在本实施例中,提供了多种数据获取方式,可根据下游业务方自身需求,灵活的获取数据,以便于后续步骤中对不同的视频用户行为数据进行统一的识别和分析,以实现对视频用户行为数据进行集中处理。
步骤S102:根据下游业务方活动规则,利用通用组件对所述视频用户行为数据进行计算,得到满足下游业务方活动规则的结果数据。
在本实施例中,下游业务方活动规则是指下游业务方的需求,例如,“统计连续3天观看视频A的人数”、“统计视频A点赞人数”都是活动规则。其中,下游业务方活动规则是基于管理后台进行配置的。
在视频用户行为数据的处理系统中,针对不同类型的用户行为、以及下游业务方的(活动规则)需求,将实际的业务场景转换为通用算子,抽象出通用的组件能力,进而利用通用组件完成视频用户行为数据的处理,其中,通用组件包括:活动组件、计数器、过滤器、公式组件和通知组件。
在一种可选的实施例中,所述根据下游业务方活动规则,利用通用组件组合对所述视频用户行为数据进行计算,包括步骤A1和步骤A2:
步骤A1:利用过滤器对所述视频用户行为数据进行过滤处理,得到与下游业务方活动规则相匹配的视频用户行为数据。
在步骤S101中获取的视频用户行为数据可能存在与下游业务方活动规则不相关的数据,即存在大量无效数据。例如,下游业务方需要统计视频A的点赞人数,则与视频A相关的观看时长则为无效的数据。因此,为了便于后续对满足活动规则的用户行为数据进行统计,将获取的视频用户行为数据进行过滤处理,以去除无效数据。
具体地,所述利用过滤器对所述视频用户行为数据进行过滤处理,包括:
在所述视频用户行为数据的数据量小于阈值的情况下,将所述视频用户行为数据进行内存过滤;
在所述视频用户行为数据的数据量超过阈值的情况下,将所述视频用户行为数据进行Kv分布式存储过滤。
在本实施例中,根据视频用户行为数据的特点,将过滤器按照实现分为了内存过滤器、Kv分布式存储过滤器。其中,内存过滤器主要处理数据量较少的情况,例如,一定范围内的,数组型的匹配过滤;由于Kv分布式存储的存储特性,Kv分布式存储过滤主要处理数据量较大的情况,例如,活动只允许部分用户参与的,可以采用Kv分布式存储过滤器。参考以往视频用户行为数据处理,设定一个阈值,将实际获取的视频用户行为数据的数据量与设定的阈值进行比较,根据比较结果确定过滤方式。
例如,设定阈值为1万,当获取的视频用户行为数据的数据量小于1万时采用内存过滤器进行过滤,当获取的视频用户行为数据的数据量大于1万时采用Kv分布式存储过滤器进行过滤。
在本实施例中,利用多级过滤器高效的对海量的视频用户行为数据进行过滤处理,去除了大量无效数据的干扰,保证了后续对视频用户行为数据处理的准确性和快速性。
步骤A2:利用计数器和公式组件对所述与下游业务方活动规则相匹配的视频用户行为数据进行计算,得到满足下游业务方活动规则的结果数据。
其中,计数器为视频用户行为数据的处理算子,不同的计数器实现了针对同类、不同类行为的统计,计数器包括:心跳统计计数器、累加器、用户id去重统计计数器、用户统计计数器、求和计数器等。一般地,在一个活动规则中包含需要用户同时完成的多种用户行为(每种用户行为对应一个计数器),因此,公式组件用于串联多种不同的用户行为和计数器。
进而组合利用计数器和公式组件对步骤A1中得到的与下游业务方活动规则相匹配的视频用户行为数据进行计算,得到满足下游业务方活动规则的结果数据。
具体地,所述利用计数器和公式组件对所述与下游业务方活动规则相匹配的视频用户行为数据进行计算,得到满足下游业务方活动规则的结果数据,包括步骤A21和步骤A22:
步骤A21:根据下游业务方活动规则信息,利用公式组件将多种不同的用户行为和多种计数器进行串联,得到满足下游业务方活动规则的组合场景算子。
步骤A22:利用所述组合场景算子对所述与下游业务方活动规则相匹配的视频用户行为数据进行计算,得到满足下游业务方活动规则的结果数据。
其中,下游业务方活动规则信息包括:活动规则描述、计数器种类等与活动规则相关的基础属性信息,活动用户的相关数据(如,允许参与活动的用户id信息)等信息。组合场景算子是根据下游业务方活动规则信息串联得到的,组合场景算子能对活动规则中的所有用户行为进行计算。
例如,下游业务方的活动规则是“针对连续3天对视频A进行点赞、且每天观看时长超过15分钟的用户,可以获得参与抽奖的机会”,在该活动规则有“对视频A进行连续3天点赞”和“每天视频A观看时长超过5分钟”两种用户行为,用户需要同时完成这两个行为,才能够满足活动规则,因此利用公式组件将不同的用户行为和计算器进行串联,得到一个最终的组合场景算子,利用这个组合场景算子对视频A的相关用户行为数据进行计算,得到的结果才是满足下游业务方活动规则的结果数据。
此外,在完成视频用户行为数据处理后,将相应的结果数据存储到存储模块中,以便于下游业务方通过二次接口调用结果数据,或计算模块在进行视频用户行为数据处理时调用该结果数据进行处理。
在本实施例中,在对视频用户行为数据进行处理时,首先利用配置的特定过滤器,经过不同层级的过滤器,对视频用户行为数据进行初步筛选,完成视频用户行为数据第一步处理,得到与下游业务方活动规则相匹配的视频用户行为数据,之后利用公式组件和计数器进行进一步的计算,得到结果数据。此外,根据活动规则信息,可利用公式组件和计数器进行多种组合,得到满足不同活动规则的多种组合场景算子,实现对不同下游业务方需求进行计算。
在一种可选的实施例中,下游业务方活动规则信息是存储在存储模块中,在进行步骤A21之前,还包括:
从存储模块中读取下游业务方活动规则信息,所述下游业务方活动规则信息包括:基础信息和活动用户相关数据。
其中,基础信息是指活动规则描述、计数器种类等与活动规则相关的基础属性信息,活动用户相关数据是指活动用户的相关数据,例如,允许参与活动的用户id信息等信息。
在本实施例中,当视频用户行为数据的处理系统作为服务启动后,会读取数据库中的活动规则数据并写入本地缓存,同时会以一定时间间隔定时增量读取数据库的变化的活动规则数据进行更新,这样能保证数据的快速读取。
步骤S103:将所述结果数据下发给下游业务方。
在本实施例中,在完成对视频用户行为数据进行处理后,将相应的结果数据发送给下游业务方,以使下游业务方基于结果数据进行二次的处理。
具体地,所述将所述结果数据下发给下游业务方,包括:
将所述结果数据写入到相应的主题中;
并将写有结果数据的主题发送给订阅了相应主题的下游业务方。
在本实施例中,利用通知组件在特定的主题中写入结果数据,而下游业务方通过消费,订阅相应的主题来获取数据,从而实现下游业务方与视频用户行为数据的处理系统的联动,以便于下游业务方根据结果数据做进一步的处理。
在一种可选的实施例中,由于热门视频的视频用户行为数据的数据量很大,导致数据处理速度较慢,因此为了提高热门视频的视频用户行为数据的处理速度,利用热key打散机制对热门视频的视频用户行为数据进行计算,具体包括步骤B1至步骤B3:
步骤B1:对视频流量进行检测。
在本实施例中,视频流量是指视频的访问量(被用户点击量),视频观看的人数越多,则访问量就越高,即该视频的流量就越大,相应地,流量越大产生的视频用户行为数据的数据量就越大。
步骤B2:在视频流量突然增加且超过预设流量阈值的情况下,确定该视频为热门视频。
在本实施例中,流量阈值是指视频访问量阈值,其中,流量阈值可以结合视频用户行为数据的处理系统的处理速度来设计,对处理速度要求非常严格时,将流量阈值设计的更小,对处理速度要求严格程度较低,将流量阈值设计的更大。当检测到视频流量增加且达到预设的流量阈值时,说明此时访问该视频的人数很多,此时产生的视频用户行为数据的数据量也非常大。因此将该视频确认为热门视频。
步骤B3:利用热Key打散机制对所述热门视频的视频用户行为数据进行计算,得到所述热门视频的结果数据。
在本实施例中,为了能够缓解视频用户行为数据的计算量,提高热门视频的视频用户行为数据的处理速度,利用热key打散机制对热门视频的视频用户行为数据进行计算,具体地,包括步骤B31至步骤B33:
步骤B31:将所述热门视频的视频用户行为数据分为多个协程进行计算。
步骤B32:针对每个协程,根据下游业务方活动规则,利用通用组件对所述热门视频的视频用户行为数据进行计算,得到每个协程满足下游业务方活动规则的结果数据;
步骤B33:将所述每个协程满足下游业务方活动规则的结果数据进行合并,得到所述热门视频的结果数据。
在本实施例中,协程是一种用户态的轻量级线程,如图2所示,对于非热门视频(视频流量没有超过预设流量阈值的视频)的视频用户行为数据处理过程为:视频用户行为数据输入到一个协程中进行处理,进而得到满足下游业务方活动规则的结果数据,由于所有的数据都能是利用这个协程进行处理,进而该方式的数据处理压力大。而针对热门视频的多个协程计算,是将热门视频的视频用户行为数据分为N组,建立N个协程分别对N组视频用户行为数据进行计算,进而得到每个协程的计算结果,最后将N个协程的计算结果进行合并,得到热门视频的结果数据,由于是利用N个协程进行处理,进而有效缓解了数据处理压力。
例如,对于同时输入的90条视频用户行为数据,采用非热门视频的数据处理方法,一个协程需要对90条视频用户行为数据进行处理,进而该协程的处理的数据量大;而利用热Key打散机制对该90条视频用户行为数据,若建立3个协程进行计算,则每个协程只处理30条视频用户行为数据,得到3条数据,进而将3条数据进行合并,得到结果数据。
在本实施例中,利用系统的并发设计特点,对热门视频利用热Key打散机制对视频用户行为进行处理,采用这种将数据打散处理再聚合的方式,既能保证同一个视频对应的视频用户行为数据处理的顺序性,同时还能通过协程最大化利用机器资源,有效解决高并发以及热点数据问题。
在本实施例中,为了对不同的视频用户行为数据做统一的识别与分析,实现对视频用户行为数据集中处理,减少资源浪费,提供了一种视频用户行为数据的处理方法。首先获取视频用户行为数据,然后根据下游业务方活动规则,利用通用组件对所述视频用户行为数据进行计算,得到满足下游业务方活动规则的结果数据,并将所述结果数据下发给下游业务方。通用组件是根据不同的业务方需求抽象出来的通用算子,进而基于通用组件对视频用户行为数据进行处理,能够同时针对不同的视频用户行为数据做统一的识别与分析。其中,通过多级过滤器来高效接收海量数据,利用协程以及热key打散再聚合等方式解决高并发以及热点数据问题;并且利用通用组件还可以根据不同的下游业务方特点进行定制化开发,扩展性比较强。
本发明实施例还提供了一种视频用户行为数据的处理系统,用于执行上述实施例所述的视频用户行为数据的处理方法,如图3所示,图3为本发明实施例提供的一种视频用户行为数据的处理系统结构示意图,所述系统包括:管理后台、Job模块、计算模块、存储模块、对外接口,具体地:
(1)管理后台,所述管理后台为交互界面,用于获取视频用户行为数据,以及利用所述管理后台对活动规则进行配置。
下游业务方可通过管理后台中的数据接口上传需要处理的视频用户行为数据,以及进行数据获取配置。进而该处理系统通过管理后台接收下游业务方(如,运营人员、开发人)上传的视频用户行为数据(活动数据、公式数据、计数器数据),以及根据数据获取配置,从指定的数据源、指定视频、指定收藏夹、指定aid、指定mid中获取视频用户行为数据。此外,下游业务方可通过管理后台对活动规则进行配置,将各种通用组件进行组合,得到实现对活动规则的组合算子。
(2)Job模块,Job模块用于从订阅的Kafka主题中获取视频用户行为数据,并将结果数据下发给下游业务方。
(3)计算模块,所述计算模块用于根据下游业务方活动规则信息,利用通用组件对视频用户行为数据进行计算,以得到满足下游业务方活动规则的结果数据。
计算模块针对管理后台和Job模块中获取到的视频用户行为数据,利用通用组件进行处理,以得满足下游业务方活动规则的结果数据到。
具体地,计算模块中的通用组件,包括:
活动组件,所述活动组件为需要处理的下游业务方活动规则的集合,和活动内容的基本描述。
计数器,所述计数器为视频用户行为数据的处理算子。不同的计数器实现了针对同类、不同类行为的统计,计数器包括:心跳统计计数器、累加器、用户id去重统计计数器、用户统计计数器、求和计数器等。
过滤器,所述过滤器用于过滤视频用户行为数据中的无效数据,得到与下游业务方活动规则相匹配的视频用户行为数据。过滤器分为内存过滤器和Kv分布式存储过滤器,根据视频用户行为数据的数量来选择相应的过滤器进行数据过滤处理。
公式组件,所述公式组件用于串联多种不同的用户行为和计数器,得到满足下游业务方活动规则的组合场景算子。一个组合场景算子对应于一个下游业务方的活动规则,通过公式组件可将系统的应用进行扩展,衍生出多种不同的组合场景算子,从而满足更多应用场景。
通知组件,所述通知组件用于将结果数据写入到相应的主题中。通知组件是视频用户行为数据的处理系统和下游业务方关联的重要纽带,视频用户行为数据的处理系统经过一系列的计算,识别出用户满足了下游业务方活动规则的结果数据后,将结果数据后写相应的主题中,而下游业务方通过订阅对应的主题来获取结果数据,从而实现了下游业务方与视频用户行为数据的处理系统的联动。
(4)存储模块,所述存储模块用于存储下游业务方活动规则信息和实时窗口信息,所述下游业务方活动规则信息包括:基础信息和活动用户相关数据。
下游业务方通过管理后台对活动规则完成配置后,该视频用户行为数据的处理系统将活动规则信息存储在存储模块中,以便于计算模块在对视频用户行为数据进行处理时,从存储模块中读取下游业务方活动规则信息。同时在计算模块完成视频用户行为数据处理后,将相应的结果数据(即实时窗口信息)存储到存储模块中,以便于下游业务方通过二次接口调用结果数据,或计算模块在进行视频用户行为数据处理时调用该结果数据进行处理。
(5)对外接口,下游业务方通过所述对外接口调用系统中的结果数据,以基于所述结果数据进行二次开发。下游业务处理通过订阅相应的主题来获取结果数据,还可以通过对外接口来调用相应的结果数据。
在本实施例中,将下游业务方关注的需求进行统一化,抽象为基础能力,下游只需要按照系统设定的规范填写相应的活动规则,进行活动规则配置,而本系统会自动识别这些活动规则并应用到对相应的视频用户行为数据处理中。这样下游业务方可以更专注于做业务相关的事,视频用户行为数据的处理系统针对这种视频用户行为数据统一处理也能极大减少各种资源的浪费。
如图4所示,为种视频用户行为数据的处理系统的应用场景示意图。该处理系统可对视频社区、直播、以及特定活动中的相关的视频用户行为数据进行处理。其中,视频社区的视频用户行为数据包括:视频播放量、视频关注、视频点赞等数据,直播的视频用户行为数据包括:直播观看人数、直播开播、直播打赏等数据。处理系统完成视频用户行为数据处理后,将得到的结果数据下发下游业务方,其中下游业务方包括业务的其他方(例如,抽奖活动)、运营活动侧以及其他业务方。
本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行实现本发明实施例所述的视频用户行为数据的处理方法。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现本发明实施例所述的视频用户行为数据的处理方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本发明实施例是参照根据本发明实施例的方法、系统、设备和介质的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理器或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种视频用户行为数据的处理方法、系统、设备和介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (13)
1.一种视频用户行为数据的处理方法,其特征在于,所述方法包括:
获取视频用户行为数据;
根据下游业务方活动规则,利用通用组件对所述视频用户行为数据进行计算,包括:利用过滤器对所述视频用户行为数据进行过滤处理,得到与下游业务方活动规则相匹配的视频用户行为数据;利用计数器和公式组件对所述与下游业务方活动规则相匹配的视频用户行为数据进行计算,得到满足下游业务方活动规则的结果数据;
将所述结果数据下发给下游业务方。
2.根据权利要求1所述的方法,其特征在于,所述获取视频用户行为数据,包括:
基于管理后台获取视频用户行为数据;
从订阅的Kafka主题中获取视频用户行为数据,所述Kafka主题中的视频用户行为数据是当检测到用户观看视频时,将用户的行为数据写入到相应的Kafka主题中的。
3.根据权利要求2所述的方法,其特征在于,所述基于管理后台获取视频用户行为数据,包括:
通过数据接口接收下游业务方上传的视频用户行为数据;
根据数据获取配置,从指定的数据源、指定视频、指定收藏夹、指定aid、指定mid中获取视频用户行为数据。
4.根据权利要求1所述的方法,其特征在于,所述利用过滤器对所述视频用户行为数据进行过滤处理,包括:
在所述视频用户行为数据的数据量小于阈值的情况下,将所述视频用户行为数据进行内存过滤;
在所述视频用户行为数据的数据量超过阈值的情况下,将所述视频用户行为数据进行Kv分布式存储过滤。
5.根据权利要求1所述的方法,其特征在于,所述利用计数器和公式组件对所述与下游业务方活动规则相匹配的视频用户行为数据进行计算,得到满足下游业务方活动规则的结果数据,包括:
根据下游业务方活动规则信息,利用公式组件将多种不同的用户行为和多种计数器进行串联,得到满足下游业务方活动规则的组合场景算子;
利用所述组合场景算子对所述与下游业务方活动规则相匹配的视频用户行为数据进行计算,得到满足下游业务方活动规则的结果数据。
6.根据权利要求5所述的方法,其特征在于,在根据下游业务方活动规则信息,利用公式组件将多种不同的用户行为和多种计数器进行串联之前,还包括:
从存储模块中读取下游业务方活动规则信息,所述下游业务方活动规则信息包括:基础信息和活动用户相关数据。
7.根据权利要求1所述的方法,其特征在于,所述将所述结果数据下发给下游业务方,包括:
将所述结果数据写入到相应的主题中;
并将写有结果数据的主题发送给订阅了相应主题的下游业务方。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对视频流量进行检测;
在视频流量突然增加且超过预设流量阈值的情况下,确定该视频为热门视频;
利用热Key打散机制对所述热门视频的视频用户行为数据进行计算,得到所述热门视频的结果数据。
9.根据权利要求8所述的方法,其特征在于,所述利用热Key打散机制对所述热门视频的视频用户行为数据进行计算,得到所述热门视频的结果数据,包括:
将所述热门视频的视频用户行为数据分为多个协程进行计算;
针对每个协程,根据下游业务方活动规则,利用通用组件对所述热门视频的视频用户行为数据进行计算,得到每个协程满足下游业务方活动规则的结果数据;
将所述每个协程满足下游业务方活动规则的结果数据进行合并,得到所述热门视频的结果数据。
10.一种视频用户行为数据的处理系统,其特征在于,用于执行权利要求1-9任一所述的视频用户行为数据的处理方法,所述系统包括:
管理后台,所述管理后台为交互界面,用于获取视频用户行为数据,以及利用所述管理后台对活动规则进行配置;
Job模块,Job模块用于从订阅的Kafka主题中获取视频用户行为数据,并将结果数据下发给下游业务方;
计算模块,所述计算模块用于根据下游业务方活动规则信息,利用通用组件对视频用户行为数据进行计算,以得到满足下游业务方活动规则的结果数据;所述通用组件,包括:活动组件,所述活动组件为需要处理的下游业务方活动规则的集合,和活动内容的基本描述;计数器,所述计数器为视频用户行为数据的处理算子;过滤器,所述过滤器用于过滤视频用户行为数据中的无效数据,得到与下游业务方活动规则相匹配的视频用户行为数据;公式组件,所述公式组件用于串联多种不同的用户行为和计数器,得到满足下游业务方活动规则的组合场景算子;通知组件,所述通知组件用于将结果数据写入到相应的主题中;
存储模块,所述存储模块用于存储下游业务方活动规则信息和实时窗口信息,所述下游业务方活动规则信息包括:基础信息和活动用户相关数据。
11.根据权利要求10所述的系统,其特征在于,所述系统还包括:
对外接口,下游业务方通过所述对外接口调用系统中的结果数据,以基于所述结果数据进行二次开发。
12.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现如权利要求1-9任一项所述的视频用户行为数据的处理方法。
13.一种计算机可读存储介质,其上存储有计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现如权利要求1-9任一项所述的视频用户行为数据的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310069529.8A CN115811634B (zh) | 2023-02-06 | 2023-02-06 | 一种视频用户行为数据的处理方法、系统、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310069529.8A CN115811634B (zh) | 2023-02-06 | 2023-02-06 | 一种视频用户行为数据的处理方法、系统、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115811634A CN115811634A (zh) | 2023-03-17 |
CN115811634B true CN115811634B (zh) | 2023-06-23 |
Family
ID=85487524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310069529.8A Active CN115811634B (zh) | 2023-02-06 | 2023-02-06 | 一种视频用户行为数据的处理方法、系统、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115811634B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103870455A (zh) * | 2012-12-07 | 2014-06-18 | 阿里巴巴集团控股有限公司 | 一种多数据源的数据集成处理方法和装置 |
CN107679236A (zh) * | 2017-10-26 | 2018-02-09 | 北京麒麟合盛网络技术有限公司 | 一种热门内容池维护方法和装置 |
CN110120917A (zh) * | 2019-06-28 | 2019-08-13 | 北京百度网讯科技有限公司 | 基于内容的路由方法及装置 |
US10861037B1 (en) * | 2019-06-14 | 2020-12-08 | Comcast Spectacor, LLC | System and method for incorporating cross platform metrics for increased user engagement |
CN113392081A (zh) * | 2021-06-10 | 2021-09-14 | 北京猿力未来科技有限公司 | 数据处理系统及方法 |
-
2023
- 2023-02-06 CN CN202310069529.8A patent/CN115811634B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103870455A (zh) * | 2012-12-07 | 2014-06-18 | 阿里巴巴集团控股有限公司 | 一种多数据源的数据集成处理方法和装置 |
CN107679236A (zh) * | 2017-10-26 | 2018-02-09 | 北京麒麟合盛网络技术有限公司 | 一种热门内容池维护方法和装置 |
US10861037B1 (en) * | 2019-06-14 | 2020-12-08 | Comcast Spectacor, LLC | System and method for incorporating cross platform metrics for increased user engagement |
CN110120917A (zh) * | 2019-06-28 | 2019-08-13 | 北京百度网讯科技有限公司 | 基于内容的路由方法及装置 |
CN113392081A (zh) * | 2021-06-10 | 2021-09-14 | 北京猿力未来科技有限公司 | 数据处理系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115811634A (zh) | 2023-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103686237B (zh) | 推荐视频资源的方法及系统 | |
TWI654532B (zh) | Method and device for providing application and user recommendation information | |
CN109688042A (zh) | 一种消息处理方法及装置 | |
CN109918349A (zh) | 日志处理方法、装置、存储介质和电子装置 | |
CN104168303A (zh) | 一种展示网络直播间的方法和装置 | |
CN113360554B (zh) | 一种数据抽取、转换和加载etl的方法和设备 | |
CN109729376B (zh) | 一种生命周期的处理方法、装置、设备和存储介质 | |
CN108320168B (zh) | 一种数据分析方法及装置 | |
Caetano et al. | Analyzing and characterizing political discussions in WhatsApp public groups | |
CN111694644A (zh) | 基于机器人操作系统的消息处理方法、装置及计算机设备 | |
CN105488039A (zh) | 一种问询方法及装置 | |
CN105430534A (zh) | 一种智能设备上报数据的方法和系统 | |
CN111177237B (zh) | 一种数据处理系统、方法及装置 | |
CN112181678A (zh) | 业务数据的处理方法、装置和系统、存储介质、电子装置 | |
CN104410877A (zh) | 网络电视的用户行为数据的处理方法和装置 | |
CN114281784A (zh) | 分布式核心系统的交易日志回放方法、装置、设备和介质 | |
CN115811634B (zh) | 一种视频用户行为数据的处理方法、系统、设备和介质 | |
CN116069838A (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
CN115576973B (zh) | 一种业务部署方法、装置、计算机设备和可读存储介质 | |
CN116506300A (zh) | 一种网站流量数据统计方法和系统 | |
CN108170292B (zh) | 表情管理方法、表情管理装置及智能终端 | |
CN112286918B (zh) | 数据快速接入转换的方法、装置、电子设备及存储介质 | |
CN116385102B (zh) | 信息推荐方法、装置、计算机设备及存储介质 | |
WO2017206668A1 (zh) | 数据分析方法及装置、系统 | |
US20140115605A1 (en) | Adaptable mass data message receipt and handling system and method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP02 | Change in the address of a patent holder |
Address after: 100007 room 205-32, floor 2, building 2, No. 1 and No. 3, qinglonghutong a, Dongcheng District, Beijing Patentee after: Tianyiyun Technology Co.,Ltd. Address before: 100093 Floor 4, Block E, Xishan Yingfu Business Center, Haidian District, Beijing Patentee before: Tianyiyun Technology Co.,Ltd. |
|
CP02 | Change in the address of a patent holder |