CN106937133B - 数据清洗方法及装置 - Google Patents

数据清洗方法及装置 Download PDF

Info

Publication number
CN106937133B
CN106937133B CN201511031399.0A CN201511031399A CN106937133B CN 106937133 B CN106937133 B CN 106937133B CN 201511031399 A CN201511031399 A CN 201511031399A CN 106937133 B CN106937133 B CN 106937133B
Authority
CN
China
Prior art keywords
demand
user
data
behaviors
continuous
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201511031399.0A
Other languages
English (en)
Other versions
CN106937133A (zh
Inventor
林森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201511031399.0A priority Critical patent/CN106937133B/zh
Publication of CN106937133A publication Critical patent/CN106937133A/zh
Application granted granted Critical
Publication of CN106937133B publication Critical patent/CN106937133B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/24Monitoring of processes or resources, e.g. monitoring of server load, available bandwidth, upstream requests
    • H04N21/2408Monitoring of the upstream path of the transmission network, e.g. client requests
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/238Interfacing the downstream path of the transmission network, e.g. adapting the transmission rate of a video stream to network bandwidth; Processing of multiplex streams
    • H04N21/2381Adapting the multiplex stream to a specific network, e.g. an Internet Protocol [IP] network

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明公开了一种数据清洗方法及装置。其中,该方法包括:获取用户点播视频时产生的点播数据;根据点播数据判断用户的点播行为对应的连播次数是否大于预设连播次数,或者视频的连续播放时长是否超过预设时长;在判断结果为用户的点播行为对应的连播次数大于预设连播次数,或者视频的连续播放时长超过预设时长的情况下,对点播数据进行清洗。本发明解决了相关技术中由于非用户实际操作而产生的IPTV数据影响了用户收视行为分析结果的技术问题。

Description

数据清洗方法及装置
技术领域
本发明涉及网络电视领域,具体而言,涉及一种数据清洗方法及装置。
背景技术
目前,别于传统电视收视设备的交互式网络电视IPTV已逐步得到普及应用。随着技术的发展,获取用户为观看电视节目而使用IPTV等电视业务的数据(以下简称为IPTV数据)成为可能,因此可以通过IPTV数据分析用户使用电视业务的频次,进而初步分析用户的收视行为。
为了提高分析结果的准确度,在分析用户的收视行为之前,需要先判断用户的收视数据是否正常,如判断收视数据是否会因非用户操作而产生,如电视机关闭,而机顶盒未关闭,会导致视频播放一直持续,视频数据一直发送,而这些数据并非用户实际操作而产生的。
在相关技术中,对IPTV数据预处理时,只会简单地将单次观看时长大于24小时的收视数据删除。然而,对于点播产生的收视数据(以下简称点播数据)而言,由于用户实际观看点播视频节目时,在看完节目后,通常只会关闭电视机,不会关闭机顶盒。而当用户观看一部电视剧时,如果只关闭电视机而不关闭机顶盒,则机顶盒仍处于工作状态。此时,机顶盒就会自动播放剧集,并将这种播放行为如实地反映在IPTV数据中,而用户实际上并没有观看机顶盒自动播放的剧集。这样,使用上述IPTV数据分析剧集播放量时,会发现剧集播放量很高,从而影响了分析结果的准确性。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据清洗方法及装置,以至少解决相关技术中由于非用户实际操作而产生的IPTV数据影响了用户收视行为分析结果的技术问题。
根据本发明实施例的一个方面,提供了一种数据清洗方法,包括:获取用户点播视频时产生的点播数据;根据上述点播数据判断上述用户的点播行为对应的连播次数是否大于预设连播次数,或者上述视频的连续播放时长是否超过预设时长;在判断结果为上述用户的点播行为对应的连播次数大于预设连播次数,或者上述视频的连续播放时长超过预设时长的情况下,对上述点播数据进行清洗。
进一步地,在判断结果为上述用户的点播行为对应的连播次数大于预设连播次数的情况下,对上述点播数据进行清洗包括:将上述点播数据中大于上述预设连播次数的连播行为对应的点播数据清洗掉。
进一步地,根据上述点播数据判断上述用户的点播行为对应的连播次数是否大于预设连播次数包括:根据上述点播数据判断上述用户的点播行为是否包含多次播放行为;在判断结果为上述用户的点播行为包含上述多次播放行为的情况下,判断上述多次播放行为的次数是否大于上述预设连播次数;在判断结果为上述多次播放行为的次数大于上述预设连播次数的情况下,判断任意两次播放行为之间的时间间隔是否在预设时间间隔范围之内;在判断结果为上述任意两次播放行为之间的时间间隔在上述预设时间间隔范围之内的情况下,确定上述用户的点播行为是大于上述预设连播次数的连播行为。
进一步地,在判断结果为上述视频的连续播放时长超过上述预设时长的情况下,对上述点播数据进行清洗包括:将上述点播数据中上述视频的连续播放时长超过上述预设时长对应的点播数据清洗掉。
进一步地,在获取用户点播视频时产生的点播数据之后,上述方法还包括:对上述点播数据按时间维度进行排序,得到时间顺序的点播数据。
根据本发明实施例的另一方面,还提供了一种数据清洗装置,包括:获取单元,用于获取用户点播视频时产生的点播数据;判断单元,用于根据上述点播数据判断上述用户的点播行为对应的连播次数是否大于预设连播次数,或者上述视频的连续播放时长是否超过预设时长;清洗单元,用于在判断结果为上述用户的点播行为对应的连播次数大于预设连播次数,或者上述视频的连续播放时长超过上述预设时长的情况下,对上述点播数据进行清洗。
进一步地,上述清洗单元还用于将上述点播数据中大于上述预设连播次数的连播行为对应的点播数据清洗掉。
进一步地,上述清洗单元包括:第一判断模块,用于根据上述点播数据判断上述用户的点播行为是否包含多次播放行为;第二判断模块,用于在判断结果为上述用户的点播行为包含上述多次播放行为的情况下,判断上述多次播放行为的次数是否大于上述预设连播次数;第三判断模块,用于在判断结果为上述多次播放行为的次数大于上述预设连播次数的情况下,判断任意两次播放行为之间的时间间隔是否在预设时间间隔范围之内;确定模块,用于在判断结果为上述任意两次播放行为之间的时间间隔在上述预设时间间隔范围之内的情况下,确定上述用户的点播行为对应的连播次数大于上述预设连播次数。
进一步地,上述清洗单元还用于将上述点播数据中上述视频的连续播放时长超过上述预设时长对应的点播数据清洗掉。
进一步地,上述装置还包括:排序单元,用于在获取用户点播视频时产生的点播数据之后,对上述点播数据按时间维度进行排序,得到时间顺序的点播数据。
在本发明实施例中,采用对非用户实际操作而产生的IPTV数据进行清洗的方式,通过获取用户点播视频时产生的点播数据;根据点播数据判断用户的点播行为对应的连播次数是否大于预设连播次数,或者视频的连续播放时长是否超过预设时长;在判断结果为用户的点播行为对应的连播次数大于预设连播次数,或者视频的连续播放时长超过预设时长的情况下,对点播数据进行清洗,达到了清除非用户实际操作而产生的IPTV数据的目的,从而实现了提高用户收视行为分析结果精确度的技术效果,进而解决了相关技术中由于非用户实际操作而产生的IPTV数据影响了用户收视行为分析结果的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的数据清洗方法的示意图;
图2是根据本发明实施例的一种可选的数据清洗方法的原理图;
图3是根据本发明实施例的一种可选的数据清洗方法的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种数据清洗方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种可选的数据清洗方法的示意图,如图1所示,该方法包括如下步骤:
步骤S102,获取用户点播视频时产生的点播数据;
步骤S104,根据点播数据判断用户的点播行为对应的连播次数是否大于预设连播次数,或者视频的连续播放时长是否超过预设时长;
步骤S106,在判断结果为用户的点播行为对应的连播次数大于预设连播次数,或者视频的连续播放时长超过预设时长的情况下,对点播数据进行清洗。
在用户点播视频时,系统会产生点播数据,并生成相应的收视日志,其中,此处的点播数据包括播放各视频片段(如影片、电视剧剧集等)的起始时间、终止时间、连播次数(即连续播放次数)、任意两次连续播放之间的时间间隔等。电视机(包括但不限于采用IPTV、OTT及DVB等)或者其机顶盒可以通过内嵌的采集代码采集并上传系统生成的收视日志。下面以机顶盒采集并上传收视日志为例详细阐述本发明。
在本发明实施例中,收视日志可以以文本或其他方式储存在数据库(包括但不限于Microsoft Access/Microsoft SQL Server/My SQL等数据库)中。具体地,可以针对IPTV用户行为日志(即收视日志)的数据特点,设计机顶盒的采集模块接口,并将采集到的日志以播放时长、播放次数等指标形式保存到数据库中,例如,这些指标数据保存在数据库的时间维度表、业务维度表、内容维度表等不同维度表中。
需要说明的是,用户的收视日志可以揭示用户使用电视业务的收视行为。在用户装机时,会为每个用户分配一个唯一的ID号,这样,机顶盒每条发送用户的收视日志时,除了在日志信息中携带用户使用的业务类型(如直播、点播、回看等)、用户开始使用的时间、用户结束使用的时间等,还会将用户的ID号携带在日志信息中。在分析日志时,需要将每条用户收视日志记为一次用户收视行为。
具体地,可以按照每天处理一次的原则,每天获取一次各用户使用电视业务的收视日志数据。也即,收视日志数据是非实时获取并处理的。例如,从每天的0点开始处理前一天的数据,也就是前一天0点-23点59分59秒内所有用户的收视日志数据。对一个用户ID而言,如果当天没有任何关于该用户ID的收视日志,则认为这个用户当天没有使用电视业务;反之,只要出现一条关于该用户ID的收视日志,则认为该用户当天使用了电视业务,此种情况下需要对该用户ID进行标记。
通过上述实施例,通过获取用户点播视频时产生的点播数据;根据点播数据判断用户的点播行为是否是大于预设连播次数的连播行为,或者视频的连续播放时长是否超过预设时长;在判断结果为用户的点播行为是大于预设连播次数的连播行为,或者视频的连续播放时长超过预设时长的情况下,对点播数据进行清洗,可以实现过滤数据的目的,从而消除格式错误数据或者无效数据对数据分析的影响,使得分析结果更加精准合理。
可选地,在判断结果为用户的点播行为对应的连播次数大于预设连播次数的情况下,对点播数据进行清洗包括:
S2,将点播数据中大于预设连播次数的连播行为对应的点播数据清洗掉。
当用户点播电视节目,比如点播某一部电视剧时,由于每部电视剧都具有多集剧集,这样,在一定时间段内,用户可能连续观看多集。但是,统计发现,正常情况下,用户只会连续观看2-3集。另外,当用户点播电视节目后,若仅仅关闭了电视机,而没有关闭机顶盒,那么机顶盒依旧会记录并回传剧集播放数据。由此,如果一个用户连续观看的剧集太多,那么这个用户实际上可能并没有观看这些剧集或者没有观看这些剧集中的部分剧集。在这种情况下,如果不清洗掉这些无效数据,就会影响整个数据分析结果。但是,如果将一次播放过程中连续播放剧集太多的所有播放数据都清洗掉,那么又可能将用户实际观看的剧集的播放数据也清洗掉,这样也会影响数据分析结果。因此,仅仅将点播数据中大于预设连播次数的连播行为对应的点播数据清洗掉,不仅可以清洗掉无效数据,还可以避免将有效数据也清洗掉。
例如,在统计用户的点播剧集时,如果发现一个用户的点播行为为连播行为且其连续点播的次数(即剧集数)大于等于4次,或者连续播放时长累计大于等于4个小时,那么认为这个用户以后(即连续点播4次以后或者连续播放4小时以后)的播放数据是无效数据,将其清洗掉。
基于上述实施例,可选地,根据点播数据判断用户的点播行为对应的连播次数是否大于预设连播次数包括:
S4,根据点播数据判断用户的点播行为是否包含多次播放行为;
S6,在判断结果为用户的点播行为包含多次播放行为的情况下,判断多次播放行为的次数是否大于预设连播次数;
S8,在判断结果为多次播放行为的次数大于预设连播次数的情况下,判断任意两次播放行为之间的时间间隔是否在预设时间间隔范围之内;
S10,在判断结果为任意两次播放行为之间的时间间隔在预设时间间隔范围之内的情况下,确定用户的点播行为对应的连播次数大于预设连播次数。
查看用户的点播数据时会发现,任意两次播放行为之间,尤其是任意两次连播行为之间都会间隔一定时长,比如小于等于2秒钟的时长,因此,可以通过检测连续播放过程中是否存在多个满足预定时长的时间间隔来判断用户的点播行为是否包含多次播放行为。在存在连播行为时,需要继续判断连播次数是否大于预设值,在不存在连播行为时,可以仅仅判断本次播放行为的播放时长是否超过预设时长。当连播次数大于预设值时,需要继续判断任意两次连播行为之间的时间间隔是否在预设时间间隔(如2秒)范围之内,否则认为此次播放行为产生的播放数据为有效数据。进一步,当任意两次连播行为之间的时间间隔在预设时间间隔(如2秒)范围之内时,认为上述的连播行为是真正的连播行为,否则认为上述连播行为为伪连播行为。
例如,在确定用户的点播行为中包含多次播放行为时,可以统计该用户连续播放视频的次数,如果该用户连续4次或4次以上的实施了播放行为,则需要检测这些播放行为中任意相邻的两次播放之间的时间间隔是否小于等于2秒;如果该用户连续实施播放行为不超过4次,则认为所有的播放数据都是有效数据,都需要保留下来。其中,在播放行为超过4次,且任意相邻的两次播放之间的时间间隔是否小于等于2秒,则认为这些播放行为是连播行为,此时认为4次及其以内的播放数据为有效数据,需要保留,其他数据为无效数据,需要删除,即需要清洗掉。
通过本发明实施例,可以准确地分析出播放数据是否包含无效数据,并进一步确定其中的有效数据部分和无效数据部分,实现对对点播数据的精准分析,以及准确地将用户观看完剧集后,由于只关闭电视,没关闭机顶盒,而引起的机顶盒继续工作并且回传用户实际没有观看的视频数据清除掉,达到了准确清洗无效数据的目的。
可选地,在判断结果为视频的连续播放时长超过预设时长的情况下,对点播数据进行清洗包括:
S12,将点播数据中视频的连续播放时长超过预设时长对应的点播数据清洗掉。
例如,在统计该用户的连播行为时,如果一个用户的连播行为的累计时长大于等于4个小时,那么认为超出4小时的播放数据是无效数据,需要将其清洗掉,而4小时之内的数据则为正常数据,在此不做处理。当然,在清洗点播数据时,还可以将连续播放时长超过预设时长的所有点播数据都清洗掉。只是后者与前者相比,可能会将部分有效数据也清洗掉,从而导致数据清洗过度,丢失部分有效数据。
可选地,在获取用户点播视频时产生的点播数据之后,上述方法还包括:
S14,对点播数据按时间维度进行排序,得到时间顺序的点播数据。
具体地,可以根据用户ID将每个用户的点播行为按时间维度进行筛选,得到该ID用户在一段时间内按时间顺序播放的点播内容。不同的点播行为可以通过各点播行为的起始时间和结束时间进行区分。这样,可以便于后续数据处理流程的执行。
实施例2
根据本发明实施例,提供了一种数据清洗装置的装置实施例。
图3是根据本发明实施例的一种可选的数据清洗方法的示意图,如图3所示,该装置包括:获取单元302,用于获取用户点播视频时产生的点播数据;判断单元304,用于根据点播数据判断用户的点播行为对应的连播次数是否大于预设连播次数,或者视频的连续播放时长是否超过预设时长;清洗单元306,用于在判断结果为用户的点播行为对应的连播次数大于预设连播次数,或者视频的连续播放时长超过预设时长的情况下,对点播数据进行清洗。
在用户点播视频时,系统会产生点播数据,并生成相应的收视日志,其中,此处的点播数据包括播放各视频片段(如影片、电视剧剧集等)的起始时间、终止时间、连播次数(即连续播放次数)、任意两次连续播放之间的时间间隔等。电视机(包括但不限于采用IPTV、OTT及DVB等)或者其机顶盒可以通过内嵌的采集代码采集并上传系统生成的收视日志。下面以机顶盒采集并上传收视日志为例详细阐述本发明。
在本发明实施例中,收视日志可以以文本或其他方式储存在数据库(包括但不限于Microsoft Access/Microsoft SQL Server/My SQL等数据库)中。具体地,可以针对IPTV用户行为日志(即收视日志)的数据特点,设计机顶盒的采集模块接口,并将采集到的日志以播放时长、播放次数等指标形式保存到数据库中,例如,这些指标数据保存在数据库的时间维度表、业务维度表、内容维度表等不同维度表中。
需要说明的是,用户的收视日志可以揭示用户使用电视业务的收视行为。在用户装机时,会为每个用户分配一个唯一的ID号,这样,机顶盒每条发送用户的收视日志时,除了在日志信息中携带用户使用的业务类型(如直播、点播、回看等)、用户开始使用的时间、用户结束使用的时间等,还会将用户的ID号携带在日志信息中。在分析日志时,需要将每条用户收视日志记为一次用户收视行为。
具体地,可以按照每天处理一次的原则,每天获取一次各用户使用电视业务的收视日志数据。也即,收视日志数据是非实时获取并处理的。例如,从每天的0点开始处理前一天的数据,也就是前一天0点-23点59分59秒内所有用户的收视日志数据。对一个用户ID而言,如果当天没有任何关于该用户ID的收视日志,则认为这个用户当天没有使用电视业务;反之,只要出现一条关于该用户ID的收视日志,则认为该用户当天使用了电视业务,此种情况下需要对该用户ID进行标记。
通过上述实施例,通过获取用户点播视频时产生的点播数据;根据点播数据判断用户的点播行为是否是大于预设连播次数的连播行为,或者视频的连续播放时长是否超过预设时长;在判断结果为用户的点播行为是大于预设连播次数的连播行为,或者视频的连续播放时长超过预设时长的情况下,对点播数据进行清洗,可以实现过滤数据的目的,从而消除格式错误数据或者无效数据对数据分析的影响,使得分析结果更加精准合理。
可选地,上述清洗单元还用于将点播数据中大于预设连播次数的连播行为对应的点播数据清洗掉。
当用户点播电视节目,比如点播某一部电视剧时,由于每部电视剧都具有多集剧集,这样,在一定时间段内,用户可能连续观看多集。但是,统计发现,正常情况下,用户只会连续观看2-3集。另外,当用户点播电视节目后,若仅仅关闭了电视机,而没有关闭机顶盒,那么机顶盒依旧会记录并回传剧集播放数据。由此,如果一个用户连续观看的剧集太多,那么这个用户实际上可能并没有观看这些剧集或者没有观看这些剧集中的部分剧集。在这种情况下,如果不清洗掉这些无效数据,就会影响整个数据分析结果。但是,如果将一次播放过程中连续播放剧集太多的所有播放数据都清洗掉,那么又可能将用户实际观看的剧集的播放数据也清洗掉,这样也会影响数据分析结果。因此,仅仅将点播数据中大于预设连播次数的连播行为对应的点播数据清洗掉,不仅可以清洗掉无效数据,还可以避免将有效数据也清洗掉。
例如,在统计用户的点播剧集时,如果发现一个用户的点播行为为连播行为且其连续点播的次数(即剧集数)大于等于4次,或者连续播放时长累计大于等于4个小时,那么认为这个用户以后(即连续点播4次以后或者连续播放4小时以后)的播放数据是无效数据,将其清洗掉。
可选地,上述清洗单元包括:第一判断模块,用于根据点播数据判断用户的点播行为是否包含多次播放行为;第二判断模块,用于在判断结果为用户的点播行为包含多次播放行为的情况下,判断多次播放行为的次数是否大于预设连播次数;第三判断模块,用于在判断结果为多次播放行为的次数大于预设连播次数的情况下,判断任意两次播放行为之间的时间间隔是否在预设时间间隔范围之内;确定模块,用于在判断结果为任意两次播放行为之间的时间间隔在预设时间间隔范围之内的情况下,确定用户的点播行为大于预设连播次数。
查看用户的点播数据时会发现,任意两次播放行为之间,尤其是任意两次连播行为之间都会间隔一定时长,比如小于等于2秒钟的时长,因此,可以通过检测连续播放过程中是否存在多个满足预定时长的时间间隔来判断用户的点播行为是否包含多次播放行为。在存在连播行为时,需要继续判断连播次数是否大于预设值,在不存在连播行为时,可以仅仅判断本次播放行为的播放时长是否超过预设时长。当连播次数大于预设值时,需要继续判断任意两次连播行为之间的时间间隔是否在预设时间间隔(如2秒)范围之内,否则认为此次播放行为产生的播放数据为有效数据。进一步,当任意两次连播行为之间的时间间隔在预设时间间隔(如2秒)范围之内时,认为上述的连播行为是真正的连播行为,否则认为上述连播行为为伪连播行为。
例如,在确定用户的点播行为中包含多次播放行为时,可以统计该用户连续播放视频的次数,如果该用户连续4次或4次以上的实施了播放行为,则需要检测这些播放行为中任意相邻的两次播放之间的时间间隔是否小于等于2秒;如果该用户连续实施播放行为不超过4次,则认为所有的播放数据都是有效数据,都需要保留下来。其中,在播放行为超过4次,且任意相邻的两次播放之间的时间间隔是否小于等于2秒,则认为这些播放行为是连播行为,此时认为4次及其以内的播放数据为有效数据,需要保留,其他数据为无效数据,需要删除,即需要清洗掉。
通过本发明实施例,可以准确地分析出播放数据是否包含无效数据,并进一步确定其中的有效数据部分和无效数据部分,实现对对点播数据的精准分析,以及准确地将用户观看完剧集后,由于只关闭电视,没关闭机顶盒,而引起的机顶盒继续工作并且回传用户实际没有观看的视频数据清除掉,达到了准确清洗无效数据的目的。
可选地,上述清洗单元还用于将点播数据中视频的连续播放时长超过预设时长对应的点播数据清洗掉。
例如,在统计该用户的连播行为时,如果一个用户的连播行为的累计时长大于等于4个小时,那么认为超出4小时的播放数据是无效数据,需要将其清洗掉,而4小时之内的数据则为正常数据,在此不做处理。当然,在清洗点播数据时,还可以将连续播放时长超过预设时长的所有点播数据都清洗掉。只是后者与前者相比,可能会将部分有效数据也清洗掉,从而导致数据清洗过度,丢失部分有效数据。
可选地,上述装置还包括:排序单元,用于在获取用户点播视频时产生的点播数据之后,对点播数据按时间维度进行排序,得到时间顺序的点播数据。
具体地,可以根据用户ID将每个用户的点播行为按时间维度进行筛选,得到该ID用户在一段时间内按时间顺序播放的点播内容。不同的点播行为可以通过各点播行为的起始时间和结束时间进行区分。这样,可以便于后续数据处理流程的执行。
上述数据清洗装置包括处理器和存储器,上述获取单元、判断单元、清洗单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数解析文本内容。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取用户点播视频时产生的点播数据;根据点播数据判断用户的点播行为对应的连播次数是否大于预设连播次数,或者视频的连续播放时长是否超过预设时长;在判断结果为用户的点播行为对应的连播次数大于预设连播次数,或者视频的连续播放时长超过预设时长的情况下,对点播数据进行清洗。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (4)

1.一种数据清洗方法,其特征在于,包括:
获取用户点播视频时产生的点播数据;
根据所述点播数据判断所述用户的点播行为对应的连播次数是否大于预设连播次数;
在判断结果为所述用户的点播行为对应的连播次数大于预设连播次数的情况下,对所述点播数据进行清洗;
其中,根据所述点播数据判断所述用户的点播行为对应的连播次数是否大于预设连播次数包括:
根据所述点播数据判断所述用户的点播行为是否包含多次播放行为;
在判断结果为所述用户的点播行为包含所述多次播放行为的情况下,判断所述多次播放行为的次数是否大于所述预设连播次数;
在判断结果为所述多次播放行为的次数大于所述预设连播次数的情况下,判断任意两次播放行为之间的时间间隔是否在预设时间间隔范围之内;
在判断结果为所述任意两次播放行为之间的时间间隔在所述预设时间间隔范围之内的情况下,确定所述用户的点播行为对应的连播次数大于所述预设连播次数;
在判断结果为所述用户的点播行为对应的连播次数大于预设连播次数的情况下,对所述点播数据进行清洗包括:
将所述点播数据中大于所述预设连播次数的连播行为对应的点播数据清洗掉。
2.根据权利要求1所述的方法,其特征在于,在获取用户点播视频时产生的点播数据之后,所述方法还包括:
对所述点播数据按时间维度进行排序,得到时间顺序的点播数据。
3.一种数据清洗装置,其特征在于,包括:
获取单元,用于获取用户点播视频时产生的点播数据;
判断单元,用于根据所述点播数据判断所述用户的点播行为对应的连播次数是否大于预设连播次数;
清洗单元,用于在判断结果为所述用户的点播行为对应的连播次数大于预设连播次数的情况下,对所述点播数据进行清洗;
其中,所述清洗单元包括:
第一判断模块,用于根据所述点播数据判断所述用户的点播行为是否包含多次播放行为;
第二判断模块,用于在判断结果为所述用户的点播行为包含所述多次播放行为的情况下,判断所述多次播放行为的次数是否大于所述预设连播次数;
第三判断模块,用于在判断结果为所述多次播放行为的次数大于所述预设连播次数的情况下,判断任意两次播放行为之间的时间间隔是否在预设时间间隔范围之内;
确定模块,用于在判断结果为所述任意两次播放行为之间的时间间隔在所述预设时间间隔范围之内的情况下,确定所述用户的点播行为对应的连播次数大于所述预设连播次数;
所述清洗单元还用于将所述点播数据中大于所述预设连播次数的连播行为对应的点播数据清洗掉。
4.根据权利要求3所述的装置,其特征在于,所述装置还包括:
排序单元,用于在获取用户点播视频时产生的点播数据之后,对所述点播数据按时间维度进行排序,得到时间顺序的点播数据。
CN201511031399.0A 2015-12-31 2015-12-31 数据清洗方法及装置 Active CN106937133B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511031399.0A CN106937133B (zh) 2015-12-31 2015-12-31 数据清洗方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511031399.0A CN106937133B (zh) 2015-12-31 2015-12-31 数据清洗方法及装置

Publications (2)

Publication Number Publication Date
CN106937133A CN106937133A (zh) 2017-07-07
CN106937133B true CN106937133B (zh) 2019-12-10

Family

ID=59443655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511031399.0A Active CN106937133B (zh) 2015-12-31 2015-12-31 数据清洗方法及装置

Country Status (1)

Country Link
CN (1) CN106937133B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104378662A (zh) * 2014-11-20 2015-02-25 四川长虹电器股份有限公司 一种智能电视判断用户有效收视节目的系统和方法
CN104394436A (zh) * 2014-11-28 2015-03-04 北京国双科技有限公司 网络电视直播电视频道的收视率的监测方法和装置
CN104410873A (zh) * 2014-11-19 2015-03-11 北京国双科技有限公司 电视频道用户数的检测方法和装置
CN104410906A (zh) * 2014-11-18 2015-03-11 北京国双科技有限公司 视频播放行为的检测方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104410906A (zh) * 2014-11-18 2015-03-11 北京国双科技有限公司 视频播放行为的检测方法和装置
CN104410873A (zh) * 2014-11-19 2015-03-11 北京国双科技有限公司 电视频道用户数的检测方法和装置
CN104378662A (zh) * 2014-11-20 2015-02-25 四川长虹电器股份有限公司 一种智能电视判断用户有效收视节目的系统和方法
CN104394436A (zh) * 2014-11-28 2015-03-04 北京国双科技有限公司 网络电视直播电视频道的收视率的监测方法和装置

Also Published As

Publication number Publication date
CN106937133A (zh) 2017-07-07

Similar Documents

Publication Publication Date Title
US20230360064A1 (en) Systems and methods to identify intentionally placed products
EP2030439B1 (en) Methods and apparatus to meter content exposure using closed caption information
CN102263999B (zh) 基于人脸识别对电视节目自动分类的方法及其系统
CA2556548C (en) Methods and apparatus to determine audience viewing of recorded programs
US20130232516A1 (en) Method And Apparatus for Collection and Analysis of Real-Time Audience Feedback
CN106488256B (zh) 一种数据处理方法及装置
WO2012162693A1 (en) Highly scalable audience measurement system with client event pre-processing
CN104378662A (zh) 一种智能电视判断用户有效收视节目的系统和方法
CN106028126A (zh) 一种节目推送方法及系统
CN111601171A (zh) 定位智能电视家庭成员的方法、装置及控制器
CN112218166A (zh) 一种对点播视频记忆播放的启播方法及相关装置
CN113613051B (zh) 无缝续播方法、装置、服务器及计算机存储介质
CN106937133B (zh) 数据清洗方法及装置
US11627374B2 (en) Method of monitoring usage of at least one application executed within an operating system, corresponding apparatus, computer program product and computer-readable carrier medium
CN108174246A (zh) 一种投放视频广告的方法及装置
CN103686238A (zh) 视频播放检测方法和装置
CN110089123A (zh) 录制即将到来的电视广播节目的方法
KR20150099522A (ko) 시간 정보에 기반하여 컨텐츠를 인덱싱하는 방법, 장치 및 시스템
WO2016155255A1 (zh) 节目录制方法及装置
CN106572365B (zh) 一种节目推荐方法、装置、设备及存储介质
AU2012216513B2 (en) Systems and methods to identify intentionally placed products
CN106817624B (zh) 分析用户回看节目内容的行为的方法和装置
CN106937139A (zh) 电视业务使用量突增原因的分析方法及装置
CN106937138A (zh) 电视业务使用量突减原因的分析方法及装置
CN103702204A (zh) 直播节目的播放控制方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant