CN113377734A - 一种数据统计方法、装置、电子设备及存储介质 - Google Patents

一种数据统计方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113377734A
CN113377734A CN202110752228.6A CN202110752228A CN113377734A CN 113377734 A CN113377734 A CN 113377734A CN 202110752228 A CN202110752228 A CN 202110752228A CN 113377734 A CN113377734 A CN 113377734A
Authority
CN
China
Prior art keywords
statistical
data
log data
user
data source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110752228.6A
Other languages
English (en)
Inventor
邹兴标
胡林
吴云根
汪圣涛
张家利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing IQIYI Science and Technology Co Ltd
Original Assignee
Beijing IQIYI Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing IQIYI Science and Technology Co Ltd filed Critical Beijing IQIYI Science and Technology Co Ltd
Priority to CN202110752228.6A priority Critical patent/CN113377734A/zh
Publication of CN113377734A publication Critical patent/CN113377734A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明实施例提供了一种数据统计方法、装置、电子设备及存储介质,应用于计算机技术领域,该统计方法包括:每当获取到针对目标多媒体数据的日志数据时,判断该日志数据中所记录的用户是否符合预定的新用户条件;如果是,为该日志数据设置第一统计标识;否则,如果该日志数据记录的用户访问时间早于目标日志数据,为该日志数据设置第一统计标识,并对目标日志数据执行统计标识消除处理;在满足新用户统计条件时,针对每一数据源,根据记录有该数据源的各条日志数据所设置的第一统计标识,统计来自该数据源的新用户的数量。可见,本方案可以解决由于本地缓存或网络等原因,容易导致对新用户的统计结果不准确的问题。

Description

一种数据统计方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机技术领域,特别是涉及一种数据统计方法、装置、电子设备及存储介质。
背景技术
多媒体数据的访问次数、访问人数、新用户的数量等,是衡量该多媒体数据质量的常用指标。其中,新用户的数量可以表征多媒体数据对用户的吸引力,并作为向用户推荐多媒体数据的重要依据。
为了更好的了解用户对多媒体数据的观看兴趣,需要实时的对来自各类数据源的新用户进行统计。现有技术中,在实时统计新用户时,按照接收到的日志数据的时间先后顺序,统计来自各类数据源的新用户。
但是,由于本地缓存或网络等原因,现有技术容易导致对来自各类数据源的新用户的统计结果不准确。例如:用户U1在12点30分通过视频客户端首页第一次点击观看剧集A1,12点32分通过视频客户端的电视剧频道再次观看剧集A1,可见,该用户实际为来自首页的新用户。但是,因为本地缓存或网络原因,服务器先收到了12点32分的日志数据,按照现有技术,则会将该用户判断为来自电视剧频道的新用户,这样,导致所统计的来自各类数据源的新用户的统计结果不准确。
发明内容
本发明实施例的目的在于提供一种数据统计方法、装置、电子设备及存储介质,以解决由于本地缓存或网络等原因,容易导致对新用户的统计结果不准确的问题。具体技术方案如下:
在本发明实施的第一方面,首先提供了一种数据统计方法,包括:
每当获取到针对目标多媒体数据的日志数据时,判断该日志数据中所记录的用户是否符合预定的新用户条件;
如果是,为该日志数据设置第一统计标识;其中,所述第一统计标识用于表征该日志数据记录的用户能够作为新用户进行统计;
否则,如果该日志数据记录的用户访问时间早于目标日志数据,为该日志数据设置所述第一统计标识,并对所述目标日志数据执行统计标识消除处理;其中,所述目标日志数据与该日志数据记录同一用户且所记录用户符合所述新用户条件;
在满足新用户统计条件时,针对每一数据源,根据记录有该数据源的各条日志数据所设置的第一统计标识,统计来自该数据源的新用户的数量。
可选地,所述对所述目标日志数据执行统计标识消除处理,包括:
复制一条所述目标日志数据并为所复制的目标日志数据设置第二统计标识;所述第二统计标识与所述第一统计标识不同;
所述在满足新用户统计条件时,针对每一数据源,根据记录有该数据源的各条日志数据所设置的第一统计标识,包括:
在满足新用户统计条件时,针对每一数据源,根据记录有该数据源的各条日志数据所设置的第一统计标识和第二统计标识,统计来自该数据源的新用户的数量。
可选地,所述第一统计标识和所述第二统计标识均为数字,且第一统计标识和第二统计标识之和为0;
所述针对每一数据源,根据记录有该数据源的各条日志数据所设置的第一统计标识和第二统计标识,统计来自该数据源的新用户的数量,包括:
针对每一数据源,确定记录有该数据源的各条日志数据所设置的统计标识的和值;确定所述和值与所述第一统计标识的绝对值相除的结果,作为初始用户数量;基于所述初始用户数量,确定来自该数据源的新用户的数量。
可选地,所述第一统计标识和所述第二统计标识中的至少一个为非数字,或者,所述第一统计标识和所述第二统计标识均为数字;
所述针对每一数据源,根据记录有该数据源的各条日志数据所设置的第一统计标识和第二统计标识,统计来自该数据源的新用户的数量,包括:
针对每一数据源,统计记录有该数据源的各条日志数据中,设置有第一统计标识的日志数据的第一数量,以及统计记录有该数据源的各条日志数据中,设置有第二统计标识的日志数据的第二数量;
计算第一数量和第二数量的差值,作为初始用户数量;
基于所述初始用户数量,确定来自该数据源的新用户的数量。
可选地,所述满足新用户统计条件包括:达到预设的统计周期;所述基于所述初始用户数量,确定来自该数据源的新用户的数量,包括:
每达到预设的统计周期时,将所述初始用户数量作为当前统计周期内的来自该数据源的新用户的数量;
将所述初始用户数量,与上一统计周期所得到的来自该数据源的新用户的数量进行求和,得到来自该数据源的新用户的总数。
可选地,所述方法还包括:
在满足预设的修正条件时,确定目标周期内的针对目标多媒体数据的多条日志数据;其中,所述目标周期包含多个统计周期;
从所确定的多条日志数据所记录的用户中,识别属于新用户的用户,并确定属于新用户的用户的访问时间最早的日志数据,作为待处理日志数据;
针对每一数据源,确定各统计周期内的记录有该数据源的待处理日志数据的数量,得到各统计周期内的该数据源对应的修正数量,并利用得到的修正数量,修正各统计周期内的该数据源的新用户的数量。
可选地,所述判断该日志数据中所记录的用户是否符合预定的新用户条件,包括:
从历史目标数据所记录的用户中,判断是否存在该日志数据中所记录的用户,如果否,判定符合预定的新用户条件;其中,所述历史目标数据为在获取该日志数据之前,获取到的针对目标多媒体数据的日志数据。
在本发明实施的第二方面,还提供了一种数据统计装置,包括:
用户判断模块,用于每当获取到针对目标多媒体数据的日志数据时,判断该日志数据中所记录的用户是否符合预定的新用户条件;
标识设置模块,用于如果是,为该日志数据设置第一统计标识;其中,所述第一统计标识用于表征该日志数据记录的用户能够作为新用户进行统计;
标识消除模块,用于否则,如果该日志数据记录的用户访问时间早于目标日志数据,为该日志数据设置所述第一统计标识,并对所述目标日志数据执行统计标识消除处理;其中,所述目标日志数据与该日志数据记录同一用户且所记录用户符合所述新用户条件;
数量统计模块,用于在满足新用户统计条件时,针对每一数据源,根据记录有该数据源的各条日志数据所设置的第一统计标识,统计来自该数据源的新用户的数量。
可选地,所述标识消除模块,具体用于复制一条所述目标日志数据并为所复制的目标日志数据设置第二统计标识;所述第二统计标识与所述第一统计标识不同;
所述数量统计模块包括:
第一统计子模块,用于在满足新用户统计条件时,针对每一数据源,根据记录有该数据源的各条日志数据所设置的第一统计标识和第二统计标识,统计来自该数据源的新用户的数量。
可选地,所述第一统计标识和所述第二统计标识均为数字,且第一统计标识和第二统计标识之和为0;
所述第一统计子模块,具体用于针对每一数据源,计算记录有该数据源的各条日志数据所设置的统计标识的和值;确定所述和值与所述第一统计标识的绝对值相除的结果,作为初始用户数量;基于所述初始用户数量,确定来自该数据源的新用户的数量。
可选地,所述第一统计标识和所述第二统计标识中的至少一个为非数字,或者,所述第一统计标识和所述第二统计标识均为数字;
所述第一统计子模块包括统计子单元;
所述统计子单元,用于针对每一数据源,统计记录有该数据源的各条日志数据中,设置有第一统计标识的日志数据的第一数量,以及统计记录有该数据源的各条日志数据中,设置有第二统计标识的日志数据的第二数量;计算第一数量和第二数量的差值,作为初始用户数量;基于所述初始用户数量,确定来自该数据源的新用户的数量。
可选地,所述满足新用户统计条件包括:达到预设的统计周期;
所述统计子单元,具体用于每达到预设的统计周期时,将所述初始用户数量作为当前统计周期内的来自该数据源的新用户的数量;将所述初始用户数量,与上一统计周期所得到的来自该数据源的新用户的数量进行统计,得到当前时刻的来自该数据源的新用户的总数。
可选地,所述装置还包括:数据修正模块,用于在满足预设的修正条件时,确定目标周期内的针对目标多媒体数据的多条日志数据;其中,所述目标周期包含多个统计周期;从所确定的多条日志数据所记录的用户中,识别属于新用户的用户,并确定属于新用户的用户的访问时间最早的日志数据,作为待处理日志数据;针对每一数据源,确定各统计周期内的记录有该数据源的待处理日志数据的数量,得到各统计周期内的该数据源对应的修正数量,并利用得到的修正数量,修正各统计周期内的该数据源的新用户的数量。
可选地,所述用户判断模块,具体用于从历史目标数据所记录的用户中,判断是否存在该日志数据中所记录的用户,如果否,判定符合预定的新用户条件;其中,所述历史目标数据为在获取该日志数据之前,获取到的针对目标多媒体数据的日志数据。
在本发明实施的第三方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述的数据统计方法。
在本发明实施的第四方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的数据统计方法。
在本发明实施的第五方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的数据统计方法。
本发明实施例提供的数据统计方法,在统计来自各数据源的新用户时,不但对所记录用户符合预定的新用户条件的日志数据设置第一统计标识,而且对所记录用户不符合预定的新用户条件但用户访问时间早于相应目标日志数据的日志数据,设置第一统计标识同时,对相应目标日志数据执行统计标识消除处理,这样,可以保证所统计的每一新用户的数据源为每一新用户对应的用户访问时间最早的数据源。可见,通过本方案,可以解决由于本地缓存或网络等原因,容易导致对新用户的统计结果不准确的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例中的一种数据统计方法的流程图;
图2为本发明实施例中的一种数据统计方法的另一流程图;
图3为本发明实施例中的一种数据统计装置的结构示意图;
图4为本发明实施例中的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
为了解决由于本地缓存或网络等原因,容易导致对新用户的统计结果不准确的问题,本发明实施例提供了一种数据统计方法、装置、电子设备及存储介质。
需要说明的是,本发明实施例提供的一种数据统计方法应用于电子设备。在实际应用中,该电子设备可以为服务器,例如:多媒体播放客户端对应的服务器,或者,与多媒体播放客户端对应的服务器相通信的其他服务器,当然并不局限于此。其中,本发明实施例对于服务器的具体设备形态不做限定。
具体而言,该数据统计方法的执行主体可以为部署于电子设备中的数据统计装置,也就是说,该数据统计装置用于实现本发明实施例所提供的数据统计方法。此外,本发明实施例中所涉及的目标多媒体数据的类型可以包括视频或者音频等等,并且,该目标多媒体数据可以为任一多媒体数据。
另外,用户通过多媒体播放客户端访问该目标多媒体数据时,该多媒体播放客户端可以生成针对该目标多媒体数据的日志数据,该电子设备可以获取到多媒体播放客户端所生成的针对目标多媒体数据的日志数据。其中,日志数据中可以包括该目标多媒体数据的数据源、该用户访问该多媒体数据的访问时间、该用户的用户标识等等。示例性的,该目标多媒体数据的数据源可以存在多个,例如:多媒体播放客户端的首页,或者,多媒体播放客户端的数据频道,等等。
其中,本发明实施例所提供的一种数据统计方法,包括:
每当获取到针对目标多媒体数据的日志数据时,判断该日志数据中所记录的用户是否符合预定的新用户条件;
如果是,为该日志数据设置第一统计标识;其中,所述第一统计标识用于表征该日志数据记录的用户能够作为新用户进行统计;
否则,如果该日志数据记录的用户访问时间早于目标日志数据,为该日志数据设置所述第一统计标识,并对所述目标日志数据执行统计标识消除处理;其中,所述目标日志数据与该日志数据记录同一用户且所记录用户符合所述新用户条件,所述统计标识消除处理用于使得所述目标日志数据中记录的用户不作为新用户进行统计;
在满足新用户统计条件时,针对每一数据源,根据记录有该数据源的各条日志数据所设置的第一统计标识,统计来自该数据源的新用户的数量。
本发明实施例提供的数据统计方法,在统计来自各数据源的新用户时,不但对所记录用户符合预定的新用户条件的日志数据设置第一统计标识,而且对所记录用户不符合预定的新用户条件但用户访问时间早于相应目标日志数据的日志数据,设置第一统计标识同时,对相应目标日志数据执行统计标识消除处理,这样,可以保证所统计的每一新用户的数据源为每一新用户对应的用户访问时间最早的数据源。可见,本方案,可以解决由于本地缓存或网络等原因,容易导致对新用户的统计结果不准确的问题。
下面结合图1,对本发明实施例所提供的一种数据统计方法进行介绍。
如图1所示,本发明实施例所提供的一种数据统计方法,可以包括:
S101,每当获取到针对目标多媒体数据的日志数据时,判断该日志数据中所记录的用户是否符合预定的新用户条件,如果是,执行S102;否则,执行S103。
可以理解的是,为了实时得到各数据源的新用户的数量,可以对各数据源的新用户的数量进行实时统计,因此,本方案在每获取到针对目标多媒体数据的日志数据时,执行统计新用户的数量的过程。其中,该目标多媒体数据可以为任一符合预设统计条件的多媒体数据等,该预设统计条件可以存在多种,例如:上映时间在预设时间内、所属类别与预设类别相同等。示例性的,该目标多媒体数据可以为上映时间在一个月以内的多媒体数据,例如:热播剧等;示例性的,该目标多媒体数据所属类别可以为:电视剧类别、电影类别和综艺类别中的任一种。并且,该预设统计条件可以通过Redis数据库进行保存,当然并不局限于此。
示例性的,在一种实现方式中,判断该日志数据中所记录的用户是否符合预定的新用户条件,可以包括:
从历史目标数据所记录的用户中,判断是否存在该日志数据中所记录的用户,如果否,判定符合预定的新用户条件;其中,历史目标数据为在获取该日志数据之前,获取到的针对目标多媒体数据的日志数据。
可以理解的是,为了方便判断该日志数据中所记录的用户是否符合预定的新用户条件,可以在每获取到针对目标多媒体数据的日志数据时,将该日志数据进行本地存储。那么,在判断该日志数据中所记录的用户是否符合预定的新用户条件时,可以与本地存储的历史目标数据中所记录的访问用户进行对比。
考虑到该用户在访问目标多媒体数据时,可以为登录状态,也可以为非登录状态,那么,该用户的种类可以存在多种,例如:该用户可以为用于访问目标多媒体数据的访问账户、运行该多媒体播放客户端的终端设备的设备标识等。其中,该访问账户可以包括用于识别该用户的用户标识,例如:账户昵称、用户头像等等。
S102,为该日志数据设置第一统计标识。
其中,第一统计标识用于表征该日志数据记录的用户能够作为新用户进行统计。
可以理解的是,为了方便对各数据源的新用户的数量进行统计,可以在判定该日志数据多记录的用户符合预定的新用户条件时,为该日志数据设置第一统计标识。其中,该第一统计标识可以为数字标识,也可以为非数字标识,示例性的,该数字标识可以为任一数字标识,例如:1、2等等;该非数字标识可以为任一指定字符,本发明实施例不做限定。
此外,当目标多媒体数据为视频数据时,该目标多媒体数据的日志数据中可以记录多种信息,例如:该视频数据的所属专辑、该视频数据在所属专辑中的所属剧集、该视频数据的播放时间等等。那么,为了方便对所获取到的日志数据进行处理,在对所获取到的日志数据进行存储时,可以采用统一数据格式进行存储。示例性的,可以采用字段名为album_id,字段类型为long,对日志数据所记录的视频数据所属专辑的专辑ID进行存储;采用字段名为episode_id,字段类型为long,对日志数据所记录的视频数据所属剧集的剧集ID进行存储;采用字段名为first_play_time,字段类型为long,对日志数据所记录的视频数据的访问时间进行存储;采用字段名为device_id,字段类型为string,对日志数据所记录的视频数据对应的播放设备的设备ID进行存储;采用字段名为new_uv,字段类型为int,对第一统计标识进行存储。
S103,如果该日志数据记录的用户访问时间早于目标日志数据,为该日志数据设置该第一统计标识,并对该目标日志数据执行统计标识消除处理。
其中,该目标日志数据与该日志数据记录同一用户且所记录用户符合新用户条件。该统计标识消除处理用于使得该目标日志数据中记录的用户不作为新用户进行统计。
示例性的,在一种实现方式中,对该目标日志数据执行统计标识消除处理,可以包括:将该目标日志数据的第一统计标识更新为非统计标识。其中,该非统计标识用于表征该目标日志数据记录的用户不作为新用户进行统计。示例性的,该非统计标识可以为数字0或空值。
示例性的,在另一种实现方式中,对该目标日志数据执行统计标识消除处理,可以包括:复制一条该目标日志数据并为所复制的目标日志数据设置第二统计标识;该第二统计标识与第一统计标识不同。其中,第二统计标识用于使得在新用户统计时,该目标日志数据所设置的第一统计标识被消除。
在判定该日志数据记录的用户访问时间早于目标日志数据时,通过复制一条该目标日志数据并为所复制的目标日志数据设置第二统计标识,即可实现对该目标日志数据的统计标识消除处理,无需对目标日志数据进行查询、修改等操作,使得统计标识消除处理的时效性较强。
S104,在满足新用户统计条件时,针对每一数据源,根据记录有该数据源的各条日志数据所设置的第一统计标识,统计来自该数据源的新用户的数量。
考虑到对该目标日志数据执行统计标识消除处理时,所采用的消除处理可以存在多种,那么,相应的,统计来自该数据源的新用户的数量的方式也可以存在多种。示例性的,在一种实现方式中,当所采用的消除处理方式为:将该目标日志数据的第一统计标识更新为非统计标识时,在满足新用户统计条件时,针对每一数据源,根据记录有该数据源的各条日志数据所设置的第一统计标识,统计来自该数据源的新用户的数量,可以包括:在满足新用户统计条件时,针对每一数据源,确定该数据源的各条日志数据所设置的第一统计标识的和值,将所确定的和值作为来自该数据源的新用户的数量。
示例性的,在另一种实现方式中,当所采用的消除处理方式为:复制一条目标日志数据并为所复制的目标日志数据设置第二统计标识时,在满足新用户统计条件时,针对每一数据源,根据记录有该数据源的各条日志数据所设置的第一统计标识,统计来自该数据源的新用户的数量,可以包括:在满足新用户统计条件时,针对每一数据源,根据记录有该数据源的各条日志数据所设置的第一统计标识和第二统计标识,统计来自该数据源的新用户的数量。
考虑到该第一统计标识和第二统计标识可以存在多种,那么,针对每一数据源,根据记录有该数据源的各条日志数据所设置的第一统计标识和第二统计标识,统计来自该数据源的新用户的数量的实现方式可以存在多种。示例性的,在一种实现方式中,该第一统计标识和第二统计标识均为数字,且第一统计标识和第二统计标识之和为0时,针对每一数据源,根据记录有该数据源的各条日志数据所设置的第一统计标识和第二统计标识,统计来自该数据源的新用户的数量,包括:
针对每一数据源,计算记录有该数据源的各条日志数据所设置的统计标识的和值;确定和值与第一统计标识的绝对值相除的结果,作为初始用户数量;基于初始用户数量,确定来自该数据源的新用户的数量。
示例性的,在一种实现方式中,当该第一统计标识和第二统计标识中的至少一个为非数字,或者,该第一统计标识和第二统计标识均为数字时,针对每一数据源,根据记录有该数据源的各条日志数据所设置的第一统计标识和第二统计标识,统计来自该数据源的新用户的数量,可以包括:
针对每一数据源,统计记录有该数据源的各条日志数据中,设置有第一统计标识的日志数据的第一数量,以及统计记录有该数据源的各条日志数据中,设置有第二统计标识的日志数据的第二数量;
计算第一数量和第二数量的差值,作为初始用户数量;
基于初始用户数量,确定来自该数据源的新用户的数量。
示例性的,当统计标识位非数字时,该非数字可以为任一指定字符,例如:字符A、B等等。假设,第一统计标识为字符A,第二统计标识为数字1,记录有该数据源的各条日志数据中,设置有字符A的日志数据的第一数量为10,记录有该数据源的各条日志数据中,设置有数字1的日志数据的第二数量为5,那么,第一数量和第二数量的差值5即为初始用户数量。
此外,满足新用户统计条件可以包括多种,例如:达到预设的统计周期、所获取到的日志数据的数量达到预设阈值等。该预设的统计周期可以为用户自行设置,也可以为默认设置。示例性的,该统计周期可以为:1分钟、2分钟等等。
示例性的,在一种实现方式中,该满足新用户统计条件包括:达到预设的统计周期时,基于该初始用户数量,确定来自该数据源的新用户的数量,可以包括:包括:
每达到预设的统计周期时,将该初始用户数量作为当前统计周期内的来自该数据源的新用户的数量;
将该初始用户数量,与上一统计周期所得到的来自该数据源的新用户的数量进行求和,得到来自该数据源的新用户的总数。
可以理解的是,为了更好的了解用户对多媒体数据的观看兴趣,在进行各数据源的新用户的数量统计时,可以统计每一统计周期的来自该数据源的新用户的数量,也可以对各统计周期的来自该数据源的新用户的数量的总数进行统计。
另外,为了方便统计不同数据源的新用户的数量,可以采用Hbase数据库对获取到的多媒体数据的日志数据进行存储,采用Flink处理框架进行新用户的判断,并将符合新用户条件的用户写入Kafka处理平台中,通过Druid数据库连接池来消费Kafka中写入的新用户数据,并对不同数据源的新用户数量进行统计。采用应用程序接口(ApplicationProgram Interface,API)定期从Druid中获取统计结果,并更新到Mysql中。
此外,为了方便判断新用户,可以在判断是否符合预定的新用户条件之前,对该日志数据中所记录的用户进行散列,即哈希(Hash),生成哈希值,并利用该哈希值判断是否符合预定的新用户条件,对每一访问用户进行Hash的实现过程不作具体限定。
本发明实施例提供的数据统计方法,在统计来自各数据源的新用户时,不但对所记录用户符合预定的新用户条件的日志数据设置第一统计标识,而且对所记录用户不符合预定的新用户条件但用户访问时间早于相应目标日志数据的日志数据,设置第一统计标识同时,对相应目标日志数据执行统计标识消除处理,这样,可以保证所统计的每一新用户的数据源为每一新用户对应的用户访问时间最早的数据源。可见,本方案,可以解决由于本地缓存或网络等原因,容易导致对新用户的统计结果不准确的问题。
可选地,在图1基础上,如图2所示,本发明的另一实施例中,该方法还包括如下步骤S201-S203:
S201,在满足预设的修正条件时,确定目标周期内的针对目标多媒体数据的多条日志数据;
可以理解的是,为了提高所统计的各数据源的新用户的数量的准确性,可以在满足预设的修正条件时,对所统计的各数据源的新用户的数量进行修正。其中,该目标周期包含多个统计周期。该目标周期的时长大于该多个统计周期的时长总和。示例性的,该目标周期可以为12小时、24小时,相应的,各统计周期可以为1分钟、2分钟等等。
另外,该预设的修正条件可以包括多种,示例性的,该预设的修正条件可以包括:达到预设的修正周期、所统计的新用户数量达到预设数量等等,该修正周期可以与该目标周期的时长相同。
示例性的,在一种实现方式中,确定目标周期内的针对目标多媒体数据的多条日志数据,可以包括:从本地存储中,确定目标周期内的针对目标多媒体数据的多条日志数据。
S202,从所确定的多条日志数据所记录的用户中,识别属于新用户的用户,并确定属于新用户的用户的访问时间最早的日志数据,作为待处理日志数据;
示例性的,在一种实现方式中,从所确定的多条日志数据所记录的用户中,识别属于新用户的用户,可以包括:从所确定的多条日志数据所记录的用户中,确定新注册用户,或者新访问用户,得到确定结果,并将该确定结果作为新用户。
示例性的,在一种实现方式中,确定属于新用户的用户的访问时间最早的日志数据,作为待处理日志数据,可以包括:从记录有属于新用户的用户的日志数据中,查找所记录的访问时间最早的日志数据,作为待处理日志数据。
S203,针对每一数据源,确定各统计周期内的记录有该数据源的待处理日志数据的数量,得到各统计周期内的该数据源对应的修正数量,并利用得到的修正数量,修正各统计周期内的该数据源的新用户的数量。
示例性的,假设存在3个统计周期:统计周期1、统计周期2、统计周期3,针对每一数据源,统计周期1内的该数据源对应的修正数量为4,统计周期2内的该数据源对应的修正数量为5,统计周期3内的该数据源对应的修正数量为6,那么,修正各统计周期内的该数据源的新用户的数量时,利用统计周期1对应的修正数量4,对统计周期1内的该数据源的新用户的数量进行修正;利用统计周期2对应的修正数量5,对统计周期2内的该数据源的新用户的数量进行修正;利用统计周期3对应的修正数量6,对统计周期3内的该数据源的新用户的数量进行修正。
本发明实施例提供的数据统计方法中,可以确定目标周期内的针对目标多媒体数据的多条日志数据,目标周期包含多个统计周期,使得从所获取确定的多条日志数据所记录的用户中,识别出的属于新用户的用户的数据源,不会因本地缓存或网络的原因存在偏差,进而利用该修正数量,修正该统计周期内的该数据源的新用户的数量,可以提高新用户的数据源的准确性。
相应于上述方法实施例,如图3所示,本发明实施例还提供了一种数据统计装置,包括:
用户判断模块310,用于每当获取到针对目标多媒体数据的日志数据时,判断该日志数据中所记录的用户是否符合预定的新用户条件;
标识设置模块320,用于如果是,为该日志数据设置第一统计标识;其中,第一统计标识用于表征该日志数据记录的用户能够作为新用户进行统计;
标识消除模块330,用于否则,如果该日志数据记录的用户访问时间早于目标日志数据,为该日志数据设置第一统计标识,并对目标日志数据执行统计标识消除处理;其中,目标日志数据与该日志数据记录同一用户且所记录用户符合新用户条件;
数量统计模块340,用于在满足新用户统计条件时,针对每一数据源,根据记录有该数据源的各条日志数据所设置的第一统计标识,统计来自该数据源的新用户的数量。
可选地,标识消除模块,具体用于复制一条目标日志数据并为所复制的目标日志数据设置第二统计标识;第二统计标识与第一统计标识不同;
数量统计模块包括:
第一统计子模块,用于在满足新用户统计条件时,针对每一数据源,根据记录有该数据源的各条日志数据所设置的第一统计标识和第二统计标识,统计来自该数据源的新用户的数量。
可选地,第一统计标识和第二统计标识均为数字,且第一统计标识和第二统计标识之和为0;
第一统计子模块,具体用于针对每一数据源,计算记录有该数据源的各条日志数据所设置的统计标识的和值;确定和值与第一统计标识的绝对值相除的结果,作为初始用户数量;基于初始用户数量,确定来自该数据源的新用户的数量。
可选地,第一统计标识和第二统计标识中的至少一个为非数字,或者,第一统计标识和第二统计标识均为数字;
第一统计子模块包括统计子单元;
统计子单元,用于针对每一数据源,统计记录有该数据源的各条日志数据中,设置有第一统计标识的日志数据的第一数量,以及统计记录有该数据源的各条日志数据中,设置有第二统计标识的日志数据的第二数量;计算第一数量和第二数量的差值,作为初始用户数量;基于初始用户数量,确定来自该数据源的新用户的数量。
可选地,满足新用户统计条件包括:达到预设的统计周期;
统计子单元,具体用于每达到预设的统计周期时,将初始用户数量作为当前统计周期内的来自该数据源的新用户的数量;将初始用户数量,与上一统计周期所得到的来自该数据源的新用户的数量进行统计,得到当前时刻的来自该数据源的新用户的总数。
可选地,装置还包括:数据修正模块,用于在满足预设的修正条件时,确定目标周期内的针对目标多媒体数据的多条日志数据;其中,目标周期包含多个统计周期;从所确定的多条日志数据所记录的用户中,识别属于新用户的用户,并确定属于新用户的用户的访问时间最早的日志数据,作为待处理日志数据;针对每一数据源,确定各统计周期内的记录有该数据源的待处理日志数据的数量,得到各统计周期内的该数据源对应的修正数量,并利用得到的修正数量,修正各统计周期内的该数据源的新用户的数量。
可选地,用户判断模块,具体用于从历史目标数据所记录的用户中,判断是否存在该日志数据中所记录的用户,如果否,判定符合预定的新用户条件;其中,历史目标数据为在获取该日志数据之前,获取到的针对目标多媒体数据的日志数据。
本发明实施例提供的数据统计装置,在统计来自各数据源的新用户时,不但对所记录用户符合预定的新用户条件的日志数据设置第一统计标识,而且对所记录用户不符合预定的新用户条件但用户访问时间早于相应目标日志数据的日志数据,设置第一统计标识同时,对相应目标日志数据执行统计标识消除处理,这样,可以保证所统计的每一新用户的数据源为每一新用户对应的用户访问时间最早的数据源。可见,本方案,可以解决由于本地缓存或网络等原因,容易导致对新用户的统计结果不准确的问题。
本发明实施例还提供了一种电子设备,如图4所示,包括处理器401、通信接口402、存储器403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信,
存储器403,用于存放计算机程序;
处理器401,用于执行存储器403上所存放的程序时,实现任一所述的数据统计方法的步骤。
本发明实施例提供的电子设备,在统计来自各数据源的新用户时,不但对所记录用户符合预定的新用户条件的日志数据设置第一统计标识,而且对所记录用户不符合预定的新用户条件但用户访问时间早于相应目标日志数据的日志数据,设置第一统计标识同时,对相应目标日志数据执行统计标识消除处理,这样,可以保证所统计的每一新用户的数据源为每一新用户对应的用户访问时间最早的数据源。可见,本方案,可以解决由于本地缓存或网络等原因,容易导致对新用户的统计结果不准确的问题。
上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例中任一所述的数据统计方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的数据统计方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备及存储介质等实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种数据统计方法,其特征在于,包括:
每当获取到针对目标多媒体数据的日志数据时,判断该日志数据中所记录的用户是否符合预定的新用户条件;
如果是,为该日志数据设置第一统计标识;其中,所述第一统计标识用于表征该日志数据记录的用户能够作为新用户进行统计;
否则,如果该日志数据记录的用户访问时间早于目标日志数据,为该日志数据设置所述第一统计标识,并对所述目标日志数据执行统计标识消除处理;其中,所述目标日志数据与该日志数据记录同一用户且所记录用户符合所述新用户条件;
在满足新用户统计条件时,针对每一数据源,根据记录有该数据源的各条日志数据所设置的第一统计标识,统计来自该数据源的新用户的数量。
2.根据权利要求1所述的方法,其特征在于,所述对所述目标日志数据执行统计标识消除处理,包括:
复制一条所述目标日志数据并为所复制的目标日志数据设置第二统计标识;所述第二统计标识与所述第一统计标识不同;
所述在满足新用户统计条件时,针对每一数据源,根据记录有该数据源的各条日志数据所设置的第一统计标识,包括:
在满足新用户统计条件时,针对每一数据源,根据记录有该数据源的各条日志数据所设置的第一统计标识和第二统计标识,统计来自该数据源的新用户的数量。
3.根据权利要求2所述的方法,其特征在于,所述第一统计标识和所述第二统计标识均为数字,且第一统计标识和第二统计标识之和为0;
所述针对每一数据源,根据记录有该数据源的各条日志数据所设置的第一统计标识和第二统计标识,统计来自该数据源的新用户的数量,包括:
针对每一数据源,确定记录有该数据源的各条日志数据所设置的统计标识的和值;确定所述和值与所述第一统计标识的绝对值相除的结果,作为初始用户数量;基于所述初始用户数量,确定来自该数据源的新用户的数量。
4.根据权利要求2所述的方法,其特征在于,所述第一统计标识和所述第二统计标识中的至少一个为非数字,或者,所述第一统计标识和所述第二统计标识均为数字;
所述针对每一数据源,根据记录有该数据源的各条日志数据所设置的第一统计标识和第二统计标识,统计来自该数据源的新用户的数量,包括:
针对每一数据源,统计记录有该数据源的各条日志数据中,设置有第一统计标识的日志数据的第一数量,以及统计记录有该数据源的各条日志数据中,设置有第二统计标识的日志数据的第二数量;
计算第一数量和第二数量的差值,作为初始用户数量;
基于所述初始用户数量,确定来自该数据源的新用户的数量。
5.根据权利要求3或4所述的方法,其特征在于,所述满足新用户统计条件包括:达到预设的统计周期;所述基于所述初始用户数量,确定来自该数据源的新用户的数量,包括:
每达到预设的统计周期时,将所述初始用户数量作为当前统计周期内的来自该数据源的新用户的数量;
将所述初始用户数量,与上一统计周期所得到的来自该数据源的新用户的数量进行求和,得到来自该数据源的新用户的总数。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
在满足预设的修正条件时,确定目标周期内的针对目标多媒体数据的多条日志数据;其中,所述目标周期包含多个统计周期;
从所确定的多条日志数据所记录的用户中,识别属于新用户的用户,并确定属于新用户的用户的访问时间最早的日志数据,作为待处理日志数据;
针对每一数据源,确定各统计周期内的记录有该数据源的待处理日志数据的数量,得到各统计周期内的该数据源对应的修正数量,并利用得到的修正数量,修正各统计周期内的该数据源的新用户的数量。
7.根据权利要求1所述的方法,其特征在于,所述判断该日志数据中所记录的用户是否符合预定的新用户条件,包括:
从历史目标数据所记录的用户中,判断是否存在该日志数据中所记录的用户,如果否,判定符合预定的新用户条件;其中,所述历史目标数据为在获取该日志数据之前,获取到的针对目标多媒体数据的日志数据。
8.一种数据统计装置,其特征在于,包括:
用户判断模块,用于每当获取到针对目标多媒体数据的日志数据时,判断该日志数据中所记录的用户是否符合预定的新用户条件;
标识设置模块,用于如果是,为该日志数据设置第一统计标识;其中,所述第一统计标识用于表征该日志数据记录的用户能够作为新用户进行统计;
标识消除模块,用于否则,如果该日志数据记录的用户访问时间早于目标日志数据,为该日志数据设置所述第一统计标识,并对所述目标日志数据执行统计标识消除处理;其中,所述目标日志数据与该日志数据记录同一用户且所记录用户符合所述新用户条件;
数量统计模块,用于在满足新用户统计条件时,针对每一数据源,根据记录有该数据源的各条日志数据所设置的第一统计标识,统计来自该数据源的新用户的数量。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。
CN202110752228.6A 2021-07-02 2021-07-02 一种数据统计方法、装置、电子设备及存储介质 Pending CN113377734A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110752228.6A CN113377734A (zh) 2021-07-02 2021-07-02 一种数据统计方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110752228.6A CN113377734A (zh) 2021-07-02 2021-07-02 一种数据统计方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113377734A true CN113377734A (zh) 2021-09-10

Family

ID=77580806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110752228.6A Pending CN113377734A (zh) 2021-07-02 2021-07-02 一种数据统计方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113377734A (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103500177A (zh) * 2013-09-06 2014-01-08 乐视致新电子科技(天津)有限公司 一种用户激活数的统计方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103500177A (zh) * 2013-09-06 2014-01-08 乐视致新电子科技(天津)有限公司 一种用户激活数的统计方法及装置

Similar Documents

Publication Publication Date Title
US11758227B2 (en) Methods and apparatus to categorize media impressions by age
CN109299144B (zh) 一种数据处理方法、装置、系统及应用服务器
CN111225246A (zh) 一种视频推荐方法、装置及电子设备
CN109213604B (zh) 一种数据源的管理方法和装置
CN108366012B (zh) 一种社交关系建立方法、装置及电子设备
CN110290400A (zh) 可疑刷量视频的识别方法、真实播放量预估方法及装置
CN110535943B (zh) 数据处理方法、装置、电子设备及存储介质
CN110121088B (zh) 一种用户属性信息确定方法、装置及电子设备
CN111327609B (zh) 数据审核方法及装置
CN111080349B (zh) 识别同一用户的多个设备的方法、装置、服务器及介质
CN110838971B (zh) 消息发送方法、装置、电子设备及存储介质
CN112966129B (zh) 一种多媒体数据关注度参数的查询方法、装置及设备
CN109168044B (zh) 一种视频特征的确定方法及装置
CN110996142B (zh) 视频召回方法及装置、电子设备及存储介质
CN111314744B (zh) 视频推送方法、服务器
CN113377734A (zh) 一种数据统计方法、装置、电子设备及存储介质
CN110083482B (zh) 对文件存储系统进行纠删码处理的方法、装置及电子设备
CN109191217B (zh) 一种视频广告投放次数预测方法及装置
CN109756762B (zh) 一种终端类别的确定方法及装置
CN109063015B (zh) 热点内容的提取方法、装置及设备
CN109933580B (zh) 训练数据生成方法、装置及服务器
CN110727895A (zh) 一种敏感词发送方法、装置、电子设备及存储介质
CN112667906B (zh) 一种up主的推荐方法、装置及电子设备
CN110557660B (zh) 一种直播视频处理方法及装置
CN109992695B (zh) 一种视频信息查询方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination