CN113900920A - 数据处理方法、装置、电子设备及计算机可读存储介质 - Google Patents

数据处理方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN113900920A
CN113900920A CN202111472854.6A CN202111472854A CN113900920A CN 113900920 A CN113900920 A CN 113900920A CN 202111472854 A CN202111472854 A CN 202111472854A CN 113900920 A CN113900920 A CN 113900920A
Authority
CN
China
Prior art keywords
time period
current time
accumulated
newly added
object identifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111472854.6A
Other languages
English (en)
Inventor
钟子宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111472854.6A priority Critical patent/CN113900920A/zh
Publication of CN113900920A publication Critical patent/CN113900920A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging

Abstract

本申请公开了一种数据处理方法、装置、电子设备及计算机可读存储介质,属于计算机技术领域。方法包括:获取上一时间周期的累计访问数量和当前时间周期的对象行为数据集;对当前时间周期的对象行为数据集进行数据处理,得到当前时间周期的新增访问数量,当前时间周期的新增访问数量是与上一时间周期的累计访问数量相比新增的访问数量;基于当前时间周期的新增访问数量和上一时间周期的累计访问数量,确定当前时间周期的累计访问数量。由于是对当前时间周期的对象行为数据集进行数据处理,降低了数据处理的数据量,提高了运算速度,节约了数据处理时间,减少了崩溃现象的发生。

Description

数据处理方法、装置、电子设备及计算机可读存储介质
技术领域
本申请实施例涉及计算机技术领域,特别涉及一种数据处理方法、装置、电子设备及计算机可读存储介质。
背景技术
随着计算机技术的发展,应用程序的种类和数量也越来越多。对象在使用应用程序的过程中所进行的访问浏览行为会产生对应的对象行为数据。计算机可以获取当前时刻之前所有的对象行为数据,并对获取到的对象行为数据进行数据处理,得到当前时刻之前的累计访问数量,通过累计访问数量来表征对象对应用程序的访问情况。
然而,随着时间的推移,对象行为数据的数据量会越来越大。通过上述方式确定当前时刻之前的累计访问数量时,会由于计算机获取的对象行为数据的数据量非常大而导致数据处理时间长,容易发生崩溃等现象。
发明内容
本申请实施例提供了一种数据处理方法、装置、电子设备及计算机可读存储介质,可用于解决相关技术中因对象行为数据的数据量非常大而导致的数据处理时间长、容易发生崩溃现象的问题,所述技术方案包括如下内容。
一方面,本申请实施例提供了一种数据处理方法,所述方法包括:
获取上一时间周期的累计访问数量和当前时间周期的对象行为数据集;
对所述当前时间周期的对象行为数据集进行数据处理,得到所述当前时间周期的新增访问数量,所述当前时间周期的新增访问数量是与所述上一时间周期的累计访问数量相比新增的访问数量;
基于所述当前时间周期的新增访问数量和所述上一时间周期的累计访问数量,确定所述当前时间周期的累计访问数量。
另一方面,本申请实施例提供了一种数据处理装置,所述装置包括:
获取模块,用于获取上一时间周期的累计访问数量和当前时间周期的对象行为数据集;
处理模块,用于对所述当前时间周期的对象行为数据集进行数据处理,得到所述当前时间周期的新增访问数量,所述当前时间周期的新增访问数量是与所述上一时间周期的累计访问数量相比新增的访问数量;
确定模块,用于基于所述当前时间周期的新增访问数量和所述上一时间周期的累计访问数量,确定所述当前时间周期的累计访问数量。
在一种可能的实现方式中,所述当前时间周期的对象行为数据集包括多个对象行为数据;
所述处理模块,用于从各个对象行为数据中分别提取出对象标识,得到第一对象标识集;基于所述第一对象标识集确定所述当前时间周期的新增访问数量。
在一种可能的实现方式中,所述新增访问数量包括新增浏览量;
所述处理模块,用于将统计出的所述第一对象标识集中对象标识的数量确定为所述当前时间周期的新增浏览量。
在一种可能的实现方式中,所述新增访问数量包括新增访客数;
所述处理模块,用于统计出所述第一对象标识集中的各种对象标识;获取所述上一时间周期的累计对象标识集;基于所述上一时间周期的累计对象标识集中的各种对象标识和所述第一对象标识集中的各种对象标识,确定所述当前时间周期的新增对象标识集,所述当前时间周期的新增对象标识集包括与所述上一时间周期的累计对象标识集相比新增的至少一种对象标识;将所述当前时间周期的新增对象标识集中对象标识的种类数,确定为所述当前时间周期的新增访客数。
在一种可能的实现方式中,所述处理模块,用于对于所述第一对象标识集中的任一种对象标识,将所述任一种对象标识与所述上一时间周期的累计对象标识集中的各种对象标识进行匹配;响应于所述上一时间周期的累计对象标识集中不存在与所述任一种对象标识匹配成功的对象标识,则确定所述任一种对象标识为所述当前时间周期的新增对象标识集中的对象标识。
在一种可能的实现方式中,所述处理模块,用于对所述上一时间周期的累计对象标识集中的各种对象标识进行排序,得到排序后的各种对象标识;从所述排序后的各种对象标识中确定位于多个指定排序位置的指定对象标识,将各个指定对象标识与所述任一种对象标识进行比较,得到各个指定对象标识的比较结果;基于所述各个指定对象标识的比较结果,从所述各个指定对象标识中确定至少一个目标对象标识;基于所述至少一个目标对象标识,从所述排序后的各种对象标识中确定出待匹配的对象标识,将所述任一种对象标识与所述待匹配的对象标识进行匹配。
在一种可能的实现方式中,所述处理模块,用于获取第一时间周期的累计对象标识集;获取所述上一时间周期的新增对象标识集,所述上一时间周期的新增对象标识集包括与所述第一时间周期的累计对象标识集相比新增的至少一种对象标识;将所述上一时间周期的新增对象标识集与所述第一时间周期的累计对象标识集进行合并,得到所述上一时间周期的累计对象标识集。
在一种可能的实现方式中,所述确定模块,用于确定所述当前时间周期的新增访问数量和所述上一时间周期的累计访问数量之和,得到所述当前时间周期的累计访问数量。
在一种可能的实现方式中,所述获取模块,用于获取在所述当前时间周期内生成的日志信息;从所述日志信息中提取出所述当前时间周期的对象行为数据集。
在一种可能的实现方式中,所述处理模块,用于对所述当前时间周期的对象行为数据集进行分组,得到至少两个对象行为数据子集;对所述各个对象行为数据子集并行进行数据处理,得到所述当前时间周期的新增访问数量。
另一方面,本申请实施例提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以使所述电子设备实现上述任一所述的数据处理方法。
另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以使计算机实现上述任一所述的数据处理方法。
另一方面,还提供了一种计算机程序或计算机程序产品,所述计算机程序或计算机程序产品中存储有至少一条计算机指令,所述至少一条计算机指令由处理器加载并执行,以使计算机实现上述任一种数据处理方法。
本申请实施例提供的技术方案至少带来如下有益效果:
本申请实施例提供的技术方案是对当前时间周期的对象行为数据集进行数据处理,基于数据处理后得到的新增访问数量和上一时间周期的累计访问数量,确定当前时间周期的累计访问数量。由于是对当前时间周期的对象行为数据集进行数据处理,降低了数据处理的数据量,提高了运算速度,节约了数据处理时间,减少了崩溃现象的发生。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据处理方法的实施环境示意图;
图2是本申请实施例提供的一种数据处理方法的流程图;
图3是本申请实施例提供的一种对多个对象标识进行处理的示意图;
图4是本申请实施例提供的一种数据处理方法的示意图;
图5是本申请实施例提供的一种数据处理装置的结构示意图;
图6是本申请实施例提供的一种终端设备的结构示意图;
图7是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面对本申请实施例所涉及的名词进行解释和说明。
去重统计:重复的内容只统计一次。
聚合运算:聚合函数对一组值执行计算并返回单一的值,聚合函数包括但不限于COUNT函数,除COUNT函数以外的聚合函数会忽略空值。对于COUNT函数,若其应用对象是一个确定列名,并且该列存在空值,此时COUNT函数也会忽略空值。
全量表:存储每一个时间周期内产生的所有数据。
增量表:在导出数据之后,存储新产生的数据。也就是说,每次导出数据时,增量表重置为0,之后,存储新产生的数据。
数据倾斜:在并行处理数据的过程中,某一部分的数据明显多于其它部分的数据,导致这部分数据的处理速度较慢。
访客数(Unique Visitor,UV):在一个时间周期内,访问应用程序的对象数之和,在计算访客数时,需要去重统计对象标识。
累计访客数(Total Unique Visitor,TUV):在所有时间周期内,访问应用程序的对象数之和,在计算累计访客数时,需要去重统计对象标识。
浏览量(Page View,PV):在一个时间周期内,各个对象访问应用程序的次数之和,在计算浏览量时,直接统计对象标识的数量,不需要去重统计对象标识。
累计浏览量(Total Page View,TPV):在所有时间周期内,各个对象访问应用程序的次数之和,在计算累计浏览量时,直接统计对象标识的数量,不需要去重统计对象标识。
新增对象标识集:也叫访问用户数据集(Visit User,U),包括一个时间周期内,访问应用程序的各种对象标识。
累计对象标识集:也叫累计访问用户数据集(Total Visit User,TU),包括所有时间周期内,访问应用程序的各种对象标识。
下面将结合附图对本申请实施方式作进一步地详细描述。
图1是本申请实施例提供的一种数据处理方法的实施环境示意图,如图1所示该实施环境包括电子设备11,本申请实施例中的数据处理方法可以由电子设备11执行。示例性地,电子设备11可以包括终端设备或者服务器中的至少一项。
终端设备可以是智能手机、游戏主机、台式计算机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器和膝上型便携计算机中的至少一种。
服务器可以为一台服务器,或者为多台服务器组成的服务器集群,或者为云计算平台和虚拟化中心中的任意一种,本申请实施例对此不加以限定。服务器可以与终端设备通过有线网络或无线网络进行通信连接。服务器可以具有数据处理、数据存储以及数据收发等功能,在本申请实施例中不加以限定。
本申请各可选实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。其中,智能交通系统(Intelligent Traffic System,ITS)又称智能运输系统(Intelligent Transportation System,ITS),是将先进的科学技术(信息技术、计算机技术、数据通信技术、传感器技术、电子控制技术、自动控制理论、运筹学、人工智能等)有效地综合运用于交通运输、服务控制和车辆制造,加强车辆、道路、使用者三者之间的联系,从而形成一种保障安全、提高效率、改善环境、节约能源的综合运输系统。
基于上述实施环境,本申请实施例提供了一种数据处理方法,以图2所示的本申请实施例提供的一种数据处理方法的流程图为例,该方法可由图1中的电子设备11执行。如图2所示,该方法包括步骤201至步骤203。
步骤201,获取上一时间周期的累计访问数量和当前时间周期的对象行为数据集。
本申请实施例不对时间周期做限定,示例性的,以若干小时、若干天、若干星期、若干月等作为一个时间周期。
任一个时间周期包括开始时刻和结束时刻。其中,上一时间周期的开始时刻为第一时刻,上一时间周期的结束时刻为第二时刻,即上一时间周期是第一时刻至第二时刻之间的时间段。当前时间周期的开始时刻为第二时刻,当前时间周期的结束时刻为第三时刻,即当前时间周期是第二时刻至第三时刻之间的时间段。
以一小时为一个时间周期为例,若第一时刻为1点,第二时刻为2点,第三时刻为3点,则上一时间周期为1点至2点之间的时间段,当前时间周期为2点至3点之间的时间段。
本申请实施例中,上一时间周期的累计访问数量是第二时刻之前的访问数量,例如,当上一时间周期为1点至2点之间的时间段时,上一时间周期的累计访问数量是2点之前的访问数量,2点之前包括0点至1点之间的时间段以及1点至2点之间的时间段。
可以理解的是,“上一时间周期的累计访问数量”的获取方式与“当前时间周期的累计访问数量”的获取方式的原理相同,下面会着重描述“当前时间周期的累计访问数量”的获取方式,因此,在此不再赘述“上一时间周期的累计访问数量”的获取方式。
当前时间周期的对象行为数据集是第二时刻至第三时刻之间的时间段所对应的对象行为数据集,该对象行为数据集中包括多个对象行为数据。对象行为数据是对象在使用应用程序的过程中进行访问浏览行为时所产生的数据。
例如,对象在使用与车联网相关的应用程序的过程中,点击页面上的控件时会产生点击行为数据,浏览图片、页面时会产生浏览行为数据,兑换虚拟资源时会产生兑换行为数据,这类点击行为数据、浏览行为数据以及兑换行为数据等都属于对象行为数据。
本申请实施例可以获取当前时间周期的对象行为数据集。可选地,获取当前时间周期的对象行为数据集,包括:获取在当前时间周期内生成的日志信息;从日志信息中提取出当前时间周期的对象行为数据集。
本申请实施例中,对象在任意时刻使用应用程序时,会在该任意时刻生成日志信息。日志信息是用于记录有关系统操作事件的信息,包括但不限于设备标识、对象标识、时间戳等。
可以基于各个日志信息的时间戳,获取时间戳位于当前时间周期内的日志信息,得到当前时间周期内生成的多个日志信息。对于当前时间周期内生成的任一个日志信息,从任一个日志信息中切分出包含对象标识的部分信息,得到当前时间周期的一个对象行为数据。通过这种方式,可以得到当前时间周期的各个对象行为数据,即得到当前时间周期的对象行为数据集。其中,本申请实施例不对“从任一个日志信息中切分出包含对象标识的部分信息”的方式做限定。
可以理解的是,数据库中可以存储任意的数据,该数据包括但不限于日志信息、对象行为数据集、累计访问数量,以及下述实施例提及的新增访问数量、累计对象标识集、第一对象标识集、新增对象标识集等。本申请实施例不限定数据库的类型,示例性的,数据库可以是MySQL、Oracle等关系型数据库管理系统,也可以是HDFS(Hadoop Distributed FileSystem)、HBase等分布式系统,还可以是Hive等数据仓库工具。
步骤202,对当前时间周期的对象行为数据集进行数据处理,得到当前时间周期的新增访问数量,当前时间周期的新增访问数量是与上一时间周期的累计访问数量相比新增的访问数量。
本申请实施例中,可以采用分布式计算的方式,对当前时间周期的对象行为数据集进行数据处理,得到当前时间周期的新增访问数量,当前时间周期的新增访问数量是与上一时间周期的累计访问数量相比,在第二时刻至第三时刻之间新增的访问数量。
本申请实施例不对分布式计算的方式做限定。示例性的,分布式计算的方式是以海杜普(Hadoop,一种分布式系统基础架构)为底层的MapReduce(用于大规模数据集的并行运算)分布式计算的方式,简称MapReduce分布式计算的方式。
可选地,当前时间周期的对象行为数据集包括多个对象行为数据;对当前时间周期的对象行为数据集进行数据处理,得到当前时间周期的新增访问数量,包括:从各个对象行为数据中分别提取出对象标识,得到第一对象标识集;基于第一对象标识集确定当前时间周期的新增访问数量。
本申请实施例中,当前时间周期的对象行为数据集包括多个对象行为数据。对于任一个对象行为数据,该任一个对象行为数据包括对象标识,可以从该任一个对象行为数据中提取出对象标识。
其中,对象标识包括关键词和序列号,序列号是一种唯一编码(IdentityDocument,ID)。示例性的,关键词为User,序列号由字符和/或数字组成,字符可以为英文字符、特殊字符(如*、&等)以及空字符等。为了便于描述,下面各可选实施例中,对象标识可以记为Userid,User为关键词,id为数字形式的序列号。
通过上述方法,可以从各个对象行为数据中分别提取出对象标识,得到第一对象标识集。其中,从任两个对象行为数据中分别提取出的对象标识可以相同,也可以不同,也就是说,第一对象标识集中包括至少一种对象标识,任一种对象标识的数量为至少一个。需要基于第一对象标识集确定当前时间周期的新增访问数量。
在一种可能的实现方式中,新增访问数量包括浏览量;基于第一对象标识集确定当前时间周期的新增访问数量,包括:将统计出的第一对象标识集中对象标识的数量确定为当前时间周期的新增浏览量。
由于第一对象标识集中包括至少一种对象标识,任一种对象标识的数量为至少一个,因此,第一对象标识集中对象标识的数量为第一对象标识集中各种对象标识的数量之和。示例性的,第一对象标识集中包括两种对象标识,这两种对象标识分别为User0和User1,且User0的数量为8,User1的数量为5,则第一对象标识集中对象标识的数量为8+5=13。
可以采用分布式计算的方式,统计出第一对象标识集中对象标识的数量。下面以MapReduce分布式计算的方式为例,详细介绍采用MapReduce分布式计算的方式,统计出第一对象标识集中对象标识的数量。
首先,将第一对象标识集中的各个对象标识进行切分,使每一个分片中包括一个对象标识,得到各个分片中的对象标识。然后,在映射(Mapping)阶段统计每一个分片中的对象标识的数量,在一种可能的实现方式中,可以通过键值对(Key-Value,K-V)的方式,存储每一个分片中的对象标识与其数量之间的关系,任一个分片中的对象标识为键,该分片中的对象标识的数量为值。接下来,在数据重新分发(Shuffling)阶段,将相同的分片中的对象标识合并在一个分区中,使得一个分区中包括相同的对象标识,且对象标识的数量为至少一个,也就是说,一个分区中包括一种对象标识,且这种对象标识的数量为至少一个。之后,在归约(Reducing)阶段,统计各个分区中对象标识的数量,得到各个分区对应的统计信息,统计信息包括各种对象标识的数量,在一种可能的实现方式中,统计信息包括对象标识、数字1以及对象标识的数量,数字1表征一种对象标识。可选地,还可以汇总各个分区中对象标识的数量,得到汇总信息。
请参见图3,图3是本申请实施例提供的一种对多个对象标识进行处理的示意图,本申请实施例中,第一对象标识集为{User0,User1,User2,User2,User3,User2,User3,……},其中,Userid为对象标识,id取值0、1、2、3等。
首先,将第一对象标识集中的各个对象标识进行切分,使每一个分片中包括一个对象标识,如第一个分片中包括User0,第二个分片中包括User1,第三个分片中包括User2,以此类推,从而得到各个分片中的对象标识。
然后,在映射阶段统计每一个分片中的对象标识的数量,并通过键值对的方式,存储每一个分片中的对象标识与其数量之间的关系,其中,每一个分片中包括一个对象标识,因此,第一个分片对应的键值对为“User0,1”,第二个分片对应的键值对为“User1,1”,第三个分片对应的键值对为“User2,1”,以此类推。“Userid,1”中的“Userid”为键,表征任一个分片中的对象标识,“Userid,1”中的“1”为值,表征该分片中的对象标识的数量。
接下来,在数据重新分发阶段,将相同的分片中的对象标识合并在一个分区中。由于仅第一个分片中存在对象标识“User0”,因此,“User0,1”在第一个分区中。由于仅第二个分片中存在对象标识“User1”,因此,“User1,1”在第二个分区中。由于第三个分片、第四个分片以及第六个分片中均存在对象标识“User2”,因此,有三个“User2,1”在第三个分区中,以此类推。
之后,在归约阶段,统计各个分区中对象标识的数量,等到各个分区对应的统计信息。由于第一个分区中仅有一个“User0”,因此,第一个分区对应的统计信息为“User0,1,1”。由于第二个分区中仅有一个“User1”,因此,第二个分区对应的统计信息为“User1,1,1”。由于第三个分区中有三个“User2”,因此,第三个分区对应的统计信息为“User2,1,3”,以此类推。其中,“Userid,1,n”为统计信息的格式,Userid为对象标识,1表征一种对象标识,n为对象标识的数量,n为正整数。
最后,可以汇总各个分区对应的统计信息,得到汇总信息,汇总信息包括“User0,1,1”、“User1,1,1”、“User2,1,3”、“User3,1,2”等。
通过上述方式,可以统计出第一对象标识集中各种对象标识的数量,之后,将各种对象标识的数量进行相加,得到当前时间周期的新增浏览量。
例如,汇总信息包括“User0,1,1”、“User1,1,1”、“User2,1,3”、“User3,1,2”,由该汇总信息可以得知:对象标识“User0”的数量为1,对象标识“User1”的数量为1,对象标识“User2”的数量为3,对象标识“User3”的数量为2,因此,当前时间周期的新增浏览量为:1+1+3+2=7。
需要说明的是,采用MapReduce分布式计算的方式,可以统计出第一对象标识集中的各种对象标识以及各种对象标识的数量,从而得到第一对象标识集中对象标识的数量,该方式得到的统计信息更为全面。在应用时,还可以直接累加第一对象标识集中的各个对象标识,得到第一对象标识集中对象标识的数量。之后,将第一对象标识集中对象标识的数量确定为当前时间周期的新增浏览量。
在另一种可能的实现方式中,新增访问数量包括新增访客数;基于第一对象标识集确定当前时间周期的新增访问数量,包括:统计出第一对象标识集中的各种对象标识;基于第一对象标识集中的各种对象标识,确定当前时间周期的新增访客数。
本申请实施例中,可以采用分布式计算的方式,统计出第一对象标识集中的各种对象标识。示例性的,采用MapReduce分布式计算的方式,统计出第一对象标识集中的各种对象标识。MapReduce分布式计算的方式在上文已着重描述,在此不再赘述。
在采用分布式计算的方式统计出第一对象标识集中的各种对象标识之后,可以基于第一对象标识集中的各种对象标识,确定当前时间周期的新增访客数。
可选地,基于第一对象标识集中的各种对象标识,确定当前时间周期的新增访客数,包括:获取上一时间周期的累计对象标识集;基于上一时间周期的累计对象标识集中的各种对象标识和第一对象标识集中的各种对象标识,确定当前时间周期的新增对象标识集,当前时间周期的新增对象标识集包括与上一时间周期的累计对象标识集相比新增的至少一种对象标识;将当前时间周期的新增对象标识集中对象标识的种类数,确定为当前时间周期的新增访客数。
本申请实施例中,上一时间周期的累计对象标识集中包括第二时刻之前的各种对象标识,第二时刻之前的各种对象标识相当于从初始时刻至第二时刻之间的各种对象标识。其中,初始时刻是第一时刻之前的时刻,第二时刻是第一时刻之后的时刻,第一时刻和第二时刻之间的时间段为上一时间周期。示例性的,上一时间周期的累计对象标识集中包括“User0”、“User3”和“User4”。
可选地,获取上一时间周期的累计对象标识集,包括:获取第一时间周期的累计对象标识集;获取上一时间周期的新增对象标识集,上一时间周期的新增对象标识集包括与第一时间周期的累计对象标识集相比新增的至少一种对象标识;将上一时间周期的新增对象标识集与第一时间周期的累计对象标识集进行合并,得到上一时间周期的累计对象标识集。
本申请实施例中,第一时间周期的累计对象标识集中包括第一时刻之前的各种对象标识,第一时刻之前的各种对象标识相当于从初始时刻至第一时刻之间的各种对象标识,其中,初始时刻是第一时刻之前的时刻。示例性的,第一时间周期的累计对象标识集中包括“User0”和“User3”。其中,“第一时间周期的累计对象标识集”的获取方式请参见本申请实施例对“上一时间周期的累计对象标识集”的获取方式的描述,二者实现原理相类似,在此不再赘述。
本申请实施例还可以获取上一时间周期的新增对象标识集,上一时间周期的新增对象标识集包括与第一时间周期的累计对象标识集相比,在第一时刻至第二时刻之间新增的各种对象标识。示例性的,上一时间周期的新增对象标识集包括“User4”。其中,“上一时间周期的新增对象标识集”的获取方式请参见对“当前时间周期的新增对象标识集”的获取方式的描述,二者实现原理相类似,在此不再赘述。
在获取到上一时间周期的新增对象标识集与第一时间周期的累计对象标识集之后,将这两个对象标识集进行合并,得到上一时间周期的累计对象标识集,使得上一时间周期的累计对象标识集中包括上一时间周期的新增对象标识集中的各种对象标识以及第一时间周期的累计对象标识集中的各种对象标识。示例性的,上一时间周期的累计对象标识集中包括“User0”、“User3”和“User4”。
由于第一时间周期的累计对象标识集中包括第一时刻之前的各种对象标识,上一时间周期的新增对象标识集包括第一时刻至第二时刻之间的各种对象标识。因此,对于上一时间周期的新增对象标识集与第一时间周期的累计对象标识集进行合并后得到的上一时间周期的累计对象标识集,该累计对象标识集中包括第二时刻之前的各种对象标识。
在获取到上一时间周期的累计对象标识集之后,可以基于上一时间周期的累计对象标识集和第一对象标识集,确定当前时间周期的新增对象标识集。当前时间周期的新增对象标识集包括与上一时间周期的累计对象标识集相比,在第二时刻至第三时刻之间新增的至少一种对象标识。
可选地,基于上一时间周期的累计对象标识集中的各种对象标识和第一对象标识集中的各种对象标识,确定当前时间周期的新增对象标识集,包括:对于第一对象标识集中的任一种对象标识,将任一种对象标识与上一时间周期的累计对象标识集中的各种对象标识进行匹配;响应于上一时间周期的累计对象标识集中不存在与任一种对象标识匹配成功的对象标识,则确定任一种对象标识为当前时间周期的新增对象标识集中的对象标识。
将第一对象标识集中的任一种对象标识与上一时间周期的累计对象标识集中的各种对象标识进行匹配。若第一对象标识集中的任一种对象标识与上一时间周期的累计对象标识集中的任一种对象标识相同,则匹配成功。若第一对象标识集中的任一种对象标识与上一时间周期的累计对象标识集中的任一种对象标识不相同,则匹配失败。通过这种方式,可以确定上一时间周期的累计对象标识集中是否存在与第一对象标识集中的任一种对象标识匹配成功的对象标识。
由于第一对象标识集中可能存在大量的对象标识,且上一时间周期的累计对象标识集也可能存在大量的对象标识,若将第一对象标识集中的各种对象标识与上一时间周期的累计对象标识集中的各种对象标识进行匹配,会耗费大量的时间,导致匹配效率低下。为了提高匹配效率,本申请实施例还提供了一种第一对象标识集中的各种对象标识与上一时间周期的累计对象标识集中的各种对象标识进行匹配方法。
可选地,将任一种对象标识与上一时间周期的累计对象标识集中的各种对象标识进行匹配,包括:对上一时间周期的累计对象标识集中的各种对象标识进行排序,得到排序后的各种对象标识;从排序后的各种对象标识中确定位于多个指定排序位置的指定对象标识,将各个指定对象标识与任一种对象标识进行比较,得到各个指定对象标识的比较结果;基于各个指定对象标识的比较结果,从各个指定对象标识中确定至少一个目标对象标识;基于至少一个目标对象标识,从排序后的各种对象标识中确定出待匹配的对象标识,将任一种对象标识与待匹配的对象标识进行匹配。
本申请实施例中,按照从小到大或者从大到小的顺序,对上一时间周期的累计对象标识集中的各种对象标识进行排序,得到排序后的各种对象标识,排序后的各种对象标识各自对应一个排序位置。然后,从排序后的各种对象标识中确定排序位置为指定排序位置的对象标识,将确定出的对象标识作为指定对象标识,按照这种方式,可以得到多个指定对象标识。其中,本申请实施例不对指定排序位置做限定,示例性的,指定排序位置为第一个排序位置、第十个排序位置、第二十个排序位置。
接下来,对于任一个指定对象标识,将该指定对象标识与任一种对象标识进行比较,以确定出该指定对象标识与任一种对象标识之间的大小关系,从而得到该指定对象标识的比较结果。其中,该大小关系包括但不限于大于或者等于或者小于。通过这种方式,可以确定出各个指定对象标识的比较结果。
然后,基于各个指定对象标识的比较结果,从各个指定对象标识中确定出至少一个目标对象标识,由于任一个指定对象标识的比较结果是该指定对象标识与第一对象标识集中的任一种对象标识之间的大小关系。因此,当各个指定对象标识均小于任一种对象标识时,可以确定最大的指定对象标识为目标对象标识。当各个指定对象标识均大于任一种对象标识时,可以确定最小的指定对象标识为目标对象标识。当部分指定对象标识小于任一种对象标识且另一部分指定对象标识大于任一种对象标识时,可以确定部分指定对象标识中最大的指定对象标识为目标对象标识,另一部分指定对象标识中最小的指定对象标识为目标对象标识。
之后,基于至少一个目标对象标识,从排序后的各种对象标识中确定出待匹配的对象标识。当最大的指定对象标识为目标对象标识时,则从排序后的各种对象标识中确定出比目标对象标识大的对象标识,作为待匹配的对象标识。当最小的指定对象标识为目标对象标识时,则从排序后的各种对象标识中确定出比目标对象标识小的对象标识,作为待匹配的对象标识。当部分指定对象标识中最大的指定对象标识为目标对象标识(记为第一个目标对象标识),且另一部分指定对象标识中最小的指定对象标识为目标对象标识(记为第二个目标对象标识)时,则从排序后的各种对象标识中确定出大于第一个目标对象标识且小于第二个目标对象标识的对象标识,作为待匹配的对象标识。
其中,待匹配的对象标识的数量为至少一个,可以将任一种对象标识与各个待匹配的对象标识分别进行匹配,以确定出待匹配的对象标识中是否存在与第一对象标识集中的任一种对象标识匹配成功的对象标识,从而确定出上一时间周期的累计对象标识集中是否存在与第一对象标识集中的任一种对象标识匹配成功的对象标识。
本申请实施例中,先基于排序后的各种对象标识中各个指定对象标识的比较结果,从各个指定对象标识中确定出目标对象标识,再基于目标对象标识从排序后的各种对象标识中确定出待匹配的对象标识,实现通过少量的指定对象标识与第一对象标识集中的任一种对象标识进行比较,从排序后的各种对象标识中确定出待匹配的对象标识,降低了需要匹配的对象标识的数量,能够提高匹配效率。
通过上述方式,可以确定出上一时间周期的累计对象标识集中是否存在与第一对象标识集中的任一种对象标识匹配成功的对象标识。当上一时间周期的累计对象标识集中存在与第一对象标识集中的任一种对象标识匹配成功的对象标识时,则确定该任一种对象标识不属于当前时间周期的新增对象标识集中的对象标识。当上一时间周期的累计对象标识集中不存在与第一对象标识集中的任一种对象标识匹配成功的对象标识时,则确定该任一种对象标识属于当前时间周期的新增对象标识集中的对象标识。通过这种方式,可以确定出当前时间周期的新增对象标识集中的各种对象标识。
之后,将当前时间周期的新增对象标识集中对象标识的种类数,确定为当前时间周期的新增访客数。
为了加快数据处理的速度,可选地,对当前时间周期的对象行为数据集进行数据处理,得到当前时间周期的新增访问数量,包括:对当前时间周期的对象行为数据集进行分组,得到至少两个对象行为数据子集;对各个对象行为数据子集并行进行数据处理,得到当前时间周期的新增访问数量。
本申请实施例中,当前时间周期的对象行为数据集包括多个对象行为数据,任一个对象行为数据包括时间戳,该时间戳用于表征任一个对象行为数据的生成时间。基于各个对象行为数据的时间戳,对当前时间周期的对象行为数据集进行分组,得到至少两个对象行为数据子集。
在上述可选实施例中,步骤202是对当前时间周期的对象行为数据集进行数据处理,得到(当前时间周期的对象行为数据集对应的)当前时间周期的新增访问数量。而本申请实施例是对各个对象行为数据子集并行进行数据处理,得到(各个对象行为数据子集对应的)当前时间周期的新增访问数量。因此,对任一个对象行为数据子集进行数据处理的方式,可以参见上述步骤202的描述,二者实现原理相类似,在此不再赘述。
当新增访问数量为新增浏览量时,可以直接确定出各个对象行为数据子集对应的当前时间周期的新增浏览量,将各个对象行为数据子集对应的当前时间周期的新增浏览量之和,作为(当前时间周期的对象行为数据集对应的)当前时间周期的新增浏览量。
当新增访问数量为新增访客数时,可以先确定出各个对象行为数据子集对应的当前时间周期的新增对象标识集。再基于各个对象行为数据子集对应的当前时间周期的新增对象标识集,确定(当前时间周期的对象行为数据集对应的)当前时间周期的新增对象标识集,该确定方式请参见上述“基于上一时间周期的累计对象标识集中的各种对象标识和第一对象标识集中的各种对象标识,确定当前时间周期的新增对象标识集”的描述,二者均是通过一个集合中的各种对象标识与另一个集合中的各种对象标识进行匹配,以确定新增对象标识集,因此,二者实现原理相类似,在此不再赘述。之后,将(当前时间周期的对象行为数据集对应的)当前时间周期的新增对象标识集中对象标识的种类数,确定为当前时间周期的新增访客数。
步骤203,基于当前时间周期的新增访问数量和上一时间周期的累计访问数量,确定当前时间周期的累计访问数量。
新增访问数量包括新增浏览量,此时,累计访问数量包括累计浏览量。也就是说,步骤203是基于当前时间周期的新增浏览量和上一时间周期的累计浏览量,确定当前时间周期的累计浏览量。
新增访问数量包括新增访客数,此时,累计访问数量包括累计访客数。也就是说,步骤203是基于当前时间周期的新增访客数和上一时间周期的累计访客数,确定当前时间周期的累计访客数。
可选地,基于当前时间周期的新增访问数量和上一时间周期的累计访问数量,确定当前时间周期的累计访问数量,包括:确定当前时间周期的新增访问数量和上一时间周期的累计访问数量之和,得到当前时间周期的累计访问数量。
当新增访问数量包括新增浏览量时,确定当前时间周期的新增浏览量和上一时间周期的累计浏览量之和,得到当前时间周期的累计浏览量。其中,当前时间周期的累计浏览量可以采用公式TPVn=TPVn-1+PVn来表示,TPVn为当前时间周期的累计浏览量,TPVn-1为上一时间周期的累计浏览量,PVn为当前时间周期的新增浏览量。
当新增访问数量包括新增访客数时,确定当前时间周期的新增访客数和上一时间周期的累计访客数之和,得到当前时间周期的累计访客数。其中,当前时间周期的累计访客数可以采用公式TUVn=TUVn-1+UVn来表示,TUVn为当前时间周期的累计访客数,TUVn-1为上一时间周期的累计访客数,UVn为当前时间周期的新增访客数。
可以理解的是,当前时间周期可以是任一个时间周期,若当前时间周期为第一个时间周期,则上一个时间周期可以理解为初始时刻。此时,初始时刻的累计访问数量为0,初始时刻的累计对象标识集为空集。可以按照步骤201至步骤203的方式得到第一个时间周期的累计访问数量以及累计对象标识集。由于初始时刻的累计访问数量为0,因此,第一个时间周期的新增访问数量即为第一个时间周期的累积访问数量。由于初始时刻的累计对象标识集为空集,因此,第一个时间周期的新增对象标识集即为第一个时间周期的累计对象标识集。
上述方法是对当前时间周期的对象行为数据集进行数据处理,基于数据处理后得到的新增访问数量和上一时间周期的累计访问数量,确定当前时间周期的累计访问数量。由于是对当前时间周期的对象行为数据集进行数据处理,降低了数据处理的数据量,提高了运算速度,节约了数据处理时间,减少了崩溃现象的发生。
上述从方法步骤的角度阐述了本申请实施例中的数据处理方法,本申请实施例的数据处理方法适用于与互联网相关的场景(如车联网场景)中。下面将结合车联网场景,详细说明本申请实施例。在车联网场景中,任意对象在任意时刻进行对任意车联网应用程序的访问浏览行为,均会产生对应的日志信息。因此,在每一个时间周期内均会生成大量的日志信息,从日志信息中提取出该时间周期的对象行为数据集,从该时间周期的对象行为数据集所包含的各个对象行为数据中分别提取出对象标识,得到该时间周期的第一对象标识集。
本申请实施例中,每一个时间周期包括开始时刻和结束时刻。为了便于描述,将初始时刻记为T0,第一个时间周期的开始时刻为T0,第一个时间周期的结束时刻为T1,因此,T0时刻至T1时刻之间的时间段为第一个时间周期。以此类推,第n个时间周期的开始时刻为Tn-1,第n个时间周期的结束时刻为Tn,Tn-1时刻至Tn时刻之间的时间段为第n个时间周期,n为正整数。
下面请参见图4,图4是本申请实施例提供的一种数据处理方法的示意图。首先,获取T0时刻的累计浏览量TPV0和累计访客数TUV0,并获取T0时刻的累计对象标识集TU0。由于T0时刻是初始时刻,因此,T0时刻的累计浏览量TPV0为0,T0时刻的累计访客数TUV0也为0,且T0时刻的累计对象标识集TU0为空集。
接着,在第一个时间周期的结束时刻(即T1时刻),获取T0时刻至T1时刻的第一对象标识集。基于T0时刻的累计对象标识集TU0、T0时刻至T1时刻的第一对象标识集,确定T0时刻至T1时刻的新增浏览量PV1、新增访客数UV1和新增对象标识集U1。将T0时刻至T1时刻的新增浏览量PV1与T0时刻的累计浏览量TPV0相加,得到T1时刻的累计浏览量TPV1,即TPV0+PV1=TPV1。将T0时刻至T1时刻的新增访客数UV1与T0时刻的累计访客数TUV0相加,得到T1时刻的累计访客数TUV1,即TUV0+UV1=TUV1。将T0时刻至T1时刻的新增对象标识集U1与T0时刻的累计对象标识集TU0合并,得到T1时刻的累计对象标识集TU1。
同样的,在第二个时间周期的结束时刻(即T2时刻),获取T1时刻至T2时刻的第一对象标识集。基于T1时刻的累计对象标识集TU1、T1时刻至T2时刻的第一对象标识集,确定T1时刻至T2时刻的新增浏览量PV2、新增访客数UV2和新增对象标识集U2。将T1时刻至T2时刻的新增浏览量PV2与T1时刻的累计浏览量TPV1相加,得到T2时刻的累计浏览量TPV2,即TPV1+PV2=TPV2。将T1时刻至T2时刻的新增访客数UV2与T1时刻的累计访客数TUV1相加,得到T2时刻的累计访客数TUV2,即TUV1+UV2=TUV2。将T1时刻至T2时刻的新增对象标识集U2与T1时刻的累计对象标识集TU1合并,得到T2时刻的累计对象标识集TU2。
之后,重复执行与第一个时间周期、第二个时间周期相类似的操作。也就是说,在第n个时间周期的结束时刻(即Tn时刻),获取Tn-1时刻至Tn时刻的第一对象标识集。基于Tn-1时刻的累计对象标识集TUn-1、Tn-1时刻至Tn时刻的第一对象标识集,确定Tn-1时刻至Tn时刻的新增浏览量PVn、新增访客数UVn和新增对象标识集Un。将Tn-1时刻至Tn时刻的新增浏览量PVn与Tn-1时刻的累计浏览量TPVn-1相加,得到Tn时刻的累计浏览量TPVn,即TPVn-1+PVn=TPVn。将Tn-1时刻至Tn时刻的新增访客数UVn与Tn-1时刻的累计访客数TUVn-1相加,得到Tn时刻的累计访客数TUVn,即TUVn-1+UVn=TUVn。将Tn-1时刻至Tn时刻的新增对象标识集Un与Tn-1时刻的累计对象标识集TUn-1合并,得到Tn时刻的累计对象标识集TUn。
需要说明的是,Tn时刻的累计浏览量相当于第n个时间周期的累积浏览量,Tn时刻的累积访客数相当于第n个时间周期的累积访客数,Tn时刻的累计对象标识集相当于第n个时间周期的累计对象标识集。Tn-1时刻至Tn时刻的新增浏览量相当于第n个时间周期的新增浏览量,Tn-1时刻至Tn时刻的新增访客数相当于第n个时间周期的新增访客数,Tn-1时刻至Tn时刻的新增对象标识集相当于第n个时间周期的新增对象标识集。
本申请实施例中,可以采用分布式计算的方式,确定新增浏览量和新增访客数,详细可参见上文有关“采用分布式计算的方式,对当前时间周期的对象行为数据集进行数据处理,得到当前时间周期的新增访问数量”的描述,在此不再赘述。
本申请实施例是通过分布式计算的方式,确定新增浏览量和新增访客数,通过分布式计算可以有效的减少数据倾斜的现象。采用链式计算的方式,利用上一个时间周期的累积浏览量和当前时间周期的新增浏览量,确定当前时间周期的累积浏览量,以及利用上一个时间周期的累积浏览访客数和当前时间周期的新增访客数,确定当前时间周期的累积访客数,降低了需要计算的数据量和存储量。通过兼顾分布式计算和链式计算两种方式,提高数据处理速度,减少数据处理时间。
接下来,请参见图5,图5所示为本申请实施例提供的一种数据处理装置的结构示意图,如图5所示,该装置包括:
获取模块501,用于获取上一时间周期的累计访问数量和当前时间周期的对象行为数据集;
处理模块502,用于对当前时间周期的对象行为数据集进行数据处理,得到当前时间周期的新增访问数量,当前时间周期的新增访问数量是与上一时间周期的累计访问数量相比新增的访问数量;
确定模块503,用于基于当前时间周期的新增访问数量和上一时间周期的累计访问数量,确定当前时间周期的累计访问数量。
在一种可能的实现方式中,当前时间周期的对象行为数据集包括多个对象行为数据;
处理模块502,用于从各个对象行为数据中分别提取出对象标识,得到第一对象标识集;基于第一对象标识集确定当前时间周期的新增访问数量。
在一种可能的实现方式中,新增访问数量包括新增浏览量;
处理模块502,用于将统计出的第一对象标识集中对象标识的数量确定为当前时间周期的新增浏览量。
在一种可能的实现方式中,新增访问数量包括新增访客数;
处理模块502,用于统计出第一对象标识集中的各种对象标识;获取上一时间周期的累计对象标识集;基于上一时间周期的累计对象标识集中的各种对象标识和第一对象标识集中的各种对象标识,确定当前时间周期的新增对象标识集,当前时间周期的新增对象标识集包括与上一时间周期的累计对象标识集相比新增的至少一种对象标识;将当前时间周期的新增对象标识集中对象标识的种类数,确定为当前时间周期的新增访客数。
在一种可能的实现方式中,处理模块502,用于对于第一对象标识集中的任一种对象标识,将任一种对象标识与上一时间周期的累计对象标识集中的各种对象标识进行匹配;响应于上一时间周期的累计对象标识集中不存在与任一种对象标识匹配成功的对象标识,则确定任一种对象标识为当前时间周期的新增对象标识集中的对象标识。
在一种可能的实现方式中,处理模块502,用于对上一时间周期的累计对象标识集中的各种对象标识进行排序,得到排序后的各种对象标识;从排序后的各种对象标识中确定位于多个指定排序位置的指定对象标识,将各个指定对象标识与任一种对象标识进行比较,得到各个指定对象标识的比较结果;基于各个指定对象标识的比较结果,从各个指定对象标识中确定至少一个目标对象标识;基于至少一个目标对象标识,从排序后的各种对象标识中确定出待匹配的对象标识,将任一种对象标识与待匹配的对象标识进行匹配。
在一种可能的实现方式中,处理模块502,用于获取第一时间周期的累计对象标识集;获取上一时间周期的新增对象标识集,上一时间周期的新增对象标识集包括与第一时间周期的累计对象标识集相比新增的至少一种对象标识;将上一时间周期的新增对象标识集与第一时间周期的累计对象标识集进行合并,得到上一时间周期的累计对象标识集。
在一种可能的实现方式中,确定模块503,用于确定当前时间周期的新增访问数量和上一时间周期的累计访问数量之和,得到当前时间周期的累计访问数量。
在一种可能的实现方式中,获取模块501,用于获取在当前时间周期内生成的日志信息;从日志信息中提取出当前时间周期的对象行为数据集。
在一种可能的实现方式中,处理模块502,用于对当前时间周期的对象行为数据集进行分组,得到至少两个对象行为数据子集;对各个对象行为数据子集并行进行数据处理,得到当前时间周期的新增访问数量。
上述装置是对当前时间周期的对象行为数据集进行数据处理,基于数据处理后得到的新增访问数量和上一时间周期的累计访问数量,确定当前时间周期的累计访问数量。由于是对当前时间周期的对象行为数据集进行数据处理,降低了数据处理的数据量,提高了运算速度,节约了数据处理时间,减少了崩溃现象的发生。
应理解的是,上述图5提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图6示出了本申请一个示例性实施例提供的终端设备600的结构框图。该终端设备600可以是便携式移动终端,比如:智能手机、平板电脑、MP3(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端设备600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端设备600包括有:处理器601和存储器602。
处理器601可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器601可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器601还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器602可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器601所执行以实现本申请中方法实施例提供的数据处理方法。
在一些实施例中,终端设备600还可选包括有:外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地,外围设备包括:射频电路604、显示屏605、摄像头组件606、音频电路607、定位组件608和电源609中的至少一种。
外围设备接口603可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中,处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上;在一些其他实施例中,处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路604用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路604包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路604还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏605用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时,显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时,显示屏605还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏605可以为一个,设置在终端设备600的前面板;在另一些实施例中,显示屏605可以为至少两个,分别设置在终端设备600的不同表面或呈折叠设计;在另一些实施例中,显示屏605可以是柔性显示屏,设置在终端设备600的弯曲表面上或折叠面上。甚至,显示屏605还可以设置成非矩形的不规则图形,也即异形屏。显示屏605可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件606用于采集图像或视频。可选地,摄像头组件606包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器601进行处理,或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端设备600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路607还可以包括耳机插孔。
定位组件608用于定位终端设备600的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件608可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。
电源609用于为终端设备600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端设备600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于:加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。
加速度传感器611可以检测以终端设备600建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号,控制显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器612可以检测终端设备600的机体方向及转动角度,陀螺仪传感器612可以与加速度传感器611协同采集用户对终端设备600的3D动作。处理器601根据陀螺仪传感器612采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器613可以设置在终端设备600的侧边框和/或显示屏605的下层。当压力传感器613设置在终端设备600的侧边框时,可以检测用户对终端设备600的握持信号,由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在显示屏605的下层时,由处理器601根据用户对显示屏605的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器614用于采集用户的指纹,由处理器601根据指纹传感器614采集到的指纹识别用户的身份,或者,由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器601授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置在终端设备600的正面、背面或侧面。当终端设备600上设置有物理按键或厂商Logo时,指纹传感器614可以与物理按键或厂商Logo集成在一起。
光学传感器615用于采集环境光强度。在一个实施例中,处理器601可以根据光学传感器615采集的环境光强度,控制显示屏605的显示亮度。具体地,当环境光强度较高时,调高显示屏605的显示亮度;当环境光强度较低时,调低显示屏605的显示亮度。在另一个实施例中,处理器601还可以根据光学传感器615采集的环境光强度,动态调整摄像头组件606的拍摄参数。
接近传感器616,也称距离传感器,通常设置在终端设备600的前面板。接近传感器616用于采集用户与终端设备600的正面之间的距离。在一个实施例中,当接近传感器616检测到用户与终端设备600的正面之间的距离逐渐变小时,由处理器601控制显示屏605从亮屏状态切换为息屏状态;当接近传感器616检测到用户与终端设备600的正面之间的距离逐渐变大时,由处理器601控制显示屏605从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图6中示出的结构并不构成对终端设备600的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图7为本申请实施例提供的服务器的结构示意图,该服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器701和一个或多个的存储器702,其中,该一个或多个存储器702中存储有至少一条程序代码,该至少一条程序代码由该一个或多个处理器701加载并执行以实现上述各个方法实施例提供的数据处理方法,示例性的,处理器701为CPU。当然,该服务器700还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器700还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,该存储介质中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行,以使电子设备实现上述任一种数据处理方法。
可选地,上述计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact Disc Read-OnlyMemory,CD-ROM)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品中存储有至少一条计算机指令,该至少一条计算机指令由处理器加载并执行,以使计算机实现上述任一种数据处理方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (14)

1.一种数据处理方法,其特征在于,所述方法包括:
获取上一时间周期的累计访问数量和当前时间周期的对象行为数据集;
对所述当前时间周期的对象行为数据集进行数据处理,得到所述当前时间周期的新增访问数量,所述当前时间周期的新增访问数量是与所述上一时间周期的累计访问数量相比新增的访问数量;
基于所述当前时间周期的新增访问数量和所述上一时间周期的累计访问数量,确定所述当前时间周期的累计访问数量。
2.根据权利要求1所述的方法,其特征在于,所述当前时间周期的对象行为数据集包括多个对象行为数据;所述对所述当前时间周期的对象行为数据集进行数据处理,得到所述当前时间周期的新增访问数量,包括:
从各个对象行为数据中分别提取出对象标识,得到第一对象标识集;
基于所述第一对象标识集确定所述当前时间周期的新增访问数量。
3.根据权利要求2所述的方法,其特征在于,所述新增访问数量包括新增浏览量;所述基于所述第一对象标识集确定所述当前时间周期的新增访问数量,包括:
将统计出的所述第一对象标识集中对象标识的数量确定为所述当前时间周期的新增浏览量。
4.根据权利要求2所述的方法,其特征在于,所述新增访问数量包括新增访客数;所述基于所述第一对象标识集确定所述当前时间周期的新增访问数量,包括:
统计出所述第一对象标识集中的各种对象标识;
获取所述上一时间周期的累计对象标识集;
基于所述上一时间周期的累计对象标识集中的各种对象标识和所述第一对象标识集中的各种对象标识,确定所述当前时间周期的新增对象标识集,所述当前时间周期的新增对象标识集包括与所述上一时间周期的累计对象标识集相比新增的至少一种对象标识;
将所述当前时间周期的新增对象标识集中对象标识的种类数,确定为所述当前时间周期的新增访客数。
5.根据权利要求4所述的方法,其特征在于,所述基于所述上一时间周期的累计对象标识集中的各种对象标识和所述第一对象标识集中的各种对象标识,确定所述当前时间周期的新增对象标识集,包括:
对于所述第一对象标识集中的任一种对象标识,将所述任一种对象标识与所述上一时间周期的累计对象标识集中的各种对象标识进行匹配;
响应于所述上一时间周期的累计对象标识集中不存在与所述任一种对象标识匹配成功的对象标识,则确定所述任一种对象标识为所述当前时间周期的新增对象标识集中的对象标识。
6.根据权利要求5所述的方法,其特征在于,所述将所述任一种对象标识与所述上一时间周期的累计对象标识集中的各种对象标识进行匹配,包括:
对所述上一时间周期的累计对象标识集中的各种对象标识进行排序,得到排序后的各种对象标识;
从所述排序后的各种对象标识中确定位于多个指定排序位置的指定对象标识,将各个指定对象标识与所述任一种对象标识进行比较,得到各个指定对象标识的比较结果;
基于所述各个指定对象标识的比较结果,从所述各个指定对象标识中确定至少一个目标对象标识;
基于所述至少一个目标对象标识,从所述排序后的各种对象标识中确定出待匹配的对象标识,将所述任一种对象标识与所述待匹配的对象标识进行匹配。
7.根据权利要求4所述的方法,其特征在于,所述获取所述上一时间周期的累计对象标识集,包括:
获取第一时间周期的累计对象标识集;
获取所述上一时间周期的新增对象标识集,所述上一时间周期的新增对象标识集包括与所述第一时间周期的累计对象标识集相比新增的至少一种对象标识;
将所述上一时间周期的新增对象标识集与所述第一时间周期的累计对象标识集进行合并,得到所述上一时间周期的累计对象标识集。
8.根据权利要求1至7任一所述的方法,其特征在于,所述基于所述当前时间周期的新增访问数量和所述上一时间周期的累计访问数量,确定所述当前时间周期的累计访问数量,包括:
确定所述当前时间周期的新增访问数量和所述上一时间周期的累计访问数量之和,得到所述当前时间周期的累计访问数量。
9.根据权利要求1至7任一所述的方法,其特征在于,获取当前时间周期的对象行为数据集,包括:
获取在所述当前时间周期内生成的日志信息;
从所述日志信息中提取出所述当前时间周期的对象行为数据集。
10.根据权利要求1所述的方法,其特征在于,所述对所述当前时间周期的对象行为数据集进行数据处理,得到所述当前时间周期的新增访问数量,包括:
对所述当前时间周期的对象行为数据集进行分组,得到至少两个对象行为数据子集;
对各个对象行为数据子集并行进行数据处理,得到所述当前时间周期的新增访问数量。
11.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取上一时间周期的累计访问数量和当前时间周期的对象行为数据集;
处理模块,用于对所述当前时间周期的对象行为数据集进行数据处理,得到所述当前时间周期的新增访问数量,所述当前时间周期的新增访问数量是与所述上一时间周期的累计访问数量相比新增的访问数量;
确定模块,用于基于所述当前时间周期的新增访问数量和所述上一时间周期的累计访问数量,确定所述当前时间周期的累计访问数量。
12.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以使所述电子设备实现如权利要求1至10任一所述的数据处理方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以使计算机实现如权利要求1至10任一所述的数据处理方法。
14.一种计算机程序产品,其特征在于,所述计算机程序产品中存储有至少一条计算机指令,所述至少一条计算机指令由处理器加载并执行,以使计算机实现如权利要求1至10任一所述的数据处理方法。
CN202111472854.6A 2021-12-06 2021-12-06 数据处理方法、装置、电子设备及计算机可读存储介质 Pending CN113900920A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111472854.6A CN113900920A (zh) 2021-12-06 2021-12-06 数据处理方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111472854.6A CN113900920A (zh) 2021-12-06 2021-12-06 数据处理方法、装置、电子设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN113900920A true CN113900920A (zh) 2022-01-07

Family

ID=79195353

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111472854.6A Pending CN113900920A (zh) 2021-12-06 2021-12-06 数据处理方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113900920A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114417085A (zh) * 2022-03-30 2022-04-29 腾讯科技(深圳)有限公司 数据处理方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880676A (zh) * 2012-09-10 2013-01-16 新浪网技术(中国)有限公司 统计用户行为数据的方法及用户行为数据统计系统
CN103714139A (zh) * 2013-12-20 2014-04-09 华南理工大学 一种移动海量客户群识别的并行数据挖掘方法
CN107798013A (zh) * 2016-09-05 2018-03-13 广州市动景计算机科技有限公司 热点内容提供方法、设备、浏览器、电子设备及服务器
CN107948739A (zh) * 2016-10-13 2018-04-20 北京国双科技有限公司 一种网络电视去重用户数的计算方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880676A (zh) * 2012-09-10 2013-01-16 新浪网技术(中国)有限公司 统计用户行为数据的方法及用户行为数据统计系统
CN103714139A (zh) * 2013-12-20 2014-04-09 华南理工大学 一种移动海量客户群识别的并行数据挖掘方法
CN107798013A (zh) * 2016-09-05 2018-03-13 广州市动景计算机科技有限公司 热点内容提供方法、设备、浏览器、电子设备及服务器
CN107948739A (zh) * 2016-10-13 2018-04-20 北京国双科技有限公司 一种网络电视去重用户数的计算方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DEANTZZZ: "使用Hive分析网站访问日志统计日活跃及日新增用户数据、编", 《HTTPS://BLOG.CSDN.NET/QQ_33398607/ARTICLE/DETAILS/100117053》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114417085A (zh) * 2022-03-30 2022-04-29 腾讯科技(深圳)有限公司 数据处理方法、装置、设备及存储介质
CN114417085B (zh) * 2022-03-30 2022-07-15 腾讯科技(深圳)有限公司 数据处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN108924737B (zh) 定位方法、装置、设备及计算机可读存储介质
CN108717432B (zh) 资源查询方法及装置
CN111694834A (zh) 图数据的入库方法、装置、设备及可读存储介质
CN111569435B (zh) 排行榜生成方法、系统、服务器及存储介质
CN110569220B (zh) 游戏资源文件的展示方法、装置、终端及存储介质
CN111177137B (zh) 数据去重的方法、装置、设备及存储介质
CN110942046B (zh) 图像检索方法、装置、设备及存储介质
CN112052354A (zh) 视频推荐方法、视频展示方法、装置及计算机设备
CN113742366A (zh) 数据处理方法、装置、计算机设备及存储介质
CN110769050B (zh) 数据处理方法、数据处理系统、计算机设备及存储介质
CN110471614B (zh) 一种存储数据的方法、检测终端的方法及装置
CN107944024B (zh) 一种确定音频文件的方法和装置
CN112053360B (zh) 图像分割方法、装置、计算机设备及存储介质
CN113900920A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN113032587B (zh) 多媒体信息推荐方法、系统、装置、终端和服务器
CN110149408B (zh) 业务数据显示方法、装置、终端及服务器
CN111782950A (zh) 样本数据集获取方法、装置、设备及存储介质
CN111563201A (zh) 内容推送方法、装置、服务器及存储介质
CN110995842A (zh) 业务数据下载方法、装置、设备及存储介质
CN113987326B (zh) 资源推荐方法、装置、计算机设备及介质
CN113343709B (zh) 意图识别模型的训练方法、意图识别方法、装置及设备
CN112597417B (zh) 页面更新方法、装置、电子设备及存储介质
CN116244299A (zh) 业务数据路径的确定方法、装置、电子设备及介质
CN111294320B (zh) 数据转换的方法和装置
CN113763932A (zh) 语音处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40065625

Country of ref document: HK

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220107