CN114417085B - 数据处理方法、装置、设备及存储介质 - Google Patents

数据处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114417085B
CN114417085B CN202210321770.0A CN202210321770A CN114417085B CN 114417085 B CN114417085 B CN 114417085B CN 202210321770 A CN202210321770 A CN 202210321770A CN 114417085 B CN114417085 B CN 114417085B
Authority
CN
China
Prior art keywords
subset
target
objects
object set
subsets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210321770.0A
Other languages
English (en)
Other versions
CN114417085A (zh
Inventor
钟子宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210321770.0A priority Critical patent/CN114417085B/zh
Publication of CN114417085A publication Critical patent/CN114417085A/zh
Application granted granted Critical
Publication of CN114417085B publication Critical patent/CN114417085B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3414Workload generation, e.g. scripts, playback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K17/00Methods or arrangements for effecting co-operative working between equipments covered by two or more of main groups G06K1/00 - G06K15/00, e.g. automatic card files incorporating conveying and reading operations
    • G06K17/0022Methods or arrangements for effecting co-operative working between equipments covered by two or more of main groups G06K1/00 - G06K15/00, e.g. automatic card files incorporating conveying and reading operations arrangements or provisious for transferring data to distant stations, e.g. from a sensing device

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种数据处理方法、装置、设备及存储介质,涉及计算机和车联网技术领域。本申请实施例可应用于车载或其他场景。所述方法包括:获取历史时段内的全量对象集合以及当前周期的对象集合,全量对象集合包括历史时段内的全量对象的标识,当前周期的对象集合包括当前周期内的多个对象的标识;将当前周期的对象集合划分为K个子集,子集中包括当前周期内的部分对象的标识,K为大于1的整数;将K个子集分别与全量对象集合进行比对,得到当前周期的新增对象集合,当前周期的新增对象集合包括当前周期内出现且历史时段内未出现的对象的标识。本申请节约了数据处理所需要的时间,提高了数据处理的效率。

Description

数据处理方法、装置、设备及存储介质
技术领域
本申请实施例涉及计算机和车联网技术领域,特别涉及一种数据处理方法、装置、设备及存储介质。
背景技术
目前,在一些车联网产品中,通常会对新增的对象进行统计,使得开发者能够更加清晰地掌握使用者的情况,以作出相应的改变。
在相关技术中,如果想要计算新增对象,会将当前周期的对象集合进行排序,并将当前周期的对象集合中的对象逐个与历史时段内的全量对象集合进行比对,以筛选出当前周期的新增对象集合。这样,会尽可能地保证所有新增对象都能被筛选出来。
然而,在当前周期的对象较多时,这种逐个比对的数据处理方式存在耗时长、效率低的问题。
发明内容
本申请实施例提供了一种数据处理方法、装置、设备及存储介质。所述技术方案如下:
根据本申请实施例的一个方面,提供了一种数据处理方法,所述方法包括:
获取历史时段内的全量对象集合以及当前周期的对象集合,所述全量对象集合包括所述历史时段内的全量对象的标识,所述当前周期的对象集合包括所述当前周期内的多个对象的标识;
将所述当前周期的对象集合划分为K个子集,所述子集中包括所述当前周期内的部分对象的标识,K为大于1的整数;
将所述K个子集分别与所述全量对象集合进行比对,得到所述当前周期的新增对象集合,所述当前周期的新增对象集合包括所述当前周期内出现且所述历史时段内未出现的对象的标识。
根据本申请实施例的一个方面,提供了一种数据处理装置,所述装置包括:
获取模块,用于获取历史时段内的全量对象集合以及当前周期的对象集合,所述全量对象集合包括所述历史时段内的全量对象的标识,所述当前周期的对象集合包括所述当前周期内的多个对象的标识;
划分模块,用于将所述当前周期的对象集合划分为K个子集,所述子集中包括所述当前周期内的部分对象的标识,K为大于1的整数;
比对模块,用于将所述K个子集分别与所述全量对象集合进行比对,得到所述当前周期的新增对象集合,所述当前周期的新增对象集合包括所述当前周期内出现且所述历史时段内未出现的对象的标识。
根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现上述数据处理方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现上述数据处理方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述数据处理方法。
本申请实施例提供的技术方案可以包括如下有益效果:
通过将当前周期的对象集合划分成多个子集,分别与全量对象集合进行比对,得到当前周期的新增对象集合,使得多个子集可以同步与全量对象集合进行比对,节约了数据处理所需要的时间,提高了数据处理的效率。
附图说明
图1是本申请一个实施例提供的方案实施环境的示意图;
图2是本申请另一个实施例提供的方案实施环境的示意图;
图3是本申请一个实施例提供的数据处理方法的流程图;
图4是本申请另一个实施例提供的数据处理方法的流程图;
图5是本申请另一个实施例提供的数据处理方法的流程图;
图6是本申请另一个实施例提供的数据处理方法的流程图;
图7是本申请另一个实施例提供的数据处理方法的流程图;
图8是本申请另一个实施例提供的数据处理方法的流程图;
图9是本申请一个实施例提供的数据处理装置的框图;
图10是本申请另一个实施例提供的数据处理装置的框图;
图11是本申请一个实施例提供的计算机设备的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
请参考图1,其示出了本申请一个实施例提供的方案实施环境的示意图。该方案实施环境可以是Hadoop架构100,包括Hadoop分布式文件系统(Hadoop Distributed FileSystem,HDFS)120和MapReduce(映射归约)引擎140。
Hadoop架构100是用来解决数据离线批处理问题的框架,其中核心部分是分布式文件系统120和MapReduce引擎140。HDFS是架构在Hadoop之上的分布式文件系统,MapReduce是架构在Hadoop之上用来做计算的框架。
分布式文件系统120是一个设计用于在普通硬件上运行的分布式文件系统。它与一些常规的分布式文件系统有许多相似之处。但是,与其他分布式文件系统的区别也非常明显。HDFS是高度容错的,设计用于部署在低成本的硬件上。HDFS提供对应用程序数据的高吞吐量访问,适用于具有大数据集的应用程序。HDFS放宽了对POSIX的一些要求,允许对文件系统数据进行流访问。
MapReduce引擎140是以可靠的、容错的方式在大型集群(数千个节点)上并行处理大量数据的应用程序,其中Map本意可以理解为地图、映射,这里可以理解为从现实世界获得或产生映射。Reduce本意是减少,这里可以理解为归并前面Map产生的映射。编程模型只包含Map和Reduce两个过程,Map的主要输入是一对<Key,Value>值,经过Map计算后输出一对<Key,Value>值;然后将相同Key合并,形成<Key,Value集合>;再将结果输入reduce,经过计算输出零个或多个<Key,Value>对。
在一些实施例中,本申请技术方案中所示的数据处理方法可以运用于上述Hadoop架构100中,由MapReduce引擎140执行。
请参考图2,其示出了本申请另一个实施例提供的方案实施环境的示意图。该方案实施环境可以是Spark架构200,包括:Driver(驱动程序)220、Cluster Manager(集群资源管理服务)240和至少一个Woke Node(工作节点)260。
Spark架构200是一个围绕速度、易用性和复杂分析构建的大数据处理框架。
Driver(驱动程序)220是运行Application(应用)的main函数。
Cluster Manager(集群资源管理服务)240在standalone(独立的)模式中即为Master(控制器)主节点,控制整个集群,控制worker(工作点)。在YARN(Yet AnotherResource Negotiator,另一种资源协调者)模式中为资源管理器。
Woke Node(工作节点)260是从节点,负责控制计算节点,启动Executor(执行者)或者Driver(驱动程序)。
在一些实施例中,本申请技术方案中所示的数据处理方法可以运用于Spark架构200中,由Woke Node(工作节点)260执行。
上述图1和图2给出的两个方案实施环境,仅是示例性和解释性的,本申请技术方案除了能够应用于上述2种实施环境中之外,还可以应用于其他具有数据处理需求的实施环境或场景下,本申请对此不作限定。
请参考图3,其示出了本申请一个实施例提供的数据处理方法的流程图。该方法各步骤的执行主体可以是图1所示方案实施环境中的MapReduce引擎14,可以是图2所示方案实施环境中的Woke Node(工作节点)26。在下文方法实施例中,为了便于描述,仅以各步骤的执行主体为“计算机设备”进行介绍说明。该方法可以包括如下几个步骤(310~330)中的至少一个步骤。
步骤310,获取历史时段内的全量对象集合以及当前周期的对象集合,全量对象集合包括历史时段内的全量对象的标识,当前周期的对象集合包括当前周期内的多个对象的标识。
全量对象集合包括历史时段内的全量对象的标识,全量对象的标识是指在历史时段内发生某些/某种行为的对象的标识。全量对象集合可以基于对象行为数据,统计分析得到。在一些实施例中,计算机设备采集对象行为数据,并记录在存储器中。
对象行为包括但不限于注册行为、点击行为、浏览行为、停留行为、搜索行为。在一些实施例中,历史时段的全量对象集合是指基于当前周期以前的所有对象注册行为数据,统计分析得到的对象集合。在一些实施例中,历史时段的全量对象集合是指当前周期以前的所有对象点击行为数据,统计分析得到的对象集合。在一些实施例中,历史时段的全量对象集合是指当前周期以前的所有对象浏览行为数据,统计分析得到的对象集合。在一些实施例中,历史时段的全量对象集合是指当前周期以前的所有对象停留行为数据,统计分析得到的对象集合。在一些实施例中,历史时段的全量对象集合是指当前周期以前的所有对象搜索行为数据,统计分析得到的对象集合。相应的,当前周期的对象集合也是如此,在此不作赘述。
在一些实施例中,当前周期是从第一时刻起算,到第二时刻为止,则第一时刻到第二时刻内,所有对象行为数据称为当前周期的对象集合。在一些实施例中,第一时刻是T1时刻,第二时刻是T2时刻,当前周期是从T1时刻起算,到T2时刻为止,则T1到T2时刻内,所有对象行为数据称为当前周期的对象集合。
相应地,历史时段是在第一时刻以前,全量对象集合是指第一时刻以前的所有对象行为数据的集合。在一些实施例中,第一时刻是T1时刻,则T1时刻以前的所有对象行为数据的集合称为全量对象集合。
全量对象集合包括历史时段内的全量对象的标识,当前周期的对象集合包括当前周期内的多个对象的标识。在一些实施例中,全量对象集合是基于历史时段内的对象行为数据,统计分析得到的对象集合,当前周期的对象集合是基于当前周期内的多个对象行为数据,统计分析得到的对象集合。在一些实施例中,对象的标识指对象的ID(Identifier,标识符)。对象的ID可以是数字、字母、符号中的至少一种或者几种的组合。在一些实施例中,对象的ID是数字,根据注册时间的长短,由大到小或者由小到大编号。在一些实施例中,对象的ID是随机生成的字母数字组合,没有规律。在一些实施例中,对象的标识还可以是其他能够指代对象的标志,在此不作限定。
计算机设备获取历史时段内的全量对象集合以及当前周期的对象集合。在一些实施例中,计算机设备主动去存储历史时段内的全量对象集合以及当前周期的对象集合。可选地,计算机设备内部获取并存储历史时段内的全量对象集合以及当前周期的对象集合,在计算机设备需要历史时段内的全量对象集合以及当前周期的对象集合时,由计算机设备从内部进行获取。在一些实施例中,计算机设备从其他计算机设备获取历史时段内的全量对象集合以及当前周期的对象集合。可选地,其他计算机设备用于获取并存储历史时段内的全量对象集合以及当前周期的对象集合,在计算机设备需要历史时段内的全量对象集合以及当前周期的对象集合时,由其他计算机设备提供给计算机设备。
步骤320,将当前周期的对象集合划分为K个子集,子集中包括当前周期内的部分对象的标识,K为大于1的整数。
可选地,每个子集中包括当前周期内的部分对象的标识。不同子集中对象标识不存在重复。K个子集中分别包含的对象的总和,即为当前周期的对象集合中包含的所有对象。
子集的划分有很多种划分方式。在一些实施例中,按照每个子集的数量划分,划分可以是平均分配、随机分配中的至少一种,本申请对此不作限定。在一些实施例中,按照对象的标识划分,划分可以是升序划分、降序划分、随机划分中的至少一种。
在一些实施例中,假设K是10,当前周期的对象有10000个。计算机设备将当前周期的对象集合平均分配到10个子集,每个子集中有1000个对象,可选地,每个子集包括1000个对象标识。
在一些实施例中,假设K是10,当前周期的对象有10000个。计算机设备将当前周期的对象集合按照对象的标识升序平均分到10个子集,每个子集中有1000个对象标识,可选地,每个子集中的当前周期的对象标识是递增的。
步骤330,将K个子集分别与全量对象集合进行比对,得到当前周期的新增对象集合,当前周期的新增对象集合包括当前周期内出现且历史时段内未出现的对象的标识。
比对的目的是将K个子集中不同于全量对象集合中的对象筛选出来。在一些实施例中,比对的方式是逐一比对,将K个子集逐一分别与全量对象集合进行比对,K个子集同时并行进行比对。在一些实施例中,比对的方式是逐一比对,将K个子集逐一分别与全量对象集合进行比对,K个子集部分并行比对,K个子集中一半的子集和全量对象集合先同时进行比对,在结果出来之后,另一半子集同时和全量对象集合进行比对。
比对所选取的方式可以是MapReduce中LeftJoin(左连)操作,也可以是其他用于筛选数据的操作,本申请在此不作限定。
当前周期的新增对象集合包括当前周期内出现且历史时段内未出现的对象的标识。在一些实施例中,新增对象是指在当前周期内出现且历史时段内未出现的对象,可选地,在历史时段内只出现了标识1~100的对象,在当前周期内出现了标识40~120的对象,则标识为101~120的对象是当前周期的新增对象,这两个新增对象所构成的集合是新增对象集合。
计算机设备采用分布式的K个处理节点,同步将K个子集分别与全量对象集合进行比对;其中,每一个处理节点用于将一个子集与全量对象集合进行比对。在一些实施例中,处理节点是服务器,计算机设备用K个服务器来将K个子集同步和全量对象集合进行比对。在一些实施例中,K是10,计算机设备通过10个服务器,对10个子集分别同步和全量对象集合进行比对,得到当前周期的新增对象集合。处理节点还可以是不同的虚拟机或者其他具备数据计算和处理能力的实体或虚拟设备,本申请对此不作限定。
计算机设备将当前周期的新增对象集合中包含的各个对象的标识,添加至全量对象集合中,得到更新后的全量对象集合。在一些实施例中,在T0到T1周期,新增对象集合包含的标识是101~120,全量对象集合包含的标识是1~100,则更新后的全量对象的集合是1~120,这是T1时刻的全量对象集合包含的标识。
计算机设备根据当前周期的新增对象集合,确定当前周期的新增对象数量。在一些实施例中,在T0到T1周期,新增对象集合包含的标识是101~120,则新增对象数量是20。
计算机设备根据当前周期的新增对象集合,确定当前周期的新增对象数量;根据当前周期的新增对象数量和历史时段的累计对象数量,确定更新后的累计对象数量。在一些实施例中,在T0到T1周期,新增对象集合包含的标识是110~120,新增对象的数量是20,全量对象集合包含的标识是1~100,历史时段的对象数量是100,则当前周期的新增对象数量是20,则更新后的累计对象数量是120。
计算机设备根据当前周期的新增对象集合,确定目标统计指标在当前周期的新增数量。目标统计指标包括以下至少一项:浏览量、点击量、搜索量。在一些实施例中,计算机设备根据所述当前周期的新增对象集合,确定浏览量在所述当前周期的新增数量。在一些实施例中,计算机设备根据所述当前周期的新增对象集合,确定点击量在所述当前周期的新增数量。在一些实施例中,计算机设备根据所述当前周期的新增对象集合,确定在所述当前周期的新增数量。在一些实施例中,计算机设备根据所述当前周期的新增对象集合,确定搜索量在所述当前周期的新增数量。
计算机设备根据所前周期的新增对象集合,确定目标统计指标在当前周期的新增数量;根据目标统计指标在当前周期的新增数量,以及在历史时段的累计数量,确定目标统计指标更新后的累计数量。在一些实施例中,目标统计指标是浏览量,新增数量是第一浏览数量,历史时段的累计数量是第二浏览数量,则浏览量的更新后的累计数量是第一浏览数量加上第二浏览数量。其他目标统计指标的累计数量算法和浏览量指标的累计数量算法一致,在此不作赘述。
综上所述,本申请实施例提供的技术方案,通过将当前周期的对象集合划分成多个子集,分别与全量对象集合进行比对,得到当前周期的新增对象集合,使得多个子集可以同步与全量对象集合进行比对,节约了数据处理所需要的时间,提高了数据处理的效率。
请参考图4,其示出了本申请另一个实施例提供的数据处理方法的流程图。在本实施例中以标识类型是数值型为例,对本申请技术方案进行介绍说明。同样的,为了便于描述,仅以各步骤的执行主体为“计算机设备”进行介绍说明。该方法可以包括如下几个步骤(410~470)中的至少一个步骤。
数值型标识是数字尺度测量的标识,其结果表现为具体的数值,如1、2、3、4等按序编号的ID。
步骤410,获取历史时段内的全量对象集合以及当前周期的对象集合,全量对象集合包括历史时段内的全量对象的标识,当前周期的对象集合包括当前周期内的多个对象的标识。
步骤420,将当前周期的对象集合划分为K个子集,子集中包括当前周期内的部分对象的标识,K为大于1的整数。
在一些实施例中,计算机设备按照目标顺序对当前周期的对象集合中包含的各个对象的标识进行排序,得到标识序列;将标识序列等分为K个子序列,得到K个子集。在一些实施例中,按照升序对当前周期的对象集合中包含的各个对象的标识进行排序,得到标识序列。在一些实施例中,按照降序对当前周期的对象集合中包含的各个对象的标识进行排序,得到标识序列。
步骤430,对于K个子集中的每一个子集,获取子集中包含的标识的最大值和最小值,得到K个最值对。
在一些实施例中,对象的标识是数值型的,对象的标识是根据对象的注册时间来确定的,由小到大赋予对象的。在一些实施例中,对象的标识是数值型的,对象的标识是根据注册对象的时间来确定的,由大到小赋予对象的。
在一些实施例中,分成的K个子集中必然存在最大值和最小值,将每个子集中的最大值和最小值都筛选出来,得到K个最值对。示例性的,当前周期的对象集合包含的标识是1~10000,平均分成10个子集,那么10个最值对分别是1,1000;1001,2000;2001,3000;3001,4000;4001,5000;5001,6000;6001,7000;7001,8000;8001,9000;9001,10000。在一些实施例中,最大值构成第一集合,第一集合包括1000、2000、3000、4000、5000、6000、7000、8000、9000、10000。在一些实施例中,最小值构成第二集合,第二集合包括1、1001、2001、3001、4001、5001、6001、7001、8001、9001。
步骤440,从K个最值对中,确定与目标最值对应的目标最值对;其中,目标最值是指全量对象集合中包含的标识的最值,目标最值大于或等于目标最值对中的最小值,且目标最值小于或等于目标最值对中的最大值。
在一些实施例中,目标最值是全量对象集合的包含的标识的最值。可选地,最值是最大值或者最小值。在一些实施例中,目标最值是全量对象集合中的最大值。在一些实施例中,目标最值是最大值,目标最值是5006,那么从10个最值对中,确定出目标最值对应的目标最值对,也即5001,6000这一最值对。在一些实施例中,目标最值是最小值,目标最值是3400,那么从10个最值对中,确定出目标最值对应的目标最值对,也即3001,4000这一最值对。
步骤450,从K个子集中,根据目标子集确定包含的对象全部为新增对象的新增子集;其中,目标子集是指K个子集中与目标最值对对应的子集。
在一些实施例中,根据目标子集,确定出目标最值在目标子集中的位置。在步骤440中,已经确定出与目标最值对应的目标最值对,也即确定出于目标最值所在的目标子集。在一些实施例中,目标最值是最大值,目标最值是5006,目标最值对是5001,6000,新增子集即为包含的对象全部大于5006的子集,也即后四个子集6001~7000,7001~8000,8001~9000,9001~10000。在一些实施例中,目标最值是最小值,目标最值是3400,目标最值对是3001,4000,新增子集即为包含的对象全部小于3400的子集,新增子集也就是前三个子集1~1000,1001~2000,2001~3000。
步骤460,根据目标最值,确定目标子集中包含的新增对象。
通过将目标子集中的对象标识与目标最值进行比对,确认出大于/小于目标最值的对象的标识的集合,即为新增子集。在一些实施例中,根据目标子集,确定出目标最值在目标子集中的位置。在步骤440中,已经确定出与目标最值对应的目标最值对,也即确定出于目标最值所在的目标子集。在一些实施例中,目标最值是最大值,目标最值是5006,目标最值对是5001,6000,目标子集即为大于5006小于等于6000的对象的标识的集合,新增对象的标识也就是5007~6000。目标最值是最小值,目标最值是3400,目标最值对是3001,4000,目标子集即为小于3400大于等于3001的目标对象的标识的集合,新增对象的标识也就是3001~3399。
步骤470,根据新增子集和目标子集中包含的新增对象,得到当前周期的新增对象集合。
当前周期的新增对象是新增子集和目标子集中包含的新增对象的总和。在一些实施例中,当前周期的对象集合包含的标识是1~10000,平均分成10个子集,目标最值是最大值,目标最值是5006,目标最值对是5001,6000。新增子集为6001~7000,7001~8000,8001~9000,9001~10000。目标子集中新增对象的标识是5007~6000。因此,当期周期的新增对象的标识是5007~10000。
在一些实施例中,当前周期的对象集合包含的标识是1~10000,平均分成10个子集,目标最值是最小值,目标最值是3400,目标最值对是3001,4000。新增子集是1~1000,1001~2000,2001~3000。目标子集中新增对象的标识是3001~3399。因此,当前周期的新增对象的标识是1~3399。
在本实施例中,对象的标识是数值型,通过将当前周期的对象集合划分成多个子集,获取子集中包含的标识的最大值和最小值,得到多个最值对,只需将目标最值分别与多个最值对进行比对,得到当前周期的新增对象集合,节约了数据处理所需要的时间,提高了数据处理的效率。
请参考图5,其示出了本申请另一个实施例提供的数据处理方法的流程图。在本实施例中以标识类型是数值型为例,对本申请技术方案进行介绍说明。同样的,为了便于描述,仅以各步骤的执行主体为“计算机设备”进行介绍说明。该方法可以包括如下几个步骤(510~590)中的至少一个步骤。
步骤510,获取历史时段内的全量对象集合以及当前周期的对象集合,全量对象集合包括历史时段内的全量对象的标识,当前周期的对象集合包括当前周期内的多个对象的标识。
步骤520,将当前周期的对象集合划分为K个子集,子集中包括当前周期内的部分对象的标识,K为大于1的整数。
步骤530,对于K个子集中的每一个子集,获取该子集中包含的标识的最大值和最小值,得到K个最值对。
步骤540,从K个最值对中,确定与目标最值对应的目标最值对;其中,目标最值是指全量对象集合中包含的标识的最值,目标最值大于或等于目标最值对中的最小值,且目标最值小于或等于目标最值对中的最大值。
步骤550,从K个子集中,根据目标子集确定包含的对象全部为新增对象的新增子集;其中,目标子集是指K个子集中与目标最值对对应的子集。
步骤560,以目标子集为初始的待检测集,获取待检测集中包含的各个对象的标识的中位数。
中位数是指将一组数据按照大小依次排序,处在最中间位置的那个数叫做这组数据的中位数。在一些实施例中,对象的标识是数值型,可以对其进行排序并且求得中位数。在一些实施例中,一组数据是自然数列或者等差数列,中位数是该数列的平均数。在一些实施例中,待检测集是1001~2001,1001个整数,那么中位数是1501。
步骤570,判断目标最值与中位数是否相等。
若相等,则执行步骤580;若不相等,则执行步骤572。
计算机设备判断目标最值与中位数是否相等,如果目标最值与中位数相等,说明找到了目标最值在待测子集中的位置,则可以直接计算待测子集中的新增对象。反之,如果目标最值与中位数不相等,说明还未找到目标最值在待测子集中的位置,还需继续与下一个中位数进行比较。
在一些实施例中,待检测集是1001~2001,那么中位数是1501,目标最值是1700,那么目标最值大于中位数,目标最值与中位数不相等,则执行步骤572。
在一些实施例中,待检测集是1001~2001,那么中位数是1501,目标最值是1501,那么目标最值等于中位数,则执行步骤580。
步骤572,根据中位数将待检测集划分为第一检测子集和第二检测子集。
在一些实施例中,按照目标顺序对所述当前周期的对象集合中包含的各个对象的标识进行排序,得到标识序列。待测子集也同样是顺序排列的,待测子集中必然存在最大值和最小值,以及中间的中位数,中位数将待测子集划分成第一检测子集和第二检测子集,第一检测子集包括最大值到中位数之间的序列,第二检测子集包括中位数到最小值之间的序列。或者,第一检测子集包括最小值到中位数之间的序列,第二检测子集包括中位数到最大值之间的序列。
在一些实施例中,待检测集是1001~2001,那么中位数是1501,目标最值是1700,那么目标最值大于中位数,目标最值与中位数不相等,第一检测子集是1001~1501,第二检测子集是1501~2001。
步骤574,根据目标最值与中位数的大小关系,确定目标最值所属的目标检测子集,目标检测子集是第一检测子集和第二检测子集中的一个。
在一些实施例中,在判断出目标最值与中位数不相等之后,判断目标最值是的大于中位数还是小于中位数。在一些实施例中,待测子集是升序排列的,判断出目标最值大于中位数之后,确定出目标最值处于第二检测子集,第二检测子集是待测子集中中位数到最大值的集合。在一些实施例中,待测子集是降序排列的,判断出目标最值大于中位数之后,确定出目标最值处于第一检测子集,第一检测子集是待测子集中最大值到中位数的集合。
在一些实施例中,待检测集是1001~2001,那么中位数是1501,目标最值是1700,那么目标最值大于中位数,目标最值与中位数不相等,第一检测子集是1001~1501,第二检测子集是1501~2001。目标最值1700大于中位数1501,因此目标检测子集是第二检测子集1501~2001。
步骤576,将目标检测子集作为更新后的待检测集;获取待检测集中包含的各个对象的标识的中位数。
在一些实施例中,将第一检测子集作为目标检测子集,同时作为更新后的待测子集,获取第一检测子集中的中位数。在一些实施例中,第一检测子集是等差序列并且递增的,则第一检测子集的中位数是第一检测子集的平均数。在一些实施例中,第二检测子集是等差序列并且递减的,则第二检测子集的中位数是第二检测子集的平均数。
在一些实施例中,待检测集是1001~2001,那么中位数是1501,目标最值是1700,第一检测子集是1001~1501,第二检测子集是1501~2001。目标最值1700大于中位数1501,目标检测子集也即更新后的待测子集是第二检测子集1501~2001。待测子集的中位数是1751。之后,将1700继续与中位数1751进行比对,一直到目标最值等于中位数为止。
执行完步骤576之后,再次执行步骤570。
步骤580,根据中位数确定目标子集中包含的新增对象。
在一些实施例中,目标最值是最大值,根据中位数确定目标子集中包含的新增对象的标识即目标子集中包含的对象的标识大于中位数小于或等于最大值的标识。在一些实施例中,目标最值是最小值,根据中位数确定目标子集中包含的新增对象的标识即目标子集中包含的对象的标识大于或等于最小值且小于中位数的标识。
在一些实施例中,目标子集是1001~2001,目标最值是1700,根据上述步骤,得到中位数等于目标最值也即1700。在一些实施例中,目标最值是最大值,目标子集中的包含的新增对象的标识是1701~2001。在一些实施例中,目标最值是最小值,目标子集中的包含的新增对象的标识是1001~1699。
步骤590,根据新增子集和目标子集中包含的新增对象,得到当前周期的新增对象集合。
在本实施例中,对象的标识是数值型,通过目标子集的中位数与目标最值进行比对,得到当前周期的新增对象集合,节约了数据处理所需要的时间,提高了数据处理的效率。
请参考图6,其示出了本申请另一个实施例提供的数据处理方法的流程图。在本实施例中以标识类型是字符串型为例,对本申请技术方案进行介绍说明。同样的,为了便于描述,仅以各步骤的执行主体为“计算机设备”进行介绍说明。该方法可以包括如下几个步骤(610~640)中的至少一个步骤。
字符串或串(String)是由数字、字母、下划线组成的一串字符。一般记为s="a1a2···an"(n>=0)。它是编程语言中表示文本的数据类型。在程序设计中,字符串为符号或数值的一个连续序列,如符号串(一串字符)或二进制数字串(一串二进制数字)。
步骤610,获取历史时段内的全量对象集合以及当前周期的对象集合,全量对象集合包括历史时段内的全量对象的标识,当前周期的对象集合包括当前周期内的多个对象的标识。
步骤620,将当前周期的对象集合划分为K个子集,子集中包括当前周期内的部分对象的标识,K为大于1的整数。
在一些实施例中,将当前周期的对象集合中包含的各个对象的标识,等分为K份,得到所述K个子集。在一些实施例中,当前周期的对象标识是字符串型,对当前周期的对象标识随机等分成K份。在一些实施例中,当前周期的对象标识是串型,对当前周期的对象标识随机等分成K份。
步骤630,对于K个子集中的每一个子集,将子集中包含的对象的标识与全量对象集合中包含的对象的标识进行比对,确定子集中包含的新增对象。
在一些实施例中,K个子集中的每个子集中包含的对象的标识都与历史时段的全量对象集合中的对象标识进行比对,确定出每个子集中包含的新增对象。在一些实施例中,将每个子集中包含的每个对象的标识逐一与全量对象集合的对象的标识进行比对,比对出每个子集中不同于全量对象集合的对象的标识。
步骤640,根据K个子集中分别包含的新增对象,确定当前周期的新增对象集合。
在本实施例中,对象的标识是字符串型,通过将当前周期的对象集合划分成多个子集,多个子集同步与全量对象集合进行比对,得到当前周期的新增对象集合,节约了数据处理所需要的时间,提高了数据处理的效率。
请参考图7,其示出了本申请另一个实施例提供的数据处理方法的流程图。在本实施例中以标识类型是字符串型为例,对本申请技术方案进行介绍说明。同样的,为了便于描述,仅以各步骤的执行主体为“计算机设备”进行介绍说明。该方法可以包括如下几个步骤(710~750)中的至少一个步骤。
步骤710,获取历史时段内的全量对象集合以及当前周期的对象集合,全量对象集合包括历史时段内的全量对象的标识,当前周期的对象集合包括当前周期内的多个对象的标识。
步骤720,将当前周期的对象集合划分为K个子集,子集中包括当前周期内的部分对象的标识,K为大于1的整数。
步骤730,将子集作为左表,全量对象集合作为右表,以对象的标识作为连接字段,确定左表和右表中有重合的重复子集。
在一些实施例中,第一子集中包含的标识中标识1、标识2、标识3、标识4、标识5,全量对象集合包括标识1、标识2,其中标识1、标识2、标识3、标识4、标识5是字符串型,彼此之间并不相同且没有关联。将第一子集作为左表,全量对象集合作为右表,以对象的标识作为连接字段,确定左表和右表中有重合的重复子集。重复子集包含的对象标识有标识1、标识2。
步骤740,将子集去掉重复子集,得到子集中包含的新增对象。
在一些实施例中,第一子集中包含的标识中标识1、标识2、标识3、标识4、标识5,全量对象集合包括标识1、标识2,其中标识1、标识2、标识3、标识4、标识5是字符串型,彼此之间并不相同且没有关联。重复子集包含的对象标识有标识1、标识2。将第一子集去掉重复子集,得到子集中包含的新增对象。新增对象的标识有标识3、标识4、标识5。
步骤750,根据K个子集中分别包含的新增对象,确定当前周期的新增对象集合。
在本实施例中,对象的标识是字符串型,通过多个子集同步与全量对象集合采用左连的操作,得到当前周期的新增对象集合,节约了数据处理所需要的时间,提高了数据处理的效率。
请参考图8,其示出了本申请另一个实施例提供的数据处理方法的流程图。该方法各步骤的执行主体可以是图1所示方案实施环境中的MapReduce引擎14,可以是图2所示方案实施环境中的Woke Node(工作节点)26。在下文方法实施例中,为了便于描述,仅以各步骤的执行主体为“计算机设备”进行介绍说明。该方法可以包括如下几个步骤(S1~S29)。
对本实施例中提到的词作以下解释:UV(Unique Visitor,独立访客量)、PV(PageView,页面浏览量)。
本方案整体流程主要可分为以下四个阶段:初始(T0)数据输入阶段、数据类型判断阶段、初始(T0)对象集TU0及初始浏览次数TPV0和初始访问对象数TUV0获取阶段、T1周期数据分布式打散阶段、T1时刻对象集TU1及TPV1和TUV1获取阶段、Tn周期数据分布式打散阶段、Tn时刻对象集TUn及TPVn和TUVn获取阶段。
S1.初始数据输入阶段。输入T0周期阶段的对象数据作为初始输入。
S2.数据类型判断阶段。输入S1的T0周期的初始对象ID数据,采用判别函数判断对象ID类型,对于对象ID存储格式是字符串型,但其内容是数值型数据,需要先转换为数值型,并输出转换后的对象ID数据集U0。如果对象数据是数值型,则执行步骤S3~S12。如果对象数据是字符串型,则执行步骤S20~S29。
S3.初始(T0)对象集TU0及初始对象UV、初始PV获取阶段。输入S1的初始对象数据U0。采用去重方式并按对象ID从小到大进行排序得到初始全量对象集合TU0,采用MapReduce分布式方式计算初始累计UV(
Figure 133320DEST_PATH_IMAGE001
)、初始累计PV(
Figure 341447DEST_PATH_IMAGE002
)。
S4.T1周期数据分布式打散阶段。输入T1周期对象ID数据U1
S5.对U1按照从大到小进行降序排列,将数据等分为K个子集,并按顺序依次存放到K个处理节点中。
S6.获取每个子集中的最值对。对每个处理节点中排第一位的对象ID与最后一位对象ID分别构成的序列
Figure 310540DEST_PATH_IMAGE003
Figure 262316DEST_PATH_IMAGE004
(其中,
Figure 501929DEST_PATH_IMAGE005
表示第1个统计周期下第j个处理节点中存储对象ID第一位的对象ID,
Figure 943275DEST_PATH_IMAGE006
表示第1个统计周期下第j个处理节点中存储对象ID最后一位的对象ID,m表示每个处理节点中存储的对象数为m)。
S7.将
Figure 399664DEST_PATH_IMAGE007
Figure 889551DEST_PATH_IMAGE008
分别与上一周期全量对象集合中排第一位对象ID(最大的对象ID)
Figure 747786DEST_PATH_IMAGE009
对比,必然得到中点位置
Figure 360033DEST_PATH_IMAGE010
及对象ID(
Figure 539604DEST_PATH_IMAGE011
),而将
Figure 98761DEST_PATH_IMAGE012
前的每个处理节点对象按先后顺序进行合并得到新增对象集合
Figure 545923DEST_PATH_IMAGE013
,并且得到新增对象数量为
Figure 532333DEST_PATH_IMAGE014
。从而根据迭代公式,对象数量
Figure 760052DEST_PATH_IMAGE015
和次数
Figure 857321DEST_PATH_IMAGE016
,输入S2的初始累计UV(
Figure 158990DEST_PATH_IMAGE017
)、初始累计PV(
Figure 817766DEST_PATH_IMAGE018
),从而根据迭代公式,计算T1时刻累计对象数量
Figure 267202DEST_PATH_IMAGE019
,计算T1时刻累计对象次数
Figure 168162DEST_PATH_IMAGE020
。同时,将T1周期第一个子集的第一位的对象ID
Figure 589916DEST_PATH_IMAGE021
Figure 918129DEST_PATH_IMAGE022
组成新增对象集
Figure 854861DEST_PATH_IMAGE023
,直接插入T0统计周期的全量对象集合TU0中得到T1周期的全量降序对象集合
Figure 795398DEST_PATH_IMAGE024
={
Figure 337238DEST_PATH_IMAGE025
union(并集)
Figure 570773DEST_PATH_IMAGE026
}。
S8.Tn周期数据分布式打散阶段。输入Tn周期对象ID数据Un
S9.对Un按照从大到小进行降序排列,将数据等分为K个子集,并按顺序依次存放到K个处理节点中。
S10.对每个处理节点中排第一位的对象ID与最后一位对象ID分别构成的序列
Figure 198063DEST_PATH_IMAGE027
Figure 237563DEST_PATH_IMAGE028
(其中,
Figure 899489DEST_PATH_IMAGE029
表示第n个统计周期下第j个处理节点中存储对象ID第一位的对象ID,
Figure 303925DEST_PATH_IMAGE030
表示第n个统计周期下第j个处理节点中存储对象ID最后一位的对象ID,m表示每个处理节点中存储的对象数量为m)。
S11.将
Figure 642679DEST_PATH_IMAGE031
Figure 485870DEST_PATH_IMAGE032
分别与上一周期全量对象集合中排第一位对象ID(最大的对象ID)
Figure 2302DEST_PATH_IMAGE033
对比,必然得到中点位置
Figure 577640DEST_PATH_IMAGE034
及对象ID(
Figure 913943DEST_PATH_IMAGE035
),而将
Figure 295246DEST_PATH_IMAGE035
前的每个处理节点对象按先后顺序进行合并得到新增对象集合
Figure 902070DEST_PATH_IMAGE036
,并且得到新增对象数量为
Figure 710626DEST_PATH_IMAGE037
。从而根据迭代公式,对象数
Figure 534226DEST_PATH_IMAGE038
和次数
Figure 656902DEST_PATH_IMAGE039
,输入上一周期的累计UV(
Figure 944664DEST_PATH_IMAGE040
)、累计PV(
Figure 127384DEST_PATH_IMAGE041
),从而根据迭代公式,计算Tn时刻累计对象数量
Figure 674165DEST_PATH_IMAGE042
,计算Tn时刻累计对象次数
Figure 600533DEST_PATH_IMAGE043
。同时,将Tn周期第一个子集的第一位的对象ID
Figure 742801DEST_PATH_IMAGE044
Figure 96422DEST_PATH_IMAGE045
组成新增对象集合
Figure 629035DEST_PATH_IMAGE046
,直接插入Tn-1统计周期的全量对象集合TUn-1中得到Tn周期的全量降序对象集合
Figure 155831DEST_PATH_IMAGE047
={
Figure 857333DEST_PATH_IMAGE048
union
Figure 381855DEST_PATH_IMAGE049
}。
S21.初始(T0)对象集合TU0及初始对象UV、初始PV获取阶段。输入S1的初始对象数据U0。采用去重方式并按对象ID从小到大进行排序得到初始全量对象集合TU0,采用MapReduce分布式方式计算初始累计UV(
Figure 198501DEST_PATH_IMAGE050
)、初始累计PV(
Figure 732251DEST_PATH_IMAGE051
)。
S22.T1周期数据分布式打散阶段。输入T1周期对象ID数据U1
S23.将U1随机等分为K个子集,并存放到K个处理节点中。
S24.将T0统计周期的全量去重对象集分别上传到K个处理节点中,对每个子集采用MapReduce的LeftJoin操作。
S25.得到每个处理节点的新增对象集合,记为:
Figure 521215DEST_PATH_IMAGE052
表示第1个统计周期第j个处理节点的新增对象集合,并统计每个新增对象集合的新增对象数量UV,记为:
Figure 46000DEST_PATH_IMAGE053
。从而得到当前周期新增对象集合为:
Figure 553205DEST_PATH_IMAGE054
,当前周期新增对象数量为:
Figure 687383DEST_PATH_IMAGE055
。对于T1周期的浏览量计算,则在每个处理节点中均采用MapReduce的count(聚合)操作,得到每个处理节点的浏览量PV,记为:
Figure 924329DEST_PATH_IMAGE056
。从而得到T1周期各个处理节点的浏览量为:
Figure 88856DEST_PATH_IMAGE057
,则T1周期的总浏览量为:
Figure 817778DEST_PATH_IMAGE058
。输入Step2的初始累计UV(
Figure 490068DEST_PATH_IMAGE001
)、初始累计PV(
Figure 315941DEST_PATH_IMAGE059
),从而根据迭代公式,计算T1时刻累计对象数量
Figure 448108DEST_PATH_IMAGE060
,计算T1时刻累计对象次数
Figure 523380DEST_PATH_IMAGE061
。同时,将T1周期新增对象集合
Figure 297563DEST_PATH_IMAGE062
,直接插入T0统计周期的全量对象集TU0中得到T1周期的全量降序对象集
Figure 712364DEST_PATH_IMAGE063
={
Figure 717229DEST_PATH_IMAGE064
union
Figure 933926DEST_PATH_IMAGE065
}。
S26.Tn周期数据分布式打散阶段。输入Tn周期对象ID数据Un
S27.将Un随机等分为K个子集,并存放到K个处理节点中。
S28.将Tn-1统计周期的全量去重对象集合分别上传到K个处理节点中,对每个子集采用MapReduce的LeftJoin操作。
S29.得到每个处理节点的新增对象集合,记为:
Figure 948019DEST_PATH_IMAGE066
表示第n个统计周期第j个处理节点的新增对象集合,并统计每个新增对象集合的新增对象数量UV,记为:
Figure 420588DEST_PATH_IMAGE067
。从而得到当前周期新增对象集合为:
Figure 861934DEST_PATH_IMAGE068
,当前周期新增对象数量为:
Figure 52744DEST_PATH_IMAGE069
。对于Tn周期的浏览量计算,则在每个服务其中均采用MapReduce的count操作,得到每个处理节点的浏览量PV,记为:
Figure 106413DEST_PATH_IMAGE070
。从而得到Tn周期各个处理节点的浏览量为:
Figure 495806DEST_PATH_IMAGE071
,则T1周期的总浏览量为:
Figure 780157DEST_PATH_IMAGE072
。输入上一周期的累计UV(
Figure 520580DEST_PATH_IMAGE073
)、累计PV(
Figure 814158DEST_PATH_IMAGE074
),从而根据迭代公式,计算Tn时刻累计对象数量
Figure 825101DEST_PATH_IMAGE075
,计算Tn时刻累计对象次数
Figure 545933DEST_PATH_IMAGE076
。同时,将Tn周期新增对象集合
Figure 508072DEST_PATH_IMAGE077
,直接插入T0统计周期的全量对象集合TUn-1中得到Tn周期的全量降序对象集
Figure 339762DEST_PATH_IMAGE078
={
Figure 969327DEST_PATH_IMAGE079
union
Figure 861059DEST_PATH_IMAGE080
}。
在本实施例中,通过判断数据类型,分别对数值型和字符串型的数据进行处理,对数值型的数据采取顺序等分成多个子集,与全量对象集合的目标最值进行比对;对字符串型的数据采取随机等分成多个子集,分别与全量对象集合进行比对,得到新增对象的集合,节约了数据处理所需要的时间,提高了数据处理的效率。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图9,其示出了本申请一个实施例提供的数据处理装置的框图。该装置具有实现上述方法示例的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是上文介绍的计算机设备,也可以设置在计算机设备中。如图9所示,该装置900可以包括:获取模块910、划分模块920和比对模块930。
获取模块910,用于获取历史时段内的全量对象集合以及当前周期的对象集合,所述全量对象集合包括所述历史时段内的全量对象的标识,所述当前周期的对象集合包括所述当前周期内的多个对象的标识。
划分模块920,用于将所述当前周期的对象集合划分为K个子集,所述子集中包括所述当前周期内的部分对象的标识,K为大于1的整数。
比对模块930,用于将所述K个子集分别与所述全量对象集合进行比对,得到所述当前周期的新增对象集合,所述当前周期的新增对象集合包括所述当前周期内出现且所述历史时段内未出现的对象的标识。
在一些实施例中,所述标识为数值型。如图10所示,所述比对模块930包括:最值获取单元931、最值对确定单元932、新增子集确定单元933、新增对象确定单元934和集合确定单元935。
最值获取单元931,用于获取所述子集中包含的标识的最大值和最小值,得到K个最值对。
最值对确定单元932,用于确定与目标最值对应的目标最值对;其中,所述目标最值是指所述全量对象集合中包含的标识的最值,所述目标最值大于或等于所述目标最值对中的最小值,且所述目标最值小于或等于所述目标最值对中的最大值。
新增子集确定单元933,用于确定包含的对象全部为新增对象的新增子集;其中,所述目标子集是指所述K个子集中与所述目标最值对对应的子集。
新增对象确定单元934,用于确定所述目标子集中包含的新增对象。
集合确定单元935,用于得到所述当前周期的新增对象集合。
可选地,所述新增对象确定单元934,用于:
以所述目标子集为初始的待检测集,获取所述待检测集中包含的各个对象的标识的中位数。
若所述目标最值与所述中位数不相等,则根据所述中位数将所述待检测集划分为第一检测子集和第二检测子集;根据所述目标最值与所述中位数的大小关系,确定所述目标最值所属的目标检测子集,所述目标检测子集是所述第一检测子集和所述第二检测子集中的一个;将所述目标检测子集作为更新后的待检测集,再次从所述获取所述待检测集中包含的各个对象的标识的中位数的步骤开始执行。
若所述目标最值与所述中位数相等,则根据所述中位数确定所述目标子集中包含的新增对象。
在一些实施例中,所述标识为字符串型。如图10所示,所述比对模块930包括:标识比对单元936和集合确定单元935。
标识比对单元936,用于将所述子集中包含的对象的标识与所述全量对象集合中包含的对象的标识进行比对,确定所述子集中包含的新增对象。
集合确定单元935,用于根据所述K个子集中分别包含的新增对象,确定所述当前周期的新增对象集合。
可选地,所述标识比对单元936,用于:将所述子集作为左表,所述全量对象集合作为右表,以对象的标识作为连接字段,确定所述左表和所述右表中有重合的重复子集;将所述子集去掉所述重复子集,得到所述子集中包含的新增对象。
在一些实施例中,所述标识为数值型。所述划分模块920,用于按照目标顺序对所述当前周期的对象集合中包含的各个对象的标识进行排序,得到标识序列;将所述标识序列等分为K个子序列,得到所述K个子集。
在一些实施例中,所述标识为字符串型。所述划分模块920,用于将所述当前周期的对象集合中包含的各个对象的标识,等分为K份,得到所述K个子集。
在一些实施例中,如图10所示,所述装置900还包括:
添加模块940,用于将所述当前周期的新增对象集合中包含的各个对象的标识,添加至所述全量对象集合中,得到更新后的全量对象集合。
在一些实施例中,采用分布式的K个处理节点,同步将所述K个子集分别与所述全量对象集合进行比对;其中,每一个处理节点用于将一个子集与所述全量对象集合进行比对。
在一些实施例中,如图10所示,所述装置900还包括确定模块950,用于:
根据所述当前周期的新增对象集合,确定所述当前周期的新增对象数量。
或者,
根据所述当前周期的新增对象集合,确定所述当前周期的新增对象数量;根据所述当前周期的新增对象数量和所述历史时段的累计对象数量,确定更新后的累计对象数量。
或者,
根据所述当前周期的新增对象集合,确定目标统计指标在所述当前周期的新增数量。
或者,
根据所述当前周期的新增对象集合,确定目标统计指标在所述当前周期的新增数量;根据所述目标统计指标在所述当前周期的新增数量,以及在所述历史时段的累计数量,确定所述目标统计指标更新后的累计数量。
其中,所述目标统计指标包括以下至少一项:浏览量、点击量搜索量。
综上所述,本申请实施例提供的技术方案,通过将当前周期的对象集合划分成多个子集,分别与全量对象集合进行比对,得到当前周期的新增对象集合,使得多个子集可以同步与全量对象集合进行比对,节约了数据处理所需要的时间,提高了数据处理的效率。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图11,其示出了本申请一个实施例提供的计算机设备1100的结构框图。具体来讲:计算机设备1100包括中央处理单元(英文:Central Processing Unit,简称:CPU)1101、包括随机存取存储器(英文:Random Access Memory,简称:RAM)1102和只读存储器(英文:Read-Only Memory,简称:ROM)1103的系统存储器1104,以及连接系统存储器1104和中央处理单元1101的系统总线1105。计算机设备1100还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1106,和用于存储操作系统1113、应用程序1114和其他程序模块1115的大容量存储设备1107。
基本输入/输出系统1106包括有用于显示信息的显示器1108和用于用户帐号输入信息的诸如鼠标、键盘之类的输入设备1109。其中显示器1008和输入设备1109都通过连接到系统总线1105的输入/输出控制器1110连接到中央处理单元1101。基本输入/输出系统1106还可以包括输入/输出控制器1110以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入/输出控制器1110还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备1107通过连接到系统总线1105的大容量存储控制器(未示出)连接到中央处理单元1101。大容量存储设备1107及其相关联的计算机可读介质为计算机设备1100提供非易失性存储。也就是说,大容量存储设备1007可以包括诸如硬盘或者只读光盘(英文:Compact Disc Read-Only Memory,简称:CD-ROM)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(英文:Erasable Programmable Read-Only Memory,简称:EPROM)、电可擦除可编程只读存储器(英文:Electrically Erasable Programmable Read-Only Memory,简称:EEPROM)、闪存或其他固态存储器技术,CD-ROM、数字通用光盘(英文:Digital Versatile Disc,简称:DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1107可以统称为存储器。
根据本申请的各种实施例,计算机设备1100还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1100可以通过连接在系统总线1105上的网络接口单元1111连接到网络1112,或者说,也可以使用网络接口单元1111来连接到其他类型的网络或远程计算机系统(未示出)。
在一示例性实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序在被处理器执行时以实现上数据处理方法。
可选地,该计算机可读存储介质可以包括:ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随机存取存储器)、SSD(Solid State Drives,固态硬盘)或光盘等。其中,随机存取存储器可以包括ReRAM(Resistance Random Access Memory,电阻式随机存取存储器)和DRAM(Dynamic Random Access Memory,动态随机存取存储器)。
在一示例性实施例中,还提供了一种计算机程序产品,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质中读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行上述数据处理方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本申请实施例对此不作限定。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (12)

1.一种数据处理方法,其特征在于,所述方法包括:
获取历史时段内的全量对象集合以及当前周期的对象集合,所述全量对象集合包括所述历史时段内的全量对象的标识,所述当前周期的对象集合包括所述当前周期内的多个对象的标识;
若所述标识为数值型,则按照升序对所述当前周期的对象集合中包含的各个对象的标识进行排序,得到标识序列;
将所述标识序列划分为K个子序列,得到K个子集,所述子集中包括所述当前周期内的部分对象的标识,K为大于1的整数;
将所述K个子集分别与所述全量对象集合进行比对,确定目标子集,所述目标子集是指所述K个子集中目标最值所在的子集,所述目标最值是指所述全量对象集合中包含的标识的最大值;
从所述K个子集中,根据所述目标子集确定包含的对象全部为新增对象的新增子集;
根据所述目标最值,确定所述目标子集中包含的新增对象;
根据所述新增子集和所述目标子集中包含的新增对象,得到所述当前周期的新增对象集合,所述当前周期的新增对象集合包括所述当前周期内出现且所述历史时段内未出现的对象的标识。
2.根据权利要求1所述的方法,其特征在于,所述将所述K个子集分别与所述全量对象集合进行比对,确定目标子集,包括:
对于所述K个子集中的每一个子集,获取所述子集中包含的标识的最大值和最小值,得到K个最值对;
从所述K个最值对中,确定与所述目标最值对应的目标最值对;其中,所述目标最值大于或等于所述目标最值对中的最小值,且所述目标最值小于或等于所述目标最值对中的最大值;
将所述K个子集中与所述目标最值对对应的子集,确定为所述目标子集。
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标最值,确定所述目标子集中包含的新增对象,包括:
以所述目标子集为初始的待检测集,获取所述待检测集中包含的各个对象的标识的中位数;
若所述目标最值与所述中位数不相等,则根据所述中位数将所述待检测集划分为第一检测子集和第二检测子集;根据所述目标最值与所述中位数的大小关系,确定所述目标最值所属的目标检测子集,所述目标检测子集是所述第一检测子集和所述第二检测子集中的一个;将所述目标检测子集作为更新后的待检测集,再次从所述获取所述待检测集中包含的各个对象的标识的中位数的步骤开始执行;
若所述目标最值与所述中位数相等,则根据所述中位数确定所述目标子集中包含的新增对象。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述标识为字符串型,则将所述当前周期的对象集合中包含的各个对象的标识,等分为K份,得到K个子集;
对于所述K个子集中的每一个子集,将所述子集中包含的对象的标识与所述全量对象集合中包含的对象的标识进行比对,确定所述子集中包含的新增对象;
根据所述K个子集中分别包含的新增对象,确定所述当前周期的新增对象集合。
5.根据权利要求4所述的方法,其特征在于,所述将所述子集中包含的对象的标识与所述全量对象集合中包含的对象的标识进行比对,确定所述子集中包含的新增对象,包括:
将所述子集作为左表,所述全量对象集合作为右表,以对象的标识作为连接字段,确定所述左表和所述右表中有重合的重复子集;
将所述子集去掉所述重复子集,得到所述子集中包含的新增对象。
6.根据权利要求1所述的方法,其特征在于,所述将所述标识序列划分为K个子序列,得到K个子集,包括:
将所述标识序列等分为所述K个子序列,得到所述K个子集。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:
将所述当前周期的新增对象集合中包含的各个对象的标识,添加至所述全量对象集合中,得到更新后的全量对象集合。
8.根据权利要求1至6任一项所述的方法,其特征在于,采用分布式的K个处理节点,同步将所述K个子集分别与所述全量对象集合进行比对;其中,每一个处理节点用于将一个子集与所述全量对象集合进行比对。
9.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:
根据所述当前周期的新增对象集合,确定所述当前周期的新增对象数量;
或者,
根据所述当前周期的新增对象集合,确定所述当前周期的新增对象数量;根据所述当前周期的新增对象数量和所述历史时段的累计对象数量,确定更新后的累计对象数量;
或者,
根据所述当前周期的新增对象集合,确定目标统计指标在所述当前周期的新增数量;
或者,
根据所述当前周期的新增对象集合,确定目标统计指标在所述当前周期的新增数量;根据所述目标统计指标在所述当前周期的新增数量,以及在所述历史时段的累计数量,确定所述目标统计指标更新后的累计数量;
其中,所述目标统计指标包括以下至少一项:浏览量、点击量、搜索量。
10.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取历史时段内的全量对象集合以及当前周期的对象集合,所述全量对象集合包括所述历史时段内的全量对象的标识,所述当前周期的对象集合包括所述当前周期内的多个对象的标识;
划分模块,用于若所述标识为数值型,则按照升序对所述当前周期的对象集合中包含的各个对象的标识进行排序,得到标识序列;将所述标识序列划分为K个子序列,得到K个子集,所述子集中包括所述当前周期内的部分对象的标识,K为大于1的整数;
比对模块,用于将所述K个子集分别与所述全量对象集合进行比对,确定目标子集,所述目标子集是指所述K个子集中目标最值所在的子集,所述目标最值是指所述全量对象集合中包含的标识的最大值;从所述K个子集中,根据所述目标子集确定包含的对象全部为新增对象的新增子集;根据所述目标最值,确定所述目标子集中包含的新增对象;根据所述新增子集和所述目标子集中包含的新增对象,得到所述当前周期的新增对象集合,所述当前周期的新增对象集合包括所述当前周期内出现且所述历史时段内未出现的对象的标识。
11.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至9任一项所述的数据处理方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如上述权利要求1至9任一项所述的数据处理方法。
CN202210321770.0A 2022-03-30 2022-03-30 数据处理方法、装置、设备及存储介质 Active CN114417085B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210321770.0A CN114417085B (zh) 2022-03-30 2022-03-30 数据处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210321770.0A CN114417085B (zh) 2022-03-30 2022-03-30 数据处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN114417085A CN114417085A (zh) 2022-04-29
CN114417085B true CN114417085B (zh) 2022-07-15

Family

ID=81263370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210321770.0A Active CN114417085B (zh) 2022-03-30 2022-03-30 数据处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114417085B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110737668A (zh) * 2019-12-17 2020-01-31 腾讯科技(深圳)有限公司 数据存储方法、数据读取方法、相关设备及介质
CN113878582A (zh) * 2021-10-29 2022-01-04 上海擎朗智能科技有限公司 机器人行驶控制方法、装置、机器人和存储介质
CN113900920A (zh) * 2021-12-06 2022-01-07 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108200354B (zh) * 2018-03-06 2020-09-25 Oppo广东移动通信有限公司 控制方法及装置、成像设备、计算机设备及可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110737668A (zh) * 2019-12-17 2020-01-31 腾讯科技(深圳)有限公司 数据存储方法、数据读取方法、相关设备及介质
CN113878582A (zh) * 2021-10-29 2022-01-04 上海擎朗智能科技有限公司 机器人行驶控制方法、装置、机器人和存储介质
CN113900920A (zh) * 2021-12-06 2022-01-07 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN114417085A (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
Ribeiro et al. A survey on subgraph counting: concepts, algorithms, and applications to network motifs and graphlets
Park et al. Parallel computation of skyline and reverse skyline queries using mapreduce
JP6377622B2 (ja) 位置情報を用いたデータのプロファイリング
JP5635691B2 (ja) 複数のシステムを用いたデータ解析
Wen et al. Efficient structural graph clustering: an index-based approach
CN107180031B (zh) 分布式存储方法及装置、数据处理方法及装置
CN110598061A (zh) 一种多元图融合的异构信息网嵌入方法
US7890705B2 (en) Shared-memory multiprocessor system and information processing method
Gialampoukidis et al. A hybrid framework for news clustering based on the DBSCAN-Martingale and LDA
CN103064991A (zh) 一种海量数据聚类方法
Egri et al. Cross-correlation based clustering and dimension reduction of multivariate time series
Schulz et al. On the necessity of graph kernel baselines
CN114417085B (zh) 数据处理方法、装置、设备及存储介质
Packiaraj et al. Hypar-fca: a distributed framework based on hybrid partitioning for fca
Tang et al. One edge at a time: A novel approach towards efficient transitive reduction computation on dags
CN109981630B (zh) 基于卡方检验和ldof算法的入侵检测方法及系统
CN110309367B (zh) 信息分类的方法、信息处理的方法和装置
CN110609901A (zh) 一种基于向量化特征的用户网络行为预测方法
Czech et al. Distributed computing of distance‐based graph invariants for analysis and visualization of complex networks
CN117689451B (zh) 一种基于Flink的流式向量搜索方法及装置、系统
Yin et al. Streaming breakpoint graph analytics for accelerating and parallelizing the computation of dcj median of three genomes
Tzovas et al. Distributing sparse matrix/graph applications in heterogeneous clusters-an experimental study
CN113971160A (zh) 一种数据融合处理方法、装置、设备及存储介质
CN113448733A (zh) 数据处理方法及系统
CN114780779A (zh) 一种图像搜索方法、装置、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40071026

Country of ref document: HK