CN116955461A - 一种数据处理方法和相关装置 - Google Patents
一种数据处理方法和相关装置 Download PDFInfo
- Publication number
- CN116955461A CN116955461A CN202211666067.XA CN202211666067A CN116955461A CN 116955461 A CN116955461 A CN 116955461A CN 202211666067 A CN202211666067 A CN 202211666067A CN 116955461 A CN116955461 A CN 116955461A
- Authority
- CN
- China
- Prior art keywords
- data
- object behavior
- window
- sequence
- behavior data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 100
- 238000000034 method Methods 0.000 claims abstract description 87
- 230000006399 behavior Effects 0.000 claims description 452
- 238000005192 partition Methods 0.000 claims description 85
- 238000003860 storage Methods 0.000 claims description 20
- 230000002452 interceptive effect Effects 0.000 claims description 18
- 238000012216 screening Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 15
- 238000001914 filtration Methods 0.000 claims description 15
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 14
- 230000008569 process Effects 0.000 description 34
- 238000005516 engineering process Methods 0.000 description 19
- 238000012549 training Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 230000002776 aggregation Effects 0.000 description 7
- 238000004220 aggregation Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000003993 interaction Effects 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开一种数据处理方法和相关装置,可应用于人工智能等各种场景,当窗口序列中的前i‑1个窗口数据确定的数据文件不满足预设结束条件时,首先从数据文件包括的对象行为数据对应的对象中确定目标对象,目标对象可以是指在数据文件中的对象行为数据已经足够生成满足要求的对象行为序列的那部分对象。在对第i个窗口数据进行处理时,首先过滤掉第i个窗口数据中目标对象的对象行为数据,得到第i个待定窗口数据,进而筛选第i个待定窗口数据所包括的对象行为数据中满足固定长度的对象行为数据写入数据文件,得到更新后数据文件。基于此,无需对目标对象在第i个窗口数据中的对象行为数据进行处理,从而可以减少数据处理量,提高数据处理效率。
Description
技术领域
本申请涉及数据处理技术领域,特别是涉及一种数据处理方法和相关装置。
背景技术
对象行为序列可以是指对象基于互联网在对交互载体进行操作使用过程中产生的行为的分布,能够反映对象的习惯偏好等。其中,对象可以是指用户,交互载体可以是网站、应用程序等。比如,对象在浏览网站或应用程序等的操作使用过程中产生的如点击、播放、评论、登录等行为,可以构建对象的对象行为序列。
在推荐、搜索以及增长等领域,对象行为序列具有重要的作用,比如,利用对象的对象行为序列为对象确定可能感兴趣的内容等。在实际应用中,通常会利用对象行为序列进行模型训练得到相应的模型,该模型用于确定对象可能感兴趣的内容,为了提高模型训练效果,通常规定对象行为序列需要满足固定长度。
然而,相关技术中所采用的对象行为序列提取方法的数据处理效率低,尤其在数据量较大的业务场景中。
发明内容
为了解决上述技术问题,本申请提供了一种一种数据处理方法和相关装置,能够减少数据处理量,提高数据处理效率。
本申请实施例公开了如下技术方案:
一方面,本申请实施例提供一种数据处理方法,所述方法包括:
获取窗口序列;所述窗口序列包括M个窗口数据,所述M为大于1的整数;
若根据所述窗口序列中的前i-1个窗口数据确定的数据文件不满足预设结束条件,从所述数据文件包括的对象行为数据对应的对象中确定目标对象;所述数据文件包括的对象行为数据是所述前i-1个窗口数据所包括的对象行为数据中满足固定长度的对象行为数据,i为大于1且小于或等于M的整数;
过滤掉所述窗口序列中的第i个窗口数据中所述目标对象的对象行为数据,得到第i个待定窗口数据;
从所述第i个待定窗口数据所包括的对象行为数据中筛选满足所述固定长度的对象行为数据写入所述数据文件,得到更新后数据文件;
当所述更新后数据文件满足所述预设结束条件时,根据所述更新后数据文件确定对象行为序列。
又一方面,本申请实施例提供一种数据处理装置,所述装置包括获取单元、确定单元、过滤单元和筛选单元:
所述获取单元,用于获取窗口序列;所述窗口序列包括M个窗口数据,所述M为大于1的整数;
所述确定单元,用于若根据所述窗口序列中的前i-1个窗口数据确定的数据文件不满足预设结束条件,从所述数据文件包括的对象行为数据对应的对象中确定目标对象;所述数据文件包括的对象行为数据是所述前i-1个窗口数据所包括的对象行为数据中满足固定长度的对象行为数据,i为大于1且小于或等于M的整数;
所述过滤单元,用于过滤掉所述窗口序列中的第i个窗口数据中所述目标对象的对象行为数据,得到第i个待定窗口数据;
所述筛选单元,用于从所述第i个待定窗口数据所包括的对象行为数据中筛选满足所述固定长度的对象行为数据写入所述数据文件,得到更新后数据文件;
所述确定单元,还用于当所述更新后数据文件满足所述预设结束条件时,根据所述更新后数据文件确定对象行为序列。
另一方面,本申请实施例提供一种计算机设备,所述计算机设备包括处理器以及存储器:
所述存储器用于存储计算机程序,并将所述计算机程序传输给所述处理器;
所述处理器用于根据所述计算机程序中的指令执行前述任一方面所述的方法。
另一方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行前述任一方面所述的方法。
另一方面,本申请实施例提供一种计算机程序产品,包括计算机程序,当其在计算机设备上运行时,使得所述计算机设备执行时实现前述任一方面所述的方法。
由上述技术方案可以看出,首先获取窗口序列,该窗口序列包括M个窗口数据。当窗口序列中的前i-1个窗口数据确定的数据文件不满足预设结束条件时,由于数据文件包括的对象行为数据是前i-1个窗口数据所包括的对象行为数据中满足固定长度的对象行为数据,因此,数据文件不满足预设结束条件表明还需要加载窗口序列中的第i个窗口数据,以继续筛选满足固定长度的对象行为数据。此时,可以首先从数据文件包括的对象行为数据对应的对象中确定目标对象,目标对象可以是指在数据文件中的对象行为数据已经足够生成满足要求的对象行为序列的那部分对象,因此,在对第i个窗口数据进行处理时,可以首先过滤掉第i个窗口数据中目标对象的对象行为数据,得到第i个待定窗口数据,进而筛选第i个待定窗口数据所包括的对象行为数据中满足固定长度的对象行为数据写入数据文件,得到更新后数据文件。基于此,无需对目标对象在第i个窗口数据中的对象行为数据进行处理,从而可以减少数据处理量,提高数据处理效率。同时,当更新后数据文件满足预设结束条件时,可以结束处理,并根据更新后数据文件确定对象行为序列,若此时还未处理到第M个窗口数据,即i小于M,则无需再对剩余的窗口数据进行处理,同样可以减少数据处理量,提高数据处理效率。
附图说明
为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术成员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种数据处理方法的应用场景示意图;
图2为本申请实施例提供的一种数据处理方法的流程图;
图3为一种基于全量数据加载与固定长度截取的对象行为序列提取方法的逻辑示意图;
图4为本申请实施例提供的一种数据处理方法的逻辑示意图;
图5为本申请实施例提供的一种数据处理装置的结构图;
图6为本申请实施例提供的一种终端设备的结构图;
图7为本申请实施例提供的一种服务器的结构图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
随着互联网技术的发展,在推荐、搜索以及增长等领域,如何为对象优先展示对象可能感兴趣的内容,对于提高对象体验以及推荐、搜索、增长的效果,具有重要意义。其中,对象可以是指用户。
对象行为序列可以是指对象基于互联网在对交互载体进行操作使用过程中产生的行为的分布,能够反映对象的习惯偏好等,因此,可以利用对象的对象行为序列确定对象可能感兴趣的内容。其中,交互载体可以是网站、应用程序等,行为可以是指对象在浏览网站或应用程序等的操作使用过程中产生的如点击、播放、评论、登录等,基于此可以构建对象的对象行为序列。具体的,网站可以是指搜索网站,应用程序可以是指视频播放APP(Application,应用程序)。比如,对象在某视频播放APP的操作使用过程中产生的播放行为,能够反映对象在播放视频方面的习惯偏好等,故可以构建对象在视频播放方面的对象行为序列,后续便可以利用对象行为序列为该对象确定可能感兴趣的视频内容。在实际应用中,可以通过该视频播放APP将确定出的对象可能感兴趣的视频内容优先展示给对象,以便该对象可以快速便捷地观看到自己感兴趣的视频内容。
在实际应用中,通常会利用对象行为序列进行模型训练得到相应的模型,该模型用于确定对象可能感兴趣的内容,为了提高模型训练效果,通常规定对象行为序列需要满足固定长度。其中,固定长度可以用于限定一条对象行为序列中所包括的目标行为的数量,目标行为可以是指更能反映对象在当前应用场景中的习惯偏好的行为。在具体实施时,目标行为可以是根据应用场景从对象的诸多行为中确定出的,比如,在视频推荐的应用场景中,对象在视频播放APP中产生了播放行为和登录行为,播放行为更能反映对象在视频播放方面的习惯偏好,此时,可以选择播放行为作为目标行为,相应可以利用播放行为构建对象行为序列。
通常,可以利用交互载体记录的对象行为原始日志提取满足固定长度的对象行为序列,对象行为原始日志可以是指交互载体运行过程中产生的运营流水,对象行为原始日志中包括对象行为数据,对象行为数据可以用于记载对象所产生的行为。其中,交互载体在一段时间内的对象行为原始日志可以记录有交互载体在这段时间内的全体对象的对象行为数据。
相关技术中,通常采用全量数据加载与固定长度截取的方式提取对象行为序列。具体的,通过全量数据加载的方式一次性加载交互载体在一段时间内的全部的对象行为数据,然后通过固定长度截取的方式从中提取出满足固定长度的对象行为数据,对于超出固定长度的对象行为数据进行长度截断,最终获得固定长度的对象行为数据以构建对象行为序列。
在实际应用中,对于一个对象而言,需要一定数量的对象行为序列即可。可以理解的是,活跃对象在一段时间内产生的对象行为数据的数据量比较大,对于活跃对象而言,可能利用部分对象行为数据即可提取出一定数量的对象行为序列。然而,相关技术中的方法,需要对全部的对象行为数据进行处理,由此可见,对于活跃对象而言,相关技术中的方法会存在大量的重复计算,造成数据处理效率低,尤其是在活跃对象占比较高使得数据量较大的业务场景中。
为此,本申请实施例提供了一种数据处理方法和相关装置,在提取对象行为序列时,首先获取窗口序列,该窗口序列包括M个窗口数据,M个窗口数据可以是利用交互载体在一段时间内的对象行为原始日志所包括的全部的对象行为数据确定的。基于此,可以一次性只加载一个窗口数据,无需一次性加载全部的对象行为数据,从而在对第i个窗口数据处理时,可以首先过滤掉第i个窗口数据中目标对象的对象行为数据,得到第i个待定窗口数据。其中,目标对象是指利用前i-1个窗口数据确定的数据文件中的对象行为数据已经足够生成满足要求(例如满足一定数量)的对象行为序列的那部分对象,在实际应用中,目标对象可以是指活跃对象。进而从第i个待定窗口数据中继续筛选满足固定长度的对象行为数据。基于此,无需对目标对象在第i个窗口数据中的对象行为数据进行处理,从而可以减少数据处理量,提高数据处理效率。尤其是在活跃对象占比较高使得数据量较大的业务场景中,能够避免大量的重复计算,提高数据处理效率。
本申请实施例所提供的数据处理方法可以通过计算机设备实施,该计算机设备可以是终端设备或服务器,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端设备等。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。本发明实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
本申请实施例可应用于各种需要为对象确定可能感兴趣的内容的场景,如推荐场景、搜索场景、增长场景等。
需要说明的是,在本申请的具体实施方式中,进行数据处理的过程中有可能会涉及到用户信息等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本申请可以应用于人工智能领域,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
本申请实施例主要涉及机器学习等方向。机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
图1示出了本申请实施例提供的数据处理方法的应用场景示意,在图1所示的场景中,以服务器100作为前述计算机设备的示例进行说明:
首先,服务器100可以获取窗口序列,该窗口序列可以包括M个窗口数据,M为大于1的整数。通常,M个窗口数据可以是利用交互载体在一段时间内的对象行为原始日志所包括的全部的对象行为确定的,每个窗口数据中均包括有对象行为数据。基于此,在数据处理时,可以一次性只加载一个窗口数据,无需一次性加载全部的对象行为数据。相较于相关技术中基于全量数据加载的方法,由于一次性加载的数据量较小,故在计算资源有限的情况下,具有更高的灵活性以及稳定性。
当根据窗口序列中的前i-1个窗口数据确定的数据文件不满足预设结束条件时,由于数据文件包括的对象行为数据是前i-1个窗口数据所包括的对象行为数据中满足固定长度的对象行为数据,预设结束条件可以用于判断数据文件包括的对象行为数据是否能够提取到满足要求的对象行为序列。因此,数据文件不满足预设结束条件时,表明利用前i-1个窗口数据无法提取到满足要求的对象行为序列,故还需要加载下一个窗口数据以继续提取。此时,服务器100可以从数据文件包括的对象行为数据对应的对象中确定目标对象,目标对象可以是指在数据文件中的对象行为数据已经足够生成满足要求的对象行为序列的那部分对象。
然后,在对第i个窗口数据进行处理时,服务器100可以首先过滤掉第i个窗口数据中目标对象的对象行为数据,得到第i个待定窗口数据。进一步,服务器100可以从第i个待定窗口数据所包括的对象行为数据中继续筛选满足固定长度的对象行为数据,并写入数据文件,得到更新后数据文件。基于此,无需对目标对象在第i个窗口数据中的对象行为数据进行处理,从而可以减少数据处理量,提高数据处理效率。
最后,当更新后数据文件满足预设结束条件时,表明利用更新后数据文件即可提取到满足要求的对象行为序列,此时服务器100可以结束处理,并根据更新后数据文件确定对象行为序列。
需要说明的是,若更新后数据文件不满足预设结束条件,则表明还需加载下一个窗口数据以继续提取。此时,服务器100可以重复执行上述过程,对第i+1个窗口数据进行过滤得到第i+1个待定窗口数据,而后对第i+1个待定窗口数据进行筛选等步骤,直至更新后数据文件满足预设结束条件时结束处理。
可以理解的是,当更新后数据文件满足预设结束条件时,若此时还未处理到第M个窗口数据,则服务器100无需再对剩余的窗口数据进行处理。相较于相关技术中基于全量数据加载的方法,同样可以减少数据处理量,提高数据处理效率。
图2为本申请实施例提供的一种数据处理方法的流程图,以服务器作为前述计算机设备的示例进行说明,所述方法包括S201-S204:
S201:获取窗口序列。
在提取对象行为序列时,服务器可以首先获取窗口序列,该窗口序列包括M个窗口数据,M为大于1的整数。其中,M个窗口数据中的每个窗口数据可以包括对象的对象行为数据,对象可以是指用户,对象行为数据可以是指记录有对象的行为的数据。
需要说明的是,针对M的设置,本申请不做任何限定。比如,可以根据服务器计算资源或计算节点的算力设置M,具有更高的灵活性,便于优化数据处理过程。
S202:若根据窗口序列中的前i-1个窗口数据确定的数据文件不满足预设结束条件,从数据文件包括的对象行为数据对应的对象中确定目标对象。
其中,i为大于1且小于或等于M的整数。数据文件可以是根据前i-1个窗口数据确定的,用于存储对象行为数据,且数据文件包括的对象行为数据是前i-1个窗口数据所包括的对象行为数据中满足固定长度的对象行为数据。若数据文件不满足预设结束条件,表明前i-1个窗口数据还不能够提取出满足要求的对象行为序列,即,还需要加载窗口序列中的第i个窗口数据,以继续筛选满足固定长度的对象行为数据。此时,服务器可以从数据文件包括的对象行为数据对应的对象中确定目标对象,以便后续对第i个窗口数据进行处理,目标对象可以是指在数据文件中的对象行为数据已经足够生成满足要求的对象行为序列的那部分对象。
需要说明的是,对于如何从数据文件包括的对象行为数据对应的对象中确定目标对象,本申请实施例不做任何限定。为了便于理解,本申请实施例提供以下方式作为示例:
在一种可能的实现方式中,服务器首先可以将数据文件包括的对象行为数据对应的对象作为待定对象,进一步,服务器可以统计待定对象在数据文件中的对象行为数据的数量。当一个对象在数据文件中存储的对象行为数据的数量大于或等于预设数量时,则可以认为数据文件中存储的对象行为数据已经足够生成该对象的满足要求的对象行为序列,因此,服务器可以将对象行为数据的数量大于或等于预设数量的待定对象确定为目标对象。基于此,可以根据数据文件中各对象的对象行为数据的数量筛选目标对象。
其中,预设数量可以根据实际需求进行设置,本申请不做任何限定。比如,可以将预设数量设置为1,此时,目标对象即为全部的待定对象。又如,可以将预设数量设置为大于1的整数,也就是说,对于任意一个对象,对应需要多条满足固定长度的对象行为数据。
此外,预设结束条件可以是预先设置的,作为用于判断是否结束处理的参考。需要说明的是,对于如何设置预设结束条件,本申请不做任何限定。为了便于理解,本申请实施例提供以下方式作为示例:
在实际应用中,若能够提取出一定数量的对象的对象行为序列,则可以认为完成处理。因此,在一种可能的实现方式中,服务器可以首先统计M个窗口数据所包括对象的数量作为全体对象数量,进而将目标对象的数量与全体对象数量的比值大于或等于预设比值确定为预设结束条件。基于此,可以根据数据文件是否满足预设结束条件,确定是否还需要继续处理,当其满足预设结束条件时,则可以结束处理,若此时还未处理到第M个窗口数据,则无需再对剩余的窗口数据进行处理,同样可以减少数据处理量,提高数据处理效率。比如,可以将预设比值设置为99%,以M=30为例,当处理完第10个窗口数据后得到的数据文件满足预设结束条件,即,此时的当数据文件包括的对象行为数据足够生成99%的对象的对象行为序列,故可以结束处理,无需再对剩余的20个窗口数据进行处理,从而减少数据处理量,提高数据处理效率。
S203:过滤掉窗口序列中的第i个窗口数据中目标对象的对象行为数据,得到第i个待定窗口数据。
S204:从第i个待定窗口数据所包括的对象行为数据中筛选满足固定长度的对象行为数据写入数据文件,得到更新后数据文件。
在确定出目标对象之后,服务器可以对窗口序列中的第i个窗口数据进行处理,以继续筛选满足固定长度的对象行为数据。在具体实施时,服务器可以首先过滤掉窗口序列中第i个窗口数据中目标对象的对象行为数据,得到第i个待定窗口数据。进而,服务器可以从第i个待定窗口数据所包括的对象行为数据中筛选满足固定长度的对象行为数据写入数据文件,得到更新后数据文件。基于此,无需对目标对象在第i个窗口数据中的对象行为数据进行处理,从而可以减少数据处理量,提高数据处理效率。
需要说明的是,对于如何滤掉窗口序列中第i个窗口数据中目标对象的对象行为数据的方式,本申请不做任何限定。比如,可以根据目标对象的对象标识,从第i个窗口数据所包括的对象行为数据中过滤掉对象标识为目标对象的对象标识的那部分对象行为数据,从而实现过滤,得到第i个待定窗口数据。
针对第i个待定窗口数据中不满足固定长度的对象行为数据,还可以通过聚合处理的方式,继续提取该窗口数据中能够满足固定长度的对象行为数据,从而提高数据利用率。在具体实施时,服务器可以首先将第i个待定窗口数据所包括的对象行为数据中不满足固定长度的对象行为数据作为待聚合对象行为数据。进一步,服务器可以根据待聚合对象行为数据对应的对象标识,将对象标识相同的待聚合对象行为数据进行聚合,得到聚合后的对象行为数据,由此,可以将同一对象的待聚合对象行为数据聚合处理得到聚合后的对象行为数据。最后,服务器可以从聚合后的对象行为数据中筛选满足固定长度的对象行为数据写入更新后数据文件。基于此,针对不满足固定长度的对象行为数据,通过聚合处理的方式,使得在当前窗口数据中,可能进一步提取出满足固定长度的对象行为数据,从而提高数据利用率。
需要说明的是,针对将对象标识相同的待聚合对象行为数据进行聚合所采用的方式,本申请实施例不做任何限定。比如,可以采用Reduce算法语句或Groupby算法语句,对待聚合对象行为数据进行聚合。在实际应用中,为了便于聚合,可以首先对待聚合对象行为数据进行重新排序,比如按照对象标识进行重新排序等,重新排序后,可以采用Reduce算法语句进行聚合,具有更高的聚合效率。
S205:当更新后数据文件满足预设结束条件时,根据更新后数据文件确定对象行为序列。
更新后数据文件中新增了第i个待定窗口数据中的满足固定长度的对象行为数据,得到更新后数据文件之后,服务器可以继续对更新后数据文件进行是否满足预设结束条件的判断,以便确定是否结束处理。在具体实施时,当更新后数据文件满足预设结束条件时,表明可以结束处理,此时服务器可以根据更新后数据文件确定对象行为序列,以便于将对象行为序列应用于推荐场景等。同样的,若更新后数据文件不满足预设结束条件,表明还需加载下一个窗口数据,此时,服务器可以重复执行上述过程,对第i+1个窗口数据进行过滤得到第i+1个待定窗口数据,而后对第i+1个待定窗口数据进行筛选等步骤,直至更新后数据文件满足预设结束条件时结束处理。
需要说明的是,对于如何根据更新后数据文件确定对象行为序列的方式,本申请不做任何限定。为了便于理解,本申请实施例提供以下方式作为示例:
在实际应用中,一般会先利用对象行为序列进行模型训练,为了提高训练效果,对于同一对象,通常需要一定数量条的满足固定长度的对象行为数据构建该对象的对象行为序列。因此,在一种可能的实现方式中,可以根据模型训练需求设置预设数量N,进而在确定对象行为序列时,对于任一目标对象,可以从更新后数据文件中存储的该目标对象的全部对象行为数据中截取N条对象行为数据,以生成该目标对象的对象行为序列。基于此,每一个对象的对象行为序列均是由相同数量的满足固定长度的对象行为数据生成的,对于模型训练而言,对应的训练样本之间的样本差异较小,有利于提高模型训练效果。其中,N为正整数,需要说明的是,对于N的设置,本申请实施例不做任何限定。
在具体实施时,由于更新后数据文件中新增了满足固定长度的对象行为数据,故在确定对象行为序列时,服务器可以首先从更新后数据文件包括的对象行为数据对应的对象中,重新确定目标对象,得到更新后目标对象,基于此,确定出最新的目标对象。同时,为了使得对象行为序列更能准确反映对象的习惯偏好等,可以截取发生时间最近的N条对象行为数据,由此使得对象行为序列是根据对象最近的N条对象行为数据构建的,更能准确反映对象的习惯偏好等。因此,服务器可以按照更新后数据文件中的对象行为数据的发生时间从大到小的顺序,对更新后目标对象在更新后数据文件中的对象行为数据进行排序,得到更新后目标对象的对象行为数据序列。最后,服务器可以截取对象行为数据序列中排在前N位的对象行为数据,作为更新后目标对象的对象行为序列。基于此,截取到的N条对象行为数据是发生时间最近的,利用最近的N条对象行为数据构建的对象行为序列更能准确反映对象的习惯偏好等,由此,在后续利用对象行为序列为对象提供如推荐、搜索等服务时,效果更好。
在提取出对象行为序列之后,服务器还可以利用对象行为序列,从待定内容中确定目标内容。其中,待定内容可以是指内容池中的全部内容,比如在视频推荐场景中,待定内容可以是指视频内容池中的全部视频内容,目标内容可以是指从待定内容中确定的、与对象行为序列所对应的对象的习惯偏好相符合的内容,即,目标内容可以是指该对象可能感兴趣的内容。最后,服务器可以向对象行为序列对应的对象展示目标内容,以便于该对象能够更为便捷地获取到自己感兴趣的内容。
在实际应用中,还可以根据使用场景中的业务需求定义关键的核心字段数据,比如可以是以关键词的形式定义关键的核心字段数据,核心字段数据可以是指在当前使用场景中,能够从侧面反映对象的习惯偏好等一些字段。基于此,可以通过定义核心字段数据的方式,丰富对象的习惯偏好等表现层面,便于为对象提供更好的服务。比如,在视频推荐场景中,对象播放某视频后,播放时长能够反映对象更为喜欢观看长视频、还是短视频等习惯偏好,此时,可以将播放时长定义为关键的核心字段数据。
由上述技术方案可以看出,首先获取窗口序列,该窗口序列包括M个窗口数据。当窗口序列中的前i-1个窗口数据确定的数据文件不满足预设结束条件时,由于数据文件包括的对象行为数据是前i-1个窗口数据所包括的对象行为数据中满足固定长度的对象行为数据,因此,数据文件不满足预设结束条件表明还需要加载窗口序列中的第i个窗口数据,以继续筛选满足固定长度的对象行为数据。此时,可以首先从数据文件包括的对象行为数据对应的对象中确定目标对象,目标对象可以是指在数据文件中的对象行为数据已经足够生成满足要求的对象行为序列的那部分对象,因此,在对第i个窗口数据进行处理时,可以首先过滤掉第i个窗口数据中目标对象的对象行为数据,得到第i个待定窗口数据,进而筛选第i个待定窗口数据所包括的对象行为数据中满足固定长度的对象行为数据写入数据文件,得到更新后数据文件。基于此,无需对目标对象在第i个窗口数据中的对象行为数据进行处理,从而可以减少数据处理量,提高数据处理效率。同时,当更新后数据文件满足预设结束条件时,可以结束处理,并根据更新后数据文件确定对象行为序列,若此时还未处理到第M个窗口数据,即i小于M,则无需再对剩余的窗口数据进行处理,同样可以减少数据处理量,提高数据处理效率。
在以上介绍的实施例中,窗口序列可以包括M个窗口数据。需要说明的的是,针对M个窗口数据的确定方式以及针对窗口序列中的M个窗口数据的排序方式,本申请均不做任何限定,下面将一一介绍:
首先,对M个窗口数据的确定方式进行介绍。为了便于理解,本申请实施例提供以下确定方式作为示例:
对象行为数据可以用于记录对象在使用交互载体的过程中产生的行为,在实际应用中,交互载体的对象行为原始日志作为交互载体运行过程中产生的运营流水,通常记录了交互载体中对象的行为。因此,在一种可能的实现方式中,可以利用交互载体的对象行为原始日志确定M个窗口数据。在具体实施时,服务器可以首先获取交互载体在预设时段内的对象行为原始日志,对象行为原始日志中记录有对象行为数据的发生时间,对象行为数据的发生时间可以是指对象行为发生的时刻。可以理解的是,在实际应用中,对象行为原始日志中记录的对象行为数据非常多,为了便于后续处理,服务器可以按照对象行为数据的发生时间对对象行为原始日志进行分区,得到对象行为分区数据,对象行为分区数据包括分区时间,分区时间作为对象行为分区数据的时间标识,能够反映对象行为分区数据中的对象行为数据的发生时间。基于此,完成对对象行为原始日志的分区处理。在得到对象行为分区数据之后,服务器可以根据对象行为分区数据的分区时间确定M个窗口数据,其中,M个窗口数据中的每个窗口数据对应一个窗口时间,M个窗口数据的窗口时间各不相同,窗口时间是根据分区时间确定的。每个窗口数据的窗口时间作为各窗口数据的时间标识,能够反映各窗口数据中的对象行为数据的发生时间。基于此,可以直接利用交互载体的对象行为原始日志确定M个窗口数据,更为便捷。
为了便于理解,以交互载体为视频播放APP、预设时段为2022年06月01日-2022年06月30日为例,对该视频播放APP在此期间的对象行为原始日志进行处理后,即可得到对象行为分区数据,参见下表所示(仅为示例):
序号 | 分区时间 | 发生时间 | 用户ID | 视频ID | 播放时长 | 播放页面 |
1 | 2022061012 | 20220612 12:00:30 | U1 | Abc | 100 | 精选 |
2 | 2022061013 | 20220612 13:08:12 | U2 | xyz | 1200 | 电影 |
3 | 2022061014 | 20220612 14:32:30 | U3 | abc | 300 | 精选 |
4 | 2022061014 | 20220612 14:58:30 | U1 | opq | 400 | 短视频 |
5 | 2022061014 | 20220612 14:58:30 | U3 | opq | 600 | 短视频 |
其中,发生时间用于记录用户在使用视频播放APP过程中产生的播放行为的播放时刻,比如“20220612 14:32:30”即表示用户ID(Identity Document,身份标识号码)为“U3”的用户在2022年06月12日14点32分30秒播放了视频ID为“abc”的这个精选视频,其播放时长为300秒。另外,序号为3、4、5的对象行为数据对应有相同的分区时间“2022061014”,相应的,同一分区时间对应的对象行为数据可以共同构成对象行为分区数据。
需要说明的是,针对如何根据对象行为分区数据的分区时间确定M个窗口数据的方式,本申请不做任何限定。比如,在实际应用中,M通常可以是根据服务器计算资源或计算节点的算力设置的,可以认为是与服务器当前算力最为适配的,因此,可以根据对象行为分区数据的分区时间对多个对象行为分区数据进行灵活地拆分或合并等处理,以确定M个窗口数据。为了便于理解,本申请实施例以对象行为分区数据包括X个对象行为分区数据为例,提供以下方式作为示例:
若X为大于M的整数,表明对象行为分区数据的分区数大于M个,此时服务器可以按照X个对象行为分区数据的分区时间,对X个对象行为分区数据进行合并处理,得到M个窗口数据。若X为小于M的正整数,表明对象行为分区数据的分区数少于M个,此时服务器可以按照X个对象行为分区数据的分区时间,对X个对象行为分区数据进行拆分处理,得到M个窗口数据。若X等于M,表明对象行为分区数据的分区数刚好M个,此时服务器可以直接将X个对象行为分区数据作为M个窗口数据。基于此,在不同情况下,能够灵活采用拆分、合并等处理方式,利用对象行为分区数据确定出M个窗口数据,使得在后续处理中能够与服务器当前算力更为适配,提高数据处理的稳定性,并降低重试的成本,尤其在服务器计算资源有限或者计算资源负载较高的情况下。
针对如何根据对象行为分区数据的分区时间对X个对象行为分区数据进行合并处理或拆分处理,本申请实施例不做任何限定。为了便于理解,本申请实施例提供以下方式作为示例:
在一种可能的实现方式中,可以先对X个对象行为分区数据按照分区时间从小到大的顺序进行排序,再结合X个对象行为分区数据的数据大小对其进行合并处理或拆分处理,得到M个窗口数据。首先,从数量层面来看,进行合并处理或拆分处理使得最终得到的即为M个,可以认为是与服务器当前算力最为适配的。其次,从数据大小层面来看,结合对象行为分区数据的数据大小进行合并处理或拆分处理,可以使得最终得到的M个窗口数据中的每个窗口数据对应的数据大小较为均衡,使得在后续的数据处理过程中,每加载一个窗口数据对服务器的处理负载影响较小,有利于服务器稳定运行。
比如,X=45,M=30,结合45个对象行为分区数据的数据大小,可以将第1-5个对象行为分区数据合并为第1个窗口数据,将第6-8个对象行为分区数据合并为第2个窗口数据,将第9个对象行为分区数据作为第3个窗口数据,……,以此类推,最终得到30个窗口数据。又如,X=20,M=30,结合20个对象行为分区数据的数据大小,可以将第1个对象行为分区数据作为第1个窗口数据,将第2个对象行为分区数据作为第2个窗口数据,将第3个对象行为分区数据拆分处理为第3个窗口数据和第4个窗口数据,……,以此类推,最终得到30个窗口数据。
其次,对窗口序列中的M个窗口数据的排序方式进行介绍。为了便于理解,本申请实施例提供以下排序方式作为示例:
比如,M个窗口数据可以按照各个窗口数据对应的窗口时间进行排序。又如,M个窗口数据可以按照各个窗口数据对应的数据量进行排序。
在实际应用中,当M个窗口数据按照各个窗口数据对应的窗口时间进行排序时,在一种可能的实现方式中,可以按照窗口时间从小到大的顺序排列的。基于此,在后续处理时,从第1个窗口数据依次处理到第M个窗口数据的过程可以认为是一种正向滚动的方式。
在又一种可能的实现方式中,还可以按照M个窗口数据的窗口时间从大到小的顺序,对M个窗口数据进行排序,得到窗口序列。基于此,在后续处理时,从第1个窗口数据依次处理到第M个窗口数据的过程可以认为是一种逆向滚动的方式。在整个过程中,优先处理时间最近的窗口数据,基于此,数据文件中存储的目标对象的对象行为数据即为目标对象最近的对象行为数据。也就是说,逆向滚动的方式能够更为快速地提取出对象的最近的N条对象行为数据构建对象行为序列,以准确反映对象的习惯偏好等,数据处理效率更高。尤其是针对活跃用户,能够稳定快速地提取出活跃用户的最近的N条对象行为数据,减少了重读读取历史数据的问题,减少数据处理量,优化了数据处理过程。在活跃用户占比越高的情况下,优化效果越明显,在实际应用中,采用逆向滚动的方式之后,平均可以提高约30%以上的数据处理效率。
为了便于理解,以交互载体在2022年06月01日-2022年06月30日这一预设时段内的对象行为原始日志为例,在具体实施时,可以将这段时间内的对象行为原始日志按照以天为单位的方式划分为20220601、20220602、20220603、……、20220630共30个窗口数据,即,窗口序列包括30个窗口数据,假设共包括对象A、对象B以及对象C。
首先,采用相关技术中基于全量数据加载与固定长度截取的对象行为序列提取方法,具体可以参见图3所示。图3示出了一种基于全量数据加载与固定长度截取的对象行为序列提取方法的逻辑示意图,首先采用全量数据加载的方式一次性对20220601、20220602、20220603、……、20220630共30个窗口数据进行全部加载,进而从全部的窗口数据中提取对象A、对象B以及对象C的对象行为数据。最后,采用固定长度截取的方式从对象A的对象行为数据、对象B的对象行为数据以及对象C的对象行为数据中分别提取出满足固定长度的对象行为数据,并对超出固定长度的对象行为数据进行长度截断,得到对象A的对象行为序列、对象B的对象行为序列以及对象C的对象行为序列。
在具体实施时,可以按照各个对象的对象标识从全部的窗口数据中提取各个对象的对象行为数据,比如,可以按照对象ID进行聚合,即可得到单个对象的对象行为数据。同时,为了截取对象的最近的N条对象行为数据,在进行固定长度截取的具体操作过程中,首先对对象的全部对象行为数据进行排序,然后再进行截取等操作。在具体实施时,可以在Spark或者MapReduce等框架中实现固定长度截取,其中,Spark是指专为大规模数据处理而设计的快速通用的计算引擎,MapReduce是指面向大数据并行处理的计算框架,采用Spark或者MapReduce等框架更适用于针对数据量大的业务场景。
采用本申请实施例提供的数据处理方法,具体可以参见图4所示。图4示出了一种数据处理方法的逻辑示意图,可以一次性仅加载一个窗口数据,相较于相关技术中基于全量数据加载的方式,对于数据处理过程中的计算机资源的负荷较低,尤其是在计算机资源有限的情况下,具有更高的灵活性和稳定性。为了便于理解数据处理过程,下面将以第1个窗口数据和第2个窗口数据为例进行说明:
在数据处理过程中,服务器首先加载第1个窗口数据,并从中筛选满足固定长度的对象行为数据写入数据文件中,对于筛选后不满足固定长度的对象行为数据,即可作为待聚合对象行为数据,并按照对象标识进行聚合,将同一对象的对象行为数据聚合在一起,分别得到对象A、对象B以及对象C的聚合后的对象行为数据,再从聚合后的对象行为数据中继续筛选满足固定长度的对象行为数据写入数据文件。
在对第2个窗口数据进行处理时,服务器首先从数据文件包括的对象行为数据对应的对象中确定目标对象,目标对象可以是指在数据文件中的对象行为数据已经足够生成满足要求的对象行为序列的那部分对象。进而,服务器可以过滤掉第2个窗口数据中目标对象的对象行为数据,再从中筛选满足固定长度的对象行为数据写入数据文件,对于不满足固定长度的对象行为数据作为待聚合对象行为数据,按照对象标识进行聚合,将同一对象的对象行为数据聚合在一起,分别得到对象A、对象B以及对象C的聚合后的对象行为数据,再从聚合后的对象行为数据中继续筛选满足固定长度的对象行为数据写入数据文件。
依次类推,每次只需加载一次窗口数据进行处理,且首先会过滤掉目标对象在当前窗口数据中的对象行为数据,由此减少数据处理量,提高数据处理效率。当数据文件满足预设结束条件时,可以认为数据文件中存储的对象行为数据足够提取出满足要求的对象行为序列,此时,服务器可以结束处理,并利用数据文件生成对象行为序列。若此时还未处理到第30个窗口数据,则无需再对剩余的窗口数据进行处理,同样可以减少数据处理量,提高数据处理效率。
其中,30个窗口数据的排序方式可以采用前述的按照窗口时间从小到大的顺序排列,即第1个窗口数据为20220601,第30个窗口数据为20220630。同样,30个窗口数据的排序方式可以采用前述的按照窗口时间从大到小的顺序排列,即第1个窗口数据为20220630,第30个窗口数据为20220601,能够更为快速地提取出对象的最近的N条对象行为数据构建对象行为序列,以准确反映对象的习惯偏好等,数据处理效率更高。尤其是针对活跃用户,能够稳定快速地提取出活跃用户的最近的N条对象行为数据,减少了重读读取历史数据的问题,减少数据处理量,优化了数据处理过程。
需要说明的是,本申请实施例提供的数据处理方法,通常可以采用离线执行的方式进行。在具体实施时,可以预先提取出各对象的对象行为序列,后续便可以直接将离线提取好的对象行为序列应用于下游,比如模型训练等等,以及还可以直接利用离线提取好的对象行为序列为对象提供相关服务(例如为对象提供内容推荐服务等)。
需要说明的是,本申请在上述各方面提供的实现方式的基础上,还可以进行进一步组合以提供更多实现方式。
基于图2对应实施例提供的数据处理方法,本申请实施例还提供一种数据处理装置500,所述数据处理装置500包括获取单元501、确定单元502、过滤单元503和筛选单元504:
所述获取单元501,用于获取窗口序列;所述窗口序列包括M个窗口数据,所述M为大于1的整数;
所述确定单元502,用于若根据所述窗口序列中的前i-1个窗口数据确定的数据文件不满足预设结束条件,从所述数据文件包括的对象行为数据对应的对象中确定目标对象;所述数据文件包括的对象行为数据是所述前i-1个窗口数据所包括的对象行为数据中满足固定长度的对象行为数据,i为大于1且小于或等于M的整数;
所述过滤单元503,用于过滤掉所述窗口序列中的第i个窗口数据中所述目标对象的对象行为数据,得到第i个待定窗口数据;
所述筛选单元504,用于从所述第i个待定窗口数据所包括的对象行为数据中筛选满足所述固定长度的对象行为数据写入所述数据文件,得到更新后数据文件;
所述确定单元502,还用于当所述更新后数据文件满足所述预设结束条件时,根据所述更新后数据文件确定对象行为序列。
在一种可能的实现方式中,所述预设结束条件通过如下方式:
统计所述M个窗口数据所包括对象的数量作为全体对象数量;
将所述目标对象的数量与所述全体对象数量的比值大于或等于预设比值确定为所述预设结束条件。
在一种可能的实现方式中,所述确定单元还用于:
将所述数据文件包括的对象行为数据对应的对象作为待定对象;
统计所述待定对象在所述数据文件中的对象行为数据的数量;
将所述对象行为数据的数量大于或等于预设数量的待定对象确定为所述目标对象。
在一种可能的实现方式中,所述装置还包括聚合单元,所述聚合单元用于:
将所述第i个待定窗口数据所包括的对象行为数据中不满足所述固定长度的对象行为数据作为待聚合对象行为数据;
根据所述待聚合对象行为数据对应的对象标识,将对象标识相同的待聚合对象行为数据进行聚合,得到聚合后的对象行为数据;
从所述聚合后的对象行为数据中筛选满足所述固定长度的对象行为数据写入所述更新后数据文件。
在一种可能的实现方式中,所述获取单元还用于:
按照所述M个窗口数据的窗口时间从大到小的顺序,对所述M个窗口数据进行排序,得到所述窗口序列。
在一种可能的实现方式中,所述确定单元还用于:
从所述更新后数据文件包括的对象行为数据对应的对象中,重新确定所述目标对象,得到更新后目标对象;
按照所述更新后数据文件中的对象行为数据的发生时间从大到小的顺序,对所述更新后目标对象在所述更新后数据文件中的对象行为数据进行排序,得到所述更新后目标对象的对象行为数据序列;
截取所述对象行为数据序列中排在前N位的对象行为数据,作为所述更新后目标对象的对象行为序列;所述N为正整数。
在一种可能的实现方式中,所述M个窗口数据通过如下方式确定:
获取交互载体在预设时段内的对象行为原始日志;所述对象行为原始日志中记录有所述对象行为数据的发生时间;
按照所述对象行为数据的发生时间对所述对象行为原始日志进行分区,得到对象行为分区数据;所述对象行为分区数据包括分区时间;
根据所述对象行为分区数据的分区时间确定所述M个窗口数据;所述M个窗口数据中的每个窗口数据对应一个窗口时间,所述M个窗口数据的窗口时间各不相同,所述窗口时间是根据所述分区时间确定的。
在一种可能的实现方式中,若所述对象行为分区数据包括X个对象行为分区数据,所述确定单元还用于:
若所述X为大于所述M的整数,按照所述X个对象行为分区数据的分区时间,对所述X个对象行为分区数据进行合并处理,得到所述M个窗口数据;
若所述X为小于所述M的正整数,按照所述X个对象行为分区数据的分区时间,对所述X个对象行为分区数据进行拆分处理,得到所述M个窗口数据;
若所述X等于所述M,将所述X个对象行为分区数据作为所述M个窗口数据。
在一种可能的实现方式中,所述装置还包括展示单元:
所述确定单元,还用于利用所述对象行为序列,从待定内容中确定目标内容;
所述展示单元,用于向所述对象行为序列对应的对象展示所述目标内容。
由上述技术方案可以看出,首先获取窗口序列,该窗口序列包括M个窗口数据。当窗口序列中的前i-1个窗口数据确定的数据文件不满足预设结束条件时,由于数据文件包括的对象行为数据是前i-1个窗口数据所包括的对象行为数据中满足固定长度的对象行为数据,因此,数据文件不满足预设结束条件表明还需要加载窗口序列中的第i个窗口数据,以继续筛选满足固定长度的对象行为数据。此时,可以首先从数据文件包括的对象行为数据对应的对象中确定目标对象,目标对象可以是指在数据文件中的对象行为数据已经足够生成满足要求的对象行为序列的那部分对象,因此,在对第i个窗口数据进行处理时,可以首先过滤掉第i个窗口数据中目标对象的对象行为数据,得到第i个待定窗口数据,进而筛选第i个待定窗口数据所包括的对象行为数据中满足固定长度的对象行为数据写入数据文件,得到更新后数据文件。基于此,无需对目标对象在第i个窗口数据中的对象行为数据进行处理,从而可以减少数据处理量,提高数据处理效率。同时,当更新后数据文件满足预设结束条件时,可以结束处理,并根据更新后数据文件确定对象行为序列,若此时还未处理到第M个窗口数据,即i小于M,则无需再对剩余的窗口数据进行处理,同样可以减少数据处理量,提高数据处理效率。
本申请实施例还提供了一种计算机设备,该计算机设备可以是终端设备,以终端设备为智能手机为例:
图6示出的是与本申请实施例提供的智能手机的部分结构的框图。参考图6,智能手机包括:射频(英文全称:Radio Frequency,英文缩写:RF)电路610、存储器620、输入单元630、显示单元640、传感器650、音频电路660、无线保真(英文缩写:WiFi)模块670、处理器680、以及电源690等部件。输入单元630可包括触控面板631以及其他输入设备632,显示单元640可包括显示面板641,音频电路660可以包括扬声器661和传声器662。本领域技术人员可以理解,图6中示出的智能手机结构并不构成对智能手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储器620可用于存储软件程序以及模块,处理器680通过运行存储在存储器620的软件程序以及模块,从而执行智能手机的各种功能应用以及数据处理。存储器620可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据智能手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器620可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器680是智能手机的控制中心,利用各种接口和线路连接整个智能手机的各个部分,通过运行或执行存储在存储器620内的软件程序和/或模块,以及调用存储在存储器620内的数据,执行智能手机的各种功能和处理数据。可选的,处理器680可包括一个或多个处理单元;优选的,处理器680可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器680中。
在本实施例中,由智能手机中的处理器680执行的步骤可以基于图6所示的结构实现。
本申请实施例提供的计算机设备还可以是服务器,请参见图7所示,图7为本申请实施例提供的服务器700的结构图,服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器,例如中央处理器(Central Processing Units,简称CPU)722,以及存储器732,一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器722可以设置为与存储介质730通信,在服务器700上执行存储介质730中的一系列指令操作。
服务器700还可以包括一个或一个以上电源726,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口758,和/或,一个或一个以上操作系统741,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
在本实施例中,服务器700中的中央处理器722可以执行以下步骤:
获取窗口序列;所述窗口序列包括M个窗口数据,所述M为大于1的整数;
若根据所述窗口序列中的前i-1个窗口数据确定的数据文件不满足预设结束条件,从所述数据文件包括的对象行为数据对应的对象中确定目标对象;所述数据文件包括的对象行为数据是所述前i-1个窗口数据所包括的对象行为数据中满足固定长度的对象行为数据,i为大于1且小于或等于M的整数;
过滤掉所述窗口序列中的第i个窗口数据中所述目标对象的对象行为数据,得到第i个待定窗口数据;
从所述第i个待定窗口数据所包括的对象行为数据中筛选满足所述固定长度的对象行为数据写入所述数据文件,得到更新后数据文件;
当所述更新后数据文件满足所述预设结束条件时,根据所述更新后数据文件确定对象行为序列。
根据本申请的一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于实现前述各个实施例所述的数据处理方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例各种可选实现方式中提供的方法。
上述各个附图对应的流程或结构的描述各有侧重,某个流程或结构中没有详述的部分,可以参见其他流程或结构的相关描述。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术成员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (13)
1.一种数据处理方法,其特征在于,所述方法包括:
获取窗口序列;所述窗口序列包括M个窗口数据,所述M为大于1的整数;
若根据所述窗口序列中的前i-1个窗口数据确定的数据文件不满足预设结束条件,从所述数据文件包括的对象行为数据对应的对象中确定目标对象;所述数据文件包括的对象行为数据是所述前i-1个窗口数据所包括的对象行为数据中满足固定长度的对象行为数据,i为大于1且小于或等于M的整数;
过滤掉所述窗口序列中的第i个窗口数据中所述目标对象的对象行为数据,得到第i个待定窗口数据;
从所述第i个待定窗口数据所包括的对象行为数据中筛选满足所述固定长度的对象行为数据写入所述数据文件,得到更新后数据文件;
当所述更新后数据文件满足所述预设结束条件时,根据所述更新后数据文件确定对象行为序列。
2.根据权利要求1所述的方法,其特征在于,所述预设结束条件通过如下方式:
统计所述M个窗口数据所包括对象的数量作为全体对象数量;
将所述目标对象的数量与所述全体对象数量的比值大于或等于预设比值确定为所述预设结束条件。
3.根据权利要求1所述的方法,其特征在于,所述从所述数据文件包括的对象行为数据对应的对象中确定目标对象,包括:
将所述数据文件包括的对象行为数据对应的对象作为待定对象;
统计所述待定对象在所述数据文件中的对象行为数据的数量;
将所述对象行为数据的数量大于或等于预设数量的待定对象确定为所述目标对象。
4.根据权利要求1所述的方法,其特征在于,在当所述更新后数据文件满足所述预设结束条件时,根据所述更新后数据文件确定对象行为序列之前,所述方法还包括:
将所述第i个待定窗口数据所包括的对象行为数据中不满足所述固定长度的对象行为数据作为待聚合对象行为数据;
根据所述待聚合对象行为数据对应的对象标识,将对象标识相同的待聚合对象行为数据进行聚合,得到聚合后的对象行为数据;
从所述聚合后的对象行为数据中筛选满足所述固定长度的对象行为数据写入所述更新后数据文件。
5.根据权利要求1所述的方法,其特征在于,所述获取窗口序列,包括:
按照所述M个窗口数据的窗口时间从大到小的顺序,对所述M个窗口数据进行排序,得到所述窗口序列。
6.根据权利要求5所述的方法,其特征在于,所述根据所述更新后数据文件确定对象行为序列,包括:
从所述更新后数据文件包括的对象行为数据对应的对象中,重新确定所述目标对象,得到更新后目标对象;
按照所述更新后数据文件中的对象行为数据的发生时间从大到小的顺序,对所述更新后目标对象在所述更新后数据文件中的对象行为数据进行排序,得到所述更新后目标对象的对象行为数据序列;
截取所述对象行为数据序列中排在前N位的对象行为数据,作为所述更新后目标对象的对象行为序列;所述N为正整数。
7.根据权利要求1所述的方法,其特征在于,所述M个窗口数据通过如下方式确定:
获取交互载体在预设时段内的对象行为原始日志;所述对象行为原始日志中记录有所述对象行为数据的发生时间;
按照所述对象行为数据的发生时间对所述对象行为原始日志进行分区,得到对象行为分区数据;所述对象行为分区数据包括分区时间;
根据所述对象行为分区数据的分区时间确定所述M个窗口数据;所述M个窗口数据中的每个窗口数据对应一个窗口时间,所述M个窗口数据的窗口时间各不相同,所述窗口时间是根据所述分区时间确定的。
8.根据权利要求7所述的方法,其特征在于,若所述对象行为分区数据包括X个对象行为分区数据,所述根据所述对象行为分区数据的分区时间确定所述M个窗口数据,包括:
若所述X为大于所述M的整数,按照所述X个对象行为分区数据的分区时间,对所述X个对象行为分区数据进行合并处理,得到所述M个窗口数据;
若所述X为小于所述M的正整数,按照所述X个对象行为分区数据的分区时间,对所述X个对象行为分区数据进行拆分处理,得到所述M个窗口数据;
若所述X等于所述M,将所述X个对象行为分区数据作为所述M个窗口数据。
9.根据权利要求1-8中任意一项所述的方法,其特征在于,所述方法还包括:
利用所述对象行为序列,从待定内容中确定目标内容;
向所述对象行为序列对应的对象展示所述目标内容。
10.一种数据处理装置,其特征在于,所述装置包括获取单元、确定单元、过滤单元和筛选单元:
所述获取单元,用于获取窗口序列;所述窗口序列包括M个窗口数据,所述M为大于1的整数;
所述确定单元,用于若根据所述窗口序列中的前i-1个窗口数据确定的数据文件不满足预设结束条件,从所述数据文件包括的对象行为数据对应的对象中确定目标对象;所述数据文件包括的对象行为数据是所述前i-1个窗口数据所包括的对象行为数据中满足固定长度的对象行为数据,i为大于1且小于或等于M的整数;
所述过滤单元,用于过滤掉所述窗口序列中的第i个窗口数据中所述目标对象的对象行为数据,得到第i个待定窗口数据;
所述筛选单元,用于从所述第i个待定窗口数据所包括的对象行为数据中筛选满足所述固定长度的对象行为数据写入所述数据文件,得到更新后数据文件;
所述确定单元,还用于当所述更新后数据文件满足所述预设结束条件时,根据所述更新后数据文件确定对象行为序列。
11.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:
所述存储器用于存储计算机程序,并将所述计算机程序传输给所述处理器;
所述处理器用于根据所述计算机程序中的指令执行权利要求1-9任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于实现权利要求1-9任一项所述的方法。
13.一种计算机程序产品,包括计算机程序,其特征在于,当其在计算机设备上运行时,使得所述计算机设备执行权利要求1-9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211666067.XA CN116955461A (zh) | 2022-12-23 | 2022-12-23 | 一种数据处理方法和相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211666067.XA CN116955461A (zh) | 2022-12-23 | 2022-12-23 | 一种数据处理方法和相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116955461A true CN116955461A (zh) | 2023-10-27 |
Family
ID=88460727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211666067.XA Pending CN116955461A (zh) | 2022-12-23 | 2022-12-23 | 一种数据处理方法和相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116955461A (zh) |
-
2022
- 2022-12-23 CN CN202211666067.XA patent/CN116955461A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11580168B2 (en) | Method and system for providing context based query suggestions | |
WO2017166644A1 (zh) | 一种数据采集方法和系统 | |
CN109408639B (zh) | 一种弹幕分类方法、装置、设备和存储介质 | |
CN107864405B (zh) | 一种收视行为类型的预测方法、装置及计算机可读介质 | |
CN110413867B (zh) | 用于内容推荐的方法及系统 | |
US20170169062A1 (en) | Method and electronic device for recommending video | |
WO2017133568A1 (zh) | 一种目标特征数据的挖掘方法和装置 | |
CN105022807A (zh) | 信息推荐方法及装置 | |
US11250080B2 (en) | Method, apparatus, storage medium and electronic device for establishing question and answer system | |
CN108664492B (zh) | 一种向用户推送内容的方法、装置、电子设备和存储介质 | |
US20140164270A1 (en) | Method, system and computer readable medium for recommending medium users | |
CN112506887A (zh) | 车辆终端can总线数据处理方法及装置 | |
CN104834728B (zh) | 一种订阅视频的推送方法及装置 | |
CN112231481A (zh) | 网址的分类方法、装置、计算机设备和存储介质 | |
CN110909072B (zh) | 一种数据表建立方法、装置及设备 | |
CN110442616B (zh) | 一种针对大数据量的页面访问路径分析方法与系统 | |
CN116955461A (zh) | 一种数据处理方法和相关装置 | |
CN111263195B (zh) | 弹幕处理方法、装置、服务器设备及存储介质 | |
CN108628889A (zh) | 基于时间片的数据抽样方法、系统和装置 | |
US10756948B1 (en) | Horizontal scaling of time series data | |
CN112787880B (zh) | 回放数据获取与流量回放方法、设备及存储介质 | |
CN104978401B (zh) | 一种视频专辑的关键词设置方法及装置 | |
CN111813711B (zh) | 训练样本数据的读取方法和装置、存储介质及电子设备 | |
CN116431366B (zh) | 行为路径分析方法、系统、存储端、服务端及客户端 | |
CN117634894B (zh) | 生态环境风险评估方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |