CN115624755B - 一种数据处理方法、装置及计算机设备、存储介质 - Google Patents

一种数据处理方法、装置及计算机设备、存储介质 Download PDF

Info

Publication number
CN115624755B
CN115624755B CN202211571846.1A CN202211571846A CN115624755B CN 115624755 B CN115624755 B CN 115624755B CN 202211571846 A CN202211571846 A CN 202211571846A CN 115624755 B CN115624755 B CN 115624755B
Authority
CN
China
Prior art keywords
target
characteristic
service
fitting
under
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211571846.1A
Other languages
English (en)
Other versions
CN115624755A (zh
Inventor
李晨
蔡红云
程序
何峰
彭佳臻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202211571846.1A priority Critical patent/CN115624755B/zh
Publication of CN115624755A publication Critical patent/CN115624755A/zh
Application granted granted Critical
Publication of CN115624755B publication Critical patent/CN115624755B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/60Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种数据处理方法、装置及计算机设备、存储介质,该数据处理方法包括:获取业务场景中的目标业务对象在目标对象特征下的对象特征值,目标对象特征为连续特征;基于目标对象特征所在的特征空间内的连续性信息,提取目标业务对象在目标对象特征下的对象特征值所对应的目标表征信息;其中,目标表征信息用于在目标对象特征对应的表征空间中,表征目标业务对象在目标对象特征下的对象特征值;在业务场景中,根据目标表征信息对目标业务对象进行业务处理。采用本申请实施例,可以提取能够较为准确地表征连续特征的表征信息,从而可以提升基于表征信息的业务处理准确率。

Description

一种数据处理方法、装置及计算机设备、存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置及计算机设备、存储介质。
背景技术
在各大业务场景中,对于业务对象的对象特征,往往需要被提取为对应的表征信息(或者可以称为表征向量,Embedding)后,基于表征信息对业务对象进行业务处理。
目前,对于连续的对象特征(连续的对象特征是指对象特征是连续特征),提取表征信息的方式具体可以参见如下描述:对连续的对象特征进行特征离散化处理,即将连续的对象特征转换为离散的对象特征(离散的对象特征是指对象特征是离散特征)后,再进行表征信息的提取,其实质仍然是提取离散特征对应的表征信息,这样使得提取到的表征信息无法准确地表征特征离散化前的连续特征,从而导致业务处理的准确性不高。
发明内容
本申请实施例提供了一种数据处理方法、装置及计算机设备、存储介质,可以提取能够较为准确地表征连续特征的表征信息,从而可以提升基于表征信息的业务处理准确率。
一方面,本申请实施例提供了一种数据处理方法,该数据处理方法包括:
获取业务场景中的目标业务对象在目标对象特征下的对象特征值,目标对象特征为连续特征;
基于目标对象特征所在的特征空间内的连续性信息,提取目标业务对象在目标对象特征下的对象特征值所对应的目标表征信息;其中,目标表征信息用于在目标对象特征对应的表征空间中,表征目标业务对象在目标对象特征下的对象特征值;
在业务场景中,根据目标表征信息对目标业务对象进行业务处理。
相应地,本申请实施例提供了一种数据处理装置,该数据处理装置包括:
获取单元,用于获取业务场景中的目标业务对象在目标对象特征下的对象特征值,目标对象特征为连续特征;
处理单元,用于基于目标对象特征所在的特征空间内的连续性信息,提取目标业务对象在目标对象特征下的对象特征值所对应的目标表征信息;其中,目标表征信息用于在目标对象特征对应的表征空间中,表征目标业务对象在目标对象特征下的对象特征值;
处理单元,还用于在业务场景中,根据目标表征信息对目标业务对象进行业务处理。
在一种实现方式中,处理单元,用于基于目标对象特征所在的特征空间内的连续性信息,提取目标业务对象在目标对象特征下的对象特征值所对应的目标表征信息时,具体用于执行如下步骤:
获取目标对象特征在业务场景中的分布信息;分布信息用于反映目标对象特征所在的特征空间内的连续性信息;
基于分布信息,将目标对象特征下的对象特征值从特征空间映射至表征空间,得到目标业务对象在目标对象特征下的对象特征值所对应的目标表征信息。
在一种实现方式中,分布信息包括累积分布函数;处理单元,用于基于分布信息,将目标对象特征下的对象特征值从特征空间映射至表征空间,得到目标业务对象在目标对象特征下的对象特征值所对应的目标表征信息时,具体用于执行如下步骤:
获取目标对象特征下的对象特征值,在累积分布函数中对应的累积函数值;
在特征空间中,将累积函数值作为权重因子,对累积分布函数的期望进行加权计算;
对累积分布函数的期望的加权结果进行积分计算,得到目标业务对象在目标对象特征下的对象特征值所对应的目标表征信息。
在一种实现方式中,特征空间中的积分计算,被采用累积分布函数对应的累积分布空间中的核回归计算进行拟合;拟合的过程包括:
获取累积分布空间中的N+1个拟合点中每个拟合点在所述目标对象特征下对应的拟合表征信息,N为正整数;
根据累积函数值,计算N+1个拟合点中每个拟合点对应的核权重;
根据N+1个拟合点中每个拟合点的核权重,对N+1个拟合点中每个拟合点在目标对象特征下对应的拟合表征信息进行加权求和计算,得到目标业务对象在目标对象特征下的对象特征值所对应的目标表征信息。
在一种实现方式中,处理单元,用于根据累积函数值,计算N+1个拟合点中每个拟合点对应的核权重时,具体用于执行如下步骤:
获取用于进行核回归计算的核函数;
针对N+1个拟合点中的目标拟合点,根据累积函数值,计算目标拟合点在核函数下对应的核函数值;
根据目标拟合点在核函数下对应的核函数值,与N+1个拟合点中的各个拟合点在核函数下对应的核函数值总和之间的比值,确定目标拟合点对应的核权重。
在一种实现方式中,N+1个拟合点中每个拟合点在目标对象特征下对应的拟合表征信息是训练得到的;N+1个拟合点中每个拟合点在目标对象特征下对应的拟合表征信息的训练过程,包括:
获取N+1个拟合点中的每个拟合点在目标对象特征下对应的初始表征向量;
根据N+1个拟合点中的每个拟合点在目标对象特征下对应的初始表征向量,拟合活跃样本对象在目标对象特征下的样本特征值所对应的第一样本表征信息;
以及,根据N+1个拟合点中的每个拟合点在目标对象特征下对应的初始表征向量,拟合活跃样本对象的流失样本对象在目标对象特征下的样本特征值所对应的第二样本表征信息;
根据第一样本表征信息和第二样本表征信息,更新N+1个拟合点中的每个拟合点在目标对象特征下对应的初始表征向量,以得到N+1个拟合点中每个拟合点在目标对象特征下对应的拟合表征信息。
在一种实现方式中,处理单元,用于根据第一样本表征信息和第二样本表征信息,更新N+1个拟合点中的每个拟合点在目标对象特征下对应的初始表征向量,以得到N+1个拟合点中每个拟合点在目标对象特征下对应的拟合表征信息时,具体用于执行如下步骤:
根据第一样本表征信息和第二样本表征信息,预测活跃样本对象与流失样本对象之间的召回回流情况;
根据活跃样本对象与流失样本对象之间预测的召回回流情况,与活跃样本对象与流失样本对象之间真实的召回回流情况之间的差异,更新N+1个拟合点中的每个拟合点在目标对象特征下对应的初始表征向量,以得到N+1个拟合点中每个拟合点在目标对象特征下对应的拟合表征信息。
在一种实现方式中,获取单元,还用于获取目标业务对象在参考对象特征下的对象特征值;参考对象特征为离散特征;
处理单元,还用于提取目标业务对象在参考对象特征下的对象特征值所对应的参考表征信息;
处理单元,用于在业务场景中,根据目标表征信息对目标业务对象进行业务处理时,具体用于执行如下步骤:
在业务场景中,根据目标表征信息和参考表征信息,对目标业务对象进行业务处理。
在一种实现方式中,业务场景包括游戏业务场景,目标业务对象是游戏业务场景中的活跃游戏对象;处理单元,用于在业务场景中,根据目标表征信息对目标业务对象进行业务处理时,具体用于执行如下步骤:
确定目标业务对象在游戏业务场景中的流失好友对象,并获取流失好友对象在目标对象特征下的对象特征值所对应的流失表征信息;
根据目标表征信息和流失表征信息,对目标业务对象与流失好友对象之间的召回回流情况进行分析,确定目标业务对象对流失好友对象进行召回处理且流失好友对象回流的概率;
若目标业务对象对流失好友对象进行召回处理且流失好友对象回流的概率满足召回条件,则将流失好友对象确定为目标业务对象需要召回的对象。
在一种实现方式中,业务场景包括游戏业务场景,目标业务对象是游戏业务场景中的流失游戏对象;处理单元,用于在业务场景中,根据目标表征信息对目标业务对象进行业务处理时,具体用于执行如下步骤:
根据目标表征信息,对目标业务对象进行回流分析,得到目标业务对象的回流概率;
根据目标业务对象的回流概率,对目标业务对象进行召回处理。
相应地,本申请实施例提供一种计算机设备,该计算机设备包括:
处理器,适于实现计算机程序;
计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序适于由处理器加载并执行上述的数据处理方法。
相应地,本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被计算机设备的处理器读取并执行时,使得计算机设备执行上述的数据处理方法。
相应地,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的数据处理方法。
本申请实施例中,目标对象特征是连续特征,基于目标对象特征所在的特征空间内的连续性信息,提取目标业务对象在目标对象特征下的对象特征值所对应的目标表征向量,可以使得提取得到的目标表征向量能够保留目标对象特征所在的特征空间内的连续性信息,从而可以使得提取到的目标表征信息能够在目标对象特征对应的表征空间中,较为准确地表征目标业务对象在目标对象特征下的对象特征值;基于此,在业务场景中,根据目标表征信息对目标业务对象进行业务处理,可以提高业务处理的准确率。也就是说,本申请实施例可以提取能够较为准确地表征连续特征的表征信息,从而可以提升基于表征信息的业务处理准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种表征信息提取方式的原理示意图;
图2是本申请实施例提供的另一种表征信息提取方式的原理示意图;
图3是本申请实施例提供的一种数据处理方法的流程示意图;
图4是本申请实施例提供的另一种数据处理方法的流程示意图;
图5是本申请实施例提供的一种游戏业务场景的场景示意图;
图6是本申请实施例提供的另一种游戏业务场景的场景示意图;
图7是本申请实施例提供的一种数据处理装置的结构示意图;
图8是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例涉及特征(Feature)。特征是指描述一个目标物体的某项特点的变量,例如,桌子的重量和桌子的数量分别是描述桌子这个目标物体特点的两个特征;对于确定的目标物体,该目标物体的特征可以采用具体的数据进行描述,这个数据可以称为特征值,例如,桌子的重量为3千克,3千克就是桌子在重量这个特征下的特征值,又如,桌子的数量为10张,10张就是桌子在数量这个特征下的特征值。
特征可以分为连续特征(Dense Feature)或离散特征(Sparse Feature)两类。其中,连续特征是指取值范围连续的特征,取值范围连续是指在一定范围(或者可以称为区间)内可以任意取值;例如,桌子的重量的取值范围是正实数,即桌子的重量的取值可以是任一个正实数,因此,桌子的重量是桌子的一个连续特征。离散特征是指取值离散的特征,取值离散是指取值可以按照一定顺序一一列举;例如,桌子的数量的取值可以是任一个正整数,正整数是可以按照一定顺序一一列举的,因此,桌子的数量是桌子的一个离散特征。
各大业务场景(例如,游戏业务场景、社交业务场景、以及音视频业务场景等等)中的特征,需要被提取为对应的表征信息后,基于表征信息进行相应的业务处理。其中,提取特征对应的表征信息,具体可以是指提取该特征下某个具体的特征值所对应的表征信息,表征信息是特征值的向量表达,向量表达中能够包含其代表的特征值的某种性质。
对于业务场景中的连续特征,提取连续特征对应的表征信息可以采用特征离散化 的方式进行,具体来说,特征离散化是指将连续特征转换为离散特征,转换的操作可以相当 于使用一个映射将原本处于连续空间的连续特征转换到离散空间,更为直观地,可以相当 于使用一个映射fD:D→{1,2,..,n},将原本处于连续空间
Figure 310772DEST_PATH_IMAGE001
之内的连续特征映射到 {1,2,..,n}中的一个整数;例如,以桌子的重量这个连续特征为例,对桌子的重量这个连续 特征进行特征离散化的映射可参见如下公式1:
Figure 946022DEST_PATH_IMAGE002
Figure 929021DEST_PATH_IMAGE003
公式1
如上述公式1所示的特征离散化示例,将桌子的重量这个连续特征下属于区间(0,100]的特征值划分为第一类,这些特征值被映射为1,将桌子的重量这个连续特征下属于区间(100,200]的特征值划分为第二类,这些特征值被映射为2,将桌子的重量这个连续特征下属于区间(200,+∞]的特征值划分为第三类,这些特征值被映射为3。
特征离散化的方式提取表征信息的原理可参见图1,在连续特征的取值范围内划分出多个区间,连续特征下属于同一区间的特征值被划分为同一个类别,各个类别分别对应各自的表征信息,表征信息∈R1×d表示表征信息是d维向量,每一个维度的取值范围是实数;当连续特征下的某个特征值被输入后,可以先确定其所属的区间,确定区间后便可以确定该输入的特征值所属的类别,然后可以将该输入的特征值所属的类别所对应的表征信息,确定为该输入的特征值对应的表征信息。其中,特征离散化常用算法可以包括分桶离散化算法(例如,等距分桶离散化算法,等比例分桶离散化算法,以及聚类分桶离散化算法,等等)。
基于图1不难看出,特征离散化的方式通过将连续特征转换为离散特征,的确可以提取出连续特征对应的表征信息,但其实质仍然是提取离散特征对应的表征信息;特征离散化的方式提取连续特征对应的表征信息时,存在如下缺陷:第一,特征离散化的方式提取到的表征信息是离散的,提取到的表征信息完全损失了连续特征所在的特征空间的连续性信息,因为每个类别对应的表征信息完全独立于其他类别对应的表征信息;以图1为例,考虑两个非常接近的但是位于桶分界线两侧的特征值a与特征值b,同时考虑一个与特征值b在同一个桶区间内,但是距离较远的特征值c,在提取表征信息之后,我们发现,特征值a对应的表征信息是E3,特征值b对应的表征信息是E2,特征值a与特征值b是非常相似的,但是它们所对应的表征信息是完全不同且相互独立的,而相似度较低的特征值b与特征值c所对应的却是相同的表征信息E2 ,这显然丢失了连续特征所在的特征空间内的连续性信息。第二,特征离散化的方式易受数据扰动的影响,在测量数据时,测量数据里不可避免的会包含噪音;当测量一个处于分桶边界的特征值时,细微的噪音可能导致该特征值的测量值越过分桶边界,导致最终得到一个与真实的特征值对应的表征信息不同且独立的表征信息,从而影响后续的业务处理。
基于此,本申请实施例提出一种能够较为准确地提取连续特征对应的表征信息的数据处理方法,本申请实施例提出的数据处理方法提取连续特征对应的表征信息的原理可参见图2,针对业务场景中的连续特征,可以基于连续特征所在特征空间内的连续性信息,提取连续特征对应的表征信息,这样可以使得提取到的表征信息能够保留连续特征所在特征空间内的连续性信息,从而可以使得提取到的表征信息能够较为准确地表征连续特征,提升基于表征信息的业务处理准确率。将图2与图1进行对比分析可知,特征离散化的方式提取到的表征信息是离散的,提取到的各个表征信息之间完全独立,而本申请实施例提出的数据处理方法所提取的表征信息保留了连续特征所在的特征空间内的连续性信息,使得表征信息是连续的,从而提取到的表征信息能够较为准确地表征连续特征;并且,本申请实施例不需要对连续特征进行分桶或分类,而是直接将连续特征映射为表征信息,因此本申请实施例受到数据扰动的影响较小。
在具体实现中,本申请实施例提出的数据处理方法可以由计算机设备执行,计算机设备可以是终端或服务器。其中,本申请实施例所提及的终端可以包括但不限于:智能手机、平板电脑、笔记本电脑、台式计算机、智能手表、智能家电、智能车载终端、以及飞行器,等等;本申请实施例所提及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器,等等。
下面结合附图对本申请实施例提供的数据处理方法进行更为详细地介绍。
本申请实施例提供一种数据处理方法,该数据处理方法主要介绍提取连续特征的表征信息的具体过程,以及N+1个拟合点中每个拟合点对应的拟合表征信息的训练过程。该数据处理方法可以由计算机设备执行,计算机设备可以是终端或服务器。如图3所示,该数据处理方法可以包括但不限于以下步骤S301-步骤S303:
S301,获取业务场景中的目标业务对象在目标对象特征下的对象特征值,目标对象特征为连续特征。
业务场景是指业务的具体执行场景,本申请实施例提及的业务场景可以包括但不限于以下任一个业务场景:游戏业务场景、社交业务场景、以及音视频业务场景;需要说明的是,本申请实施例以游戏业务场景为例对数据处理方法进行展开描述,其余业务场景与游戏业务场景类似,其余业务场景中的数据处理方法均可以参见游戏业务场景的相关描述。本申请实施例所提及的游戏可以包括本地游戏或云游戏;其中,本地游戏是指:直接在用户终端内安装的游戏客户端中运行的游戏;云游戏(Cloud Gaming)又可称为游戏点播(Gaming on Demand),可以是指在游戏服务器中运行的游戏;也就是说,在云游戏业务场景下,所有的云游戏都不在用户终端的游戏客户端中运行,而是在游戏服务器中运行;游戏服务器将云游戏中的游戏画面、游戏音频压缩编码为媒体流,然后通过网络将媒体流传输给用户终端中的游戏客户端进行图像显示和音频播放;可见,游戏客户端无需拥有强大的图形处理与数据运算能力,仅仅需要拥有基本的流媒体播放能力,与获取用户输入的操作指令并将用户输入的操作指令发送给游戏服务器的能力即可;当用户在游戏客户端的游戏界面中执行各种操作时,游戏客户端会将这些操作产生的操作数据上报给游戏服务器,由游戏服务器在对应的云游戏中根据操作数据而刷新云游戏的游戏画面,再将刷新后的游戏画面返回至游戏客户端中进行显示,以实现云游戏的游玩。
目标业务对象可以是在业务场景中注册的任一个业务对象,目标对象特征是指业务场景中,用于描述业务对象的某项特点的变量,并且目标对象特征为连续特征;对于业务场景中确定的目标业务对象,目标业务对象的目标对象特征可以采用具体的数据进行描述,这个数据可以称为目标业务对象在目标对象特征下的对象特征值。以游戏业务场景为例,目标对象特征可以包括但不限于以下至少一种:战力、胜率、以及活跃度,等等;战力是描述目标业务对象的在游戏中的战斗能力的特征,胜率是描述目标业务对象的在游戏中的胜利情况的特征,活跃度是描述目标业务对象的参与游戏活跃程度的特征。
S302,基于目标对象特征所在的特征空间内的连续性信息,提取目标业务对象在目标对象特征下的对象特征值所对应的目标表征信息。
特征空间具体可以是指业务场景中,目标对象特征所在的空间;目标对象特征所在的特征空间内的连续性信息具体可以是指:目标对象特征所在的特征空间是连续空间,目标对象特征可以在连续空间中任意取值;可以基于目标对象特征所在的特征空间内的连续性信息,提取目标业务对象在目标对象特征下的对象特征值所对应的表征信息。其中,目标表征信息可以用于在目标对象特征对应的表征空间中,表征目标业务对象在目标对象特征下的对象特征值;目标对象特征对应的表征空间具体可以是指业务场景中,目标对象特征对应的表征信息所在的空间,表征空间是连续空间。
目标对象特征所在的特征空间内的连续性信息可以采用目标对象特征在业务场景中的分布信息进行反映,也就是说,可以获取目标对象特征在业务场景中的分布信息,分布信息可以用于反映目标对象特征所在的特征空间内的连续性信息;然后,可以基于分布信息,将目标对象特征下的对象特征值从特征空间映射至表征空间,得到目标业务对象在目标对象特征下的对象特征值所对应的目标表征信息。
其中,分布信息可以包括累积分布函数(Cumulative Distribution Function),目标对象特征在业务场景中的累积分布函数,可以用于描述目标对象特征的取值落在某个区域之内的概率。基于分布信息,将目标对象特征下的对象特征值从特征空间映射至表征空间,得到目标业务对象在目标对象特征下的对象特征值所对应的目标表征信息的过程,具体可以包括:可以获取目标对象特征下的对象特征值,在累积分布函数中对应的累积函数值;在特征空间中,将累积函数值作为权重因子,对累积分布函数的期望进行加权计算;对累积分布函数的期望的加权结果进行积分计算,得到目标业务对象在目标对象特征下的对象特征值所对应的目标表征信息。具体可参见如下公式2:
Figure 793072DEST_PATH_IMAGE004
公式2
在上述公式2中,
Figure 827018DEST_PATH_IMAGE005
表示积分变量;a表示目标业务对象在目标对象特征下的对象 特征值;g(a)表示目标业务对象在目标对象特征下的对象特征值所对应的目标表征信息;H 为目标对象特征的取值范围;
Figure 118322DEST_PATH_IMAGE006
表示目标对象特征在业务场景中的概率密度函数 (Probability Density Function),可以用于描述目标对象特征的取值在某个确定的取值 点附近的可能性的函数;
Figure 588618DEST_PATH_IMAGE007
表示目标对象特征在业务场景中的累积分布函数;
Figure 256360DEST_PATH_IMAGE008
表示累积分布函数的期望,此处进行期望是因为,期望计算可以实现从低维空间 (特征空间为低维空间)向高维空间(表征空间为高维空间)的映射;
Figure 643347DEST_PATH_IMAGE009
表示目标对象特征 下的对象特征值a,在累积分布函数中对应的累积函数值;
Figure 105553DEST_PATH_IMAGE010
表示权重因子 (也可以称为权重函数)。
通过上述关于公式2的相关内容可知,本申请实施例可以基于目标对象特征在业务场景中的累积分布函数,将目标业务对象在目标对象特征下的对象特征值从特征空间映射至表征空间,得到目标业务对象在目标对象特征下的对象特征值所对应的目标表征信息;此处,采用累积分布函数是因为累积分布函数所在的累积分布空间是连续空间,通过累积分布函数可以将目标对象特征所在的特征空间内的连续性信息引入特征映射过程中;并且,通过对累积分布函数进期望计算,可以实现从低维空间到高维空间的映射,即可以实现从特征空间到表征空间的映射,从而,通过引入累积分布函数的期望计算可以提取连续特征对应的表征信息,并且,提取到的表征信息能够保留连续特征所在的特征空间内的连续性信息,使得提取到的表征信息能够较为准确地表征连续特征。
在上述公式2中,特征空间中的积分计算,可以采用累积分布函数对应的累积分布空间中的核回归计算进行拟合,累积分布空间是累积分布函数所在的空间;其中,核回归(Kernel Regression)计算是一种通过使用加权线性回归计算,来估计随机变量的条件期望的非参数方法;当我们需要使用核回归预测某个位置的函数值时,先要计算周围临近点与预测位置之间的相似度,然后根据相似度对各个临近点的函数值做加权和,最后的和就是该点的核回归预测值。从特征空间中的积分计算转换至累积分布空间中的核回归计算的转换过程,可以包括:
(1)可以令
Figure 328724DEST_PATH_IMAGE011
,则根据换元积分法,对上述公式2进行换元积分处理,可以 得到如下公式3:
Figure 534577DEST_PATH_IMAGE012
公式3
其中,换元积分法(Integration By Substitution)是求积分的一种方法,主要通 过引进中间变量(即
Figure 292185DEST_PATH_IMAGE011
)作变量替换使原式简易的方式来求积分。
(2)针对上述公式3,可以使用N+1(N为正整数)点梯形公式拟合积分,得到如下公式4:
Figure 190871DEST_PATH_IMAGE013
公式4
其中,N+1点梯形公式是采用N+1个拟合点进行积分拟合来求积分的一种方法。
(3)在计算权重因子时,可以引入核回归计算时采用的核函数,可以先使用一个核 函数
Figure 635758DEST_PATH_IMAGE014
,来计算相似度。再除以各点核函数的和,即如下公式5:
Figure 628991DEST_PATH_IMAGE015
公式5
将上述公式5代入上述公式4可以得到如下公式6:
Figure 741304DEST_PATH_IMAGE016
公式6
在上述公式6中,
Figure 545312DEST_PATH_IMAGE017
(4)第四步,对于累积分布空间中的任一个拟合点
Figure 743075DEST_PATH_IMAGE018
等价于一个可 训练的拟合表征信息,所以我们可以把与之相乘的常系数吸纳入学习范围,最终我们就得 到累积分布空间中的核回归计算的表达式,累积分布空间中的核回归计算的表达式可参见 如下公式7:
Figure 41463DEST_PATH_IMAGE019
公式7
如上述公式7所示,
Figure 8282DEST_PATH_IMAGE020
是累积分布空间(即区间[0,1])中均匀的N+1个拟合点; 基于上述公式7可知,累积分布空间中的核回归计算的拟合过程可以包括:
每个拟合点对应各自的拟合表征信息,例如,第k个拟合点
Figure 248771DEST_PATH_IMAGE021
对应的拟合表征信息 为
Figure 668251DEST_PATH_IMAGE022
;也就是说,可以获取累积分布空间中的N+1个拟合点中每个拟合点在目标对象特 征下对应的拟合表征信息,N为正整数;根据目标业务对象在目标对象特征下的对象特征值 a,在累积分布函数中对应的累积函数值
Figure 3286DEST_PATH_IMAGE009
,计算N+1个拟合点中每个拟合点对应的核权 重
Figure 824611DEST_PATH_IMAGE023
;然后,可以根据N+1个拟合点中每个拟合点的核权重,对N+1个拟合点中 每个拟合点在目标对象特征下对应的拟合表征信息进行加权求和计算,得到目标业务对象 在目标对象特征下的对象特征值所对应的目标表征信息。
基于上述公式7可以看出,以N+1个拟合点中的目标拟合点为例,目标拟合点可以 是N+1个拟合点中的任一个拟合点,目标拟合点对应的核权重的计算过程可以包括:可以获 取用于进行核回归计算的核函数,根据所述累积函数值
Figure 236001DEST_PATH_IMAGE009
,计算目标拟合点在所述核函 数下对应的核函数值
Figure 408356DEST_PATH_IMAGE024
;然后,可以根据目标拟合点在核函数下对应的核函数值, 与N+1个拟合点在核函数下对应的核函数值总和
Figure 45618DEST_PATH_IMAGE025
之间的比值,确定目标 拟合点对应的核权重。
基于以上(1)-(4)所描述的内容可知,本申请实施例可以采用累积分布空间中的核回归计算,拟合特征空间中的积分计算,这是因为在核回归计算中,各个拟合点对应的拟合表征信息之间是相互关联的,不是独立的,从而可以保留连续特征所在的特征空间的连续性信息,从而,累积分布空间中的核回归计算,可以较为准确地拟合特征空间中的积分计算。
其中,核函数的种类非常多,在不同的应用场景中,可以选择不同的核函数从而达到更好的效果;核回归计算所采用的核函数可以包括但不限于以下任一种:线性核函数、高斯核函数、以及多项式核函数,等等。本申请实施例在进行核回归计算时以核函数是高斯核函数为例,高斯核函数可参见如下公式8:
Figure 987029DEST_PATH_IMAGE026
公式8
将上述公式8代入核回归计算的公式7中,可以得到高斯核函数下的核回归计算公式,具体可参见如下公式9:
Figure 569320DEST_PATH_IMAGE027
公式9
在上述公式9中,h表示Brandwidth参数(宽度参数),h可以是可调的超参数,或者 可以是可训练参数,
Figure 963392DEST_PATH_IMAGE028
;h可以用于确定核回归计算结果更加关注累积分布空间中, 累积函数值
Figure 905809DEST_PATH_IMAGE009
的临近拟合点或全部拟合点。本申请实施例选用高斯核函数,是因为高斯 核函数中存在可变参数,在不同的业务场景下通过调节该参数,可以使得高斯核函数能够 更好地适应不同业务场景的特点,对于同一业务场景下的不同连续特征,通过调节该参数, 可以使得高斯核函数能够更好地适应不同的连续特征,从而可以在一定程度上提升表征信 息表征连续特征的表征准确率。
综上内容,在进行换元积分后,实现了目标业务对象在目标对象特征下的对象特 征值从特征空间到累积分布空间的映射,通过累积分布空间的核回归计算,实现了目标业 务对象在目标对象特征下的对象特征值从累积分布空间(
Figure 436148DEST_PATH_IMAGE029
)到表征空间(
Figure 923761DEST_PATH_IMAGE030
)的 映射(即
Figure 805129DEST_PATH_IMAGE031
),得到目标业务对象在目标对象特征下的对象特征值所对应的 目标表征信息。
S303,在业务场景中,根据目标表征信息对目标业务对象进行业务处理。
在提取出目标业务对象在目标对象特征下的对象特征值所对应的目标表征信息,可以在业务场景中,根据目标表征信息对目标业务对象进行业务处理。
需要说明的是,本申请实施例提供的数据处理方法是由计算机设备执行的,具体是由部署于计算机设备中的数据处理模型执行的。数据处理模型可以包括表征信息提取层和深度网络层;其中,表征信息提取层(ExpEmbLayer)可以用于提取表征信息;深度网络层可以用于基于表征信息进行业务处理,深度网络层可以采用多层感知机(Multi-LayerPerceptron)、分解机(Factorization Machine)、自注意力机制(Self-Attention)或全空间多任务模型(Entire Space Multi-Task Model,ESMM)等结构;例如,可以采用全空间多任务模型(ESMM)结构来构建深度网络层,该深度网络层与表征信息提取层(ExpEmbLayer)组成的数据处理模型可以称为ExpESMM。
由前述内容可知,在提取表征信息的过程中,N+1个拟合点中每个拟合点在目标对象特征下所对应的拟合表征信息是通过训练得到的,也就是说,N+1个拟合点中的每个拟合点在目标对象特征下所对应的拟合表征信息可以作为数据处理模型的模型参数进行训练。下面将以游戏业务场景中的流失好友召回任务为例,介绍N+1个拟合点中的每个拟合点在目标对象特征下所对应的拟合表征信息的训练过程;其中,流失好友召回任务是指:游戏业务场景中的活跃游戏对象,将活跃游戏对象在游戏业务场景中的流失好友对象召回游戏业务场景的任务;活跃游戏对象是指游戏参与度高、频繁访问游戏的游戏对象;活跃游戏对象的流失好友对象是指活跃游戏对象的好友对象中,在一段较长的时间范围内未对游戏进行访问的好友对象;N+1个拟合点中的每个拟合点在目标对象特征下所对应的拟合表征信息的训练过程,具体可以参见如下描述:
首先,可以获取N+1个拟合点中的每个拟合点在目标对象特征下对应的初始表征向量。其次,可以调用表征信息提取层,根据N+1个拟合点中的每个拟合点在目标对象特征下对应的初始表征向量,拟合活跃样本对象在目标对象特征下的样本特征值所对应的第一样本表征信息,活跃样本对象是指用于作为样本的活跃游戏对象,描述活跃样本对象的目标对象特征的数据,可以称为活跃样本对象在目标对象特征下的样本特征值;拟合过程与上述步骤S302中根据N+1个拟合点中的每个拟合点在目标对象特征下对应的拟合表征向量,拟合目标业务对象在目标对象特征下的对象特征值所对应的目标表征信息的过程相同,可参见上述步骤S302中的具体描述,在此不再赘述。以及,可以调用表征信息提取层,根据N+1个拟合点中的每个拟合点在目标对象特征下对应的初始表征向量,拟合活跃样本对象的流失样本对象在目标对象特征下的样本特征值所对应的第二样本表征信息,流失样本对象是活跃样本对象的流失好友对象中作为样本的流失好友对象,描述流失样本对象的目标对象特征的数据,可以称为流失样本对象在目标对象特征下的样本特征值;类似地,拟合过程可参见上述步骤S302中的具体描述,在此不再赘述。然后,可以根据第一样本表征信息和第二样本表征信息,更新N+1个拟合点中的每个拟合点在目标对象特征下对应的初始表征向量,以得到N+1个拟合点中的每个拟合点在所述目标对象特征下对应的拟合表征信息。
其中,第一样本表征信息和第二样本表征信息更新N+1个拟合点中的每个拟合点在目标对象特征下对应的初始表征向量的过程,可以包括:可以调用深度网络层,根据第一样本表征信息和第二样本表征信息,预测活跃样本对象与流失样本对象之间的召回回流情况;预测的召回回流情况可以包括以下任一种:活跃样本对象未对流失样本对象进行召回处理,活跃样本对象对流失样本对象进行召回处理但流失样本对象未回流,活跃样本对象对流失样本对象进行召回处理且流失样本对象回流了。然后,可以根据活跃样本对象与流失样本对象之间预测的召回回流情况,与活跃样本对象与流失样本对象之间真实的召回回流情况之间的差异,更新N+1个拟合点中的每个拟合点在目标对象特征下对应的初始表征向量,以得到N+1个拟合点中每个拟合点在目标对象特征下对应的拟合表征信息。通过对N+1个拟合点中每个拟合点在目标对象特征下对应的拟合表征信息进行训练,可以使得拟合表征信息与目标对象特征之间具备更强的关联性,从而,通过拟合表征信息拟合得到的目标表征信息可以更加准确地表征目标对象特征。
需要注意的是,目标对象特征的数量可以为一个或多个,以上训练相关内容介绍的是当目标对象特征的数量为一个时,N+1个拟合点中的每个拟合点在目标对象特征下对应的初始表征向量的过程。当目标对象特征的数量为多个时,拟合点在不同的目标对象特征下的拟合表征向量是不同的,拟合点在各个目标对象特征下的拟合表征向量可以分开训练,即拟合点在各个目标对象特征下的拟合表征向量的训练过程互不干扰,训练完成后将拟合点在各个目标对象特征下的拟合表征向量可以整合到同一数据处理模型的表征信息提取层中;或者,拟合点在各个目标对象特征下的拟合表征向量可以同时训练,即拟合点在各个目标对象特征下的拟合表征向量的可以作为同一个数据处理模型中的模型参数进行训练。可以看出,本申请实施例针对不同的连续特征,可以为不同的连续特征训练得到各自对应的拟合表征信息,例如,对于连续特征1,可以训练得到N+1个拟合点中每个拟合点在连续特征1下对应的拟合表征信息,对于连续特征2,可以训练得到N+1个拟合点中每个拟合点在连续特征2下对应的拟合表征信息,这样可以使得基于拟合点对应的拟合表征信息,能够更加准确地拟合该连续特征对应的表征信息。
另外,以上训练相关内容介绍的是针对数据处理模型的一次训练过程,一个<活跃样本对象,流失样本对象>可以更新一次拟合点在目标对象特征下对应的初始表征向量,在实际的训练过程中,需要多个<活跃样本对象,流失样本对象>,对拟合点在目标对象特征下对应的初始表征向量进行更新,直至达到训练终止条件,得到N+1个拟合点中的每个拟合点在目标对象特征下对应的拟合表征信息;其中,达到训练条件可以包括:训练次数达到次数阈值,或者预测的召回回流情况与真实的召回回流情况之间的差异在差异范围之内。
还需补充说明的是,当选择高斯核函数作为核回归计算所采用的核函数时,Brandwidth参数(宽度参数)可以是可调的超参数,或者可以是可训练参数;当Brandwidth参数时可训练参数时,与N+1个拟合点中每个拟合点所对应的拟合表征信息类似,可以将Brandwidth参数作为数据处理模型中的模型参数进行训练。更为具体地,可以在数据处理模型中构建一个旁路网络来对Brandwidth参数进行训练,即将Brandwidth参数作为旁路网络的网络参数。对于不同的业务场景,可以训练得到各自的Brandwidth参数,应用在各自的业务场景中,例如,流失好友召回场景可以训练得到流失好友召回场景的Brandwidth参数,流失对象召回场景可以训练得到流失好友召回场景的Brandwidth参数,通过这种方式,可以使得高斯核函数能够更好地适应不同业务场景的特点,从而可以在一定程度上提升表征信息对连续特征的表征准确率。对于同一业务场景中的不同连续特征,也可以训练得到各自的Brandwidth参数,用于拟合不同连续特征对应的表征信息;例如,业务场景中涉及连续特征1和连续特征2,可以训练得到连续特征1的Brandwidth参数,用于拟合连续特征1对应的表征信息,也可以训练得到连续特征2的Brandwidth参数,用于拟合连续特征2对应的表征信息,这样可以使得高斯核函数能够更好地适应不同的连续特征,从而使得表征信息能够更加准确地表征连续特征。
本申请实施例中,目标对象特征是连续特征,基于目标对象特征所在的特征空间内的连续性信息,提取目标业务对象在目标对象特征下的对象特征值所对应的目标表征向量,可以使得提取得到的目标表征向量能够保留目标对象特征所在的特征空间内的连续性信息,从而可以使得提取到的目标表征信息能够在目标对象特征对应的表征空间中,较为准确地表征目标业务对象在目标对象特征下的对象特征值;基于此,在业务场景中,根据目标表征信息对目标业务对象进行业务处理,可以提高业务处理的准确率。也就是说,本申请实施例可以提取能够较为准确地表征连续特征的表征信息,从而可以提升基于表征信息的业务处理准确率。
本申请实施例提供一种数据处理方法,该数据处理方法主要介绍基于表征信息的业务处理流程。该数据处理方法可以由计算机设备执行,计算机设备可以是终端或服务器。如图4所示,该数据处理方法可以包括但不限于以下步骤S401-步骤S403:
S401,获取业务场景中的目标业务对象在目标对象特征下的对象特征值,目标对象特征为连续特征。
本申请实施例中步骤S401的执行过程与上述图3所示实施例中步骤S301的执行过程相同,具体可参见上述图3所示实施例中步骤S301的执行过程,在此不再赘述。
S402,基于目标对象特征所在的特征空间内的连续性信息,提取目标业务对象在目标对象特征下的对象特征值所对应的目标表征信息。
本申请实施例中步骤S402的执行过程与上述图3所示实施例中步骤S302的执行过程相同,具体可参见上述图3所示实施例中步骤S302的执行过程,在此不再赘述。
S403,在业务场景中,根据目标表征信息对目标业务对象进行业务处理。
以业务场景是游戏业务场景为例,游戏业务场景中可以包括流失好友召回任务,流失好友召回任务是指:游戏业务场景中的活跃游戏对象,将活跃游戏对象在游戏业务场景中的流失好友对象召回游戏业务场景的任务;活跃游戏对象是指游戏参与度高、频繁访问游戏的游戏对象;活跃游戏对象的流失好友对象是指活跃游戏对象的好友对象中,在一段较长的时间范围内未对游戏进行访问的好友对象。在流失好友召回任务中,目标业务对象可以是游戏业务场景中的任一个活跃游戏对象,根据目标表征信息对目标业务对象进行业务处理的过程可以包括以下子步骤s11-子步骤s13:
s11,确定目标业务对象在游戏业务场景中的流失好友对象,并获取流失好友对象在目标对象特征下的对象特征值所对应的流失表征信息。
在流失好友召回任务中,流失好友对象对应的流失表征信息可以是由训练好的数据处理模型中的表征信息提取层提取得到的,流失好友对象对应的流失表征信息的提取过程,与目标业务对象对应的目标表征信息的提取过程类似,具体可参见上述图3所示实施例中步骤S302的描述,在此不再赘述。
s12,根据目标表征信息和流失表征信息,对目标业务对象与流失好友对象之间的召回回流情况进行分析,确定目标业务对象对流失好友对象进行召回处理且流失好友对象回流的概率。
在流失好友召回任务中,对目标业务对象与流失好友对象之间的召回回流情况进行分析,具体可以是由训练好的数据处理模型中的深度网络层执行的;在流失好友召回任务中,深度网络层中可以包括召回深度网络和回流深度网络,召回深度网络和回流深度网络可以是两个独立的双层感知机,召回深度网络可以用于对召回情况进行分析,回流深度网络可以用于对回流情况进行分析。对目标业务对象与流失好友对象之间的召回回流情况进行分析的过程,具体可以包括:
首先,可以调用深度网络层中的召回深度网络,根据目标表征信息和流失表征信息,对目标业务对象与流失好友对象之间的召回情况进行分析,确定目标业务对象对流失好友对象进行召回处理的第一概率。其中,目标业务对象对流失好友对象进行召回处理的第一概率,也可以称为点击率(CTR),更为具体地,例如可以是指目标业务对象对流失好友对象发起召回活动邀请的概率。
其次,可以调用深度网络层中的回流深度网络,根据目标表征信息和流失表征信息,对目标业务对象与流失好友对象之间的回流情况进行分析,确定在目标业务对象对流失好友对象进行了召回处理的前提条件下,流失好友对象回流的第二概率。其中,第二概率也可以称为转化率(CVR),更为具体地,例如可以是指在目标业务对象对流失好友对象发起了召回活动邀请的前提条件下,流失好友对象参与召回活动的概率。
然后,可以将第一概率与第二概率之间的乘积,确定为目标业务对象对流失好友对象进行召回处理且流失好友对象回流的概率,该概率也可以称为点击转化率(CTCVR)。
s13,若目标业务对象对流失好友对象进行召回处理且流失好友对象回流的概率满足召回条件,则将流失好友对象确定为目标业务对象需要召回的对象。
若目标业务对象对流失好友对象进行召回处理且流失好友对象回流的概率满足召回条件(例如,目标业务对象对流失好友对象进行召回处理且流失好友对象回流的概率大于第一概率阈值),则可以将流失好友对象确定为目标业务对象需要召回的对象;将流失好友对象确定为目标业务对象需要召回的对象,具体可以包括:向流失好友对象发起召回活动的邀请,或者将流失好友对象添加至目标业务对象的召回对象列表(也可以称为推荐列表)中。
流失好友召回任务的业务处理流程,具体可以参见图5所示的场景示意图:当活跃游戏对象通过活跃游戏对象的游戏客户端向游戏服务器发起流失好友召回请求时,游戏服务器通过对活跃游戏对象与活跃游戏对象的各个流失好友对象之间的召回回流情况进行分析,最终可以在各个流失好友对象中,确定出活跃游戏对象需要召回的对象,并将这部分需要召回的流失好友对象推送至活跃游戏对象的游戏客户端;活跃游戏对象可以向这部分需要召回的流失好友对象发起召回邀请。在流失好友召回任务的业务处理流程中,游戏服务器提取到的活跃游戏对象对应的表征信息能够较为准确地表征活跃游戏对象的对象特征,流失好友对象对应的表征信息能够较为准确地表征流失好友对象的对象特征,从而,游戏服务器能够较为准确地向活跃游戏对象推送发起召回邀请后回流概率高的流失好友对象,可以提升游戏业务场景中流失好友召回任务的准确性。
或者,游戏业务场景中可以包括流失对象召回任务,流失对象召回任务是指:对游戏业务场景中的流失游戏对象进行召回处理的任务;流失游戏对象是指在一段较长的时间范围内未对游戏进行访问的游戏对象。在流失对象召回任务中,目标业务对象可以是游戏业务场景中的任一个流失游戏对象,根据目标表征信息对目标业务对象进行业务处理的过程可以包括以下子步骤s21-子步骤s22:
s21,根据目标表征信息,对目标业务对象进行回流分析,得到目标业务对象的回流概率。
在流失对象召回任务中,提取目标业务对象对应的目标表征信息具体可以是由数据处理模型中的表征信息提取层执行的,提取目标业务对象对应的目标表征信息的过程具体可以参见上述图3所示实施例中步骤S302的描述,在此不再赘述;对目标业务对象进行回流分析具体可以是由数据处理模型中的深度网络层执行的,深度网络层可以用于对回流情况进行分析。目标业务对象的回流概率是指,在对目标业务对象进行召回处理后,目标业务对象回流的概率,更为详细地,例如可以是指在向目标业务对象发送召回活动的邀请后,目标业务对象参考召回活动的概率。
s22,根据目标业务对象的回流概率,对目标业务对象进行召回处理。
根据目标业务对象的回流概率,对目标业务对象进行召回处理,具体可以是指:若目标业务对象的回流概率满足召回条件(例如,目标业务对象的回流概率大于第二概率阈值),则可以向目标业务对象发送召回邀请,例如,向目标业务对象发送召回活动的邀请。
流失对象召回任务的业务处理流程,具体可以参见图6所示的场景示意图:为了提升游戏的参与流量,游戏会不定期产生一些召回活动,以召回流失游戏对象;当游戏中存在召回活动时,游戏服务器可以对流失游戏对象进行回流分析,确定流失游戏对象的回流概率,然后会向回流概率较高的流失游戏对象推送召回活动。在流失对象召回任务的业务处理流程中,游戏服务器提取到的流失游戏对象对应的表征信息能够较为准确地表征流失游戏对象的对象特征,从而,游戏服务器能够较为准确地确定出回流概率高的流失游戏对象进行召回推送,可以提升游戏业务场景中流失对象召回任务的准确性。
以上步骤S403所介绍的内容中,对目标业务对象进行业务处理时,考虑了目标业务对象在目标对象特征(目标对象特征是连续特征)下的对象特征值所对应的目标表征信息。在实际的业务处理中,可以综合考虑业务场景中的连续特征和离散特征进行业务处理。具体来说,可以获取目标业务对象在参考对象特征下的对象特征值,参考对象特征是指业务场景中,用于描述业务对象的某项特点的变量,并且参考对象特征为离散特征;对于业务场景中确定的目标业务对象,目标业务对象的参考对象特征可以采用具体的数据进行描述,这个数据可以称为目标业务对象在参考对象特征下的对象特征值。以游戏业务场景为例,参考对象特征可以包括但不限于以下至少一种:游戏访问次数、以及游戏等级,等等。其次,可以提取目标业务对象在参考对象特征下的对象特征值所对应的参考表征信息,参考表征信息可以用于在参考业务对象所在的表征空间中,表征目标业务对象在参考对象特征下的对象特征值。然后,可以根据目标表征信息和参考表征信息,对目标业务对象进行业务处理。
综合考虑连续特征和离散特征时的业务处理流程,与单独考虑连续特征时业务处理流程是类似的。例如,在游戏业务场景的流失好友召回任务中,可以根据目标业务对象对应的目标表征信息和参考表征信息,以及流失好友对象对应的流失表征信息和参考表征信息,对目标业务对象与流失好友对象之间的召回回流情况进行分析,确定目标业务对象对流失好友对象进行召回处理且流失好友对象回流的概率,若目标业务对象对流失好友对象进行召回处理且流失好友对象回流的概率满足召回条件,则可以将流失好友对象确定为目标业务对象需要召回的对象。又如,在游戏业务场景的流失对象召回任务中,可以根据目标业务对象对应的目标表征信息和参考表征信息,对目标业务对象进行回流分析,确定目标业务对象的回流概率,若目标业务对象的回流概率满足召回条件,则可以对目标业务对象进行召回处理。通过综合考虑目标业务对象在业务场景中的连续特征和离散特征,可以从更加全面的角度对目标业务对象进行业务处理,能够在一定程度上提升业务处理的准确率。
本申请实施例中,基于目标对象特征所在的特征空间内的连续性信息,提取目标业务对象在目标对象特征下的对象特征值所对应的目标表征向量,可以使得提取得到的目标表征向量能够保留目标对象特征所在的特征空间内的连续性信息,从而可以使得提取到的目标表征信息能够在目标对象特征对应的表征空间中,较为准确地表征目标业务对象在目标对象特征下的对象特征值;基于此,在业务场景中,根据目标表征信息对目标业务对象进行业务处理,可以提高业务处理的准确率。另外,在对目标业务对象进行业务处理时,可以综合考虑率目标业务对象的连续特征和离散特征,使得对目标业务对象的业务处理更加全面准确。
下面对本申请实施例提供的数据处理方案在对比试验中的实验结果进行介绍:
对比指标:
对游戏业务场景中的每个活跃游戏对象生成包含5个流失好友对象的推荐列表,在推荐列表中,各个流失好友对象按照CTCVR由高至低的顺序进行排序;CTCVR越高,表示对流失好友对象进行召回处理后,该流失好友对象回流的概率越高,即该流失好友对象的召回优先级越高。通过各个活跃游戏对象的推荐列表中成功回流的流失好友对象数量,以及成功回流的流失好友对象在推荐列表中的平均排序这两个指标,来评估本申请实施例所提供的数据处理方案的效果,以及来评估参与对比实验的各个对比方案的效果。
对比方案:
采用本申请实施例所提供的数据处理方案与另外4个对比方案进行对比实验。4个对比方案分别如下:
(1)对比方案1:不考虑活跃游戏对象与流失好友对象的对象特征,按照游戏业务场景中活跃游戏对象与游戏好友对象进行游戏社交时,根据活跃游戏对象与游戏好友对象之间的互动计算的亲密度排序来生成好友的推荐列表。
(2)对比方案2:考虑活跃游戏对象与流失好友对象的对象特征的树分类模型XGBoost,XGBoost是一种基于决策树的集成机器学习算法。
(3)对比方案3:在考虑活跃游戏对象与流失好友对象的对象特征的基础上,根据活跃游戏对象与流失好友对象历史活动的点击、分享、和传播等操作计算Reward(奖励)的强化学习模型DRL(Deep Reinforcement Learning,深度强化学习)。
(4)对比方案4:结合网络结构,以及活跃游戏对象与流失好友对象的对象特征进行综合推荐的深度图神经网络Bilinear(双线性插值)。
实验结果:
对比实验的实验结果如表1所示:
表1
方案 成功回流的流失好友对象数量 成功回流的流失好友对象在推荐列表中的平均排序
对比方案1 44848 1.99248954
对比方案2 50020 1.92789912
对比方案3 52664 1.814809092
对比方案4 53452 1.794349996
数据处理方案 53477 1.784422433
如上表1所示的实验结果,可以看出,本申请实施例所提出的数据处理方案生成的推荐列表中,成功回流的流失好友对象数量是最多的。并且,本申请实施例所提出的数据处理方案生成的推荐列表中,成功回流的流失好友对象在推荐列表中的平均排序位置是最靠前的。具体而言,在成功回流的流失好友对象数量这个指标上,本申请实施例提出的数据处理方案相对于对比方案1、对比方案2、对比方案3、以及对比方案4分别提升了19.24%、6.91%、1.54%、以及0.05%;在成功回流的流失好友对象在推荐列表中的平均排序这个指标上,本申请实施例提出的数据处理方案相对于对比方案1、对比方案2、对比方案3、以及对比方案4分别更靠前10.44%,7.44%,1.67%,0.55%。
需要说明的是,本申请以上各实施例中提及的深度网络,涉及人工智能技术领域中的深度学习。其中:
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
深度学习(Deep Learning,DL)是机器学习(Machine Learning,ML)领域中一个新的研究方向,深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。
可以理解的是,在本申请以上各实施例中,涉及到业务对象的对象特征等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得业务对象的许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
上述详细阐述了本申请实施例的方法,为了便于更好地实施本申请实施例的上述方案,相应地,下面提供了本申请实施例的装置。
请参见图7,图7是本申请实施例提供的一种数据处理装置的结构示意图,该数据处理装置可以设置于本申请实施例提供的计算机设备中,计算机设备可以是上述方法实施例中提及的终端或服务器。图7所示的数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),该数据处理装置可以用于执行图3或图4所示的方法实施例中的部分或全部步骤。请参见图7,该数据处理装置可以包括如下单元:
获取单元701,用于获取业务场景中的目标业务对象在目标对象特征下的对象特征值,目标对象特征为连续特征;
处理单元702,用于基于目标对象特征所在的特征空间内的连续性信息,提取目标业务对象在目标对象特征下的对象特征值所对应的目标表征信息;其中,目标表征信息用于在目标对象特征对应的表征空间中,表征目标业务对象在目标对象特征下的对象特征值;
处理单元702,还用于在业务场景中,根据目标表征信息对目标业务对象进行业务处理。
在一种实现方式中,处理单元702,用于基于目标对象特征所在的特征空间内的连续性信息,提取目标业务对象在目标对象特征下的对象特征值所对应的目标表征信息时,具体用于执行如下步骤:
获取目标对象特征在业务场景中的分布信息;分布信息用于反映目标对象特征所在的特征空间内的连续性信息;
基于分布信息,将目标对象特征下的对象特征值从特征空间映射至表征空间,得到目标业务对象在目标对象特征下的对象特征值所对应的目标表征信息。
在一种实现方式中,分布信息包括累积分布函数;处理单元702,用于基于分布信息,将目标对象特征下的对象特征值从特征空间映射至表征空间,得到目标业务对象在目标对象特征下的对象特征值所对应的目标表征信息时,具体用于执行如下步骤:
获取目标对象特征下的对象特征值,在累积分布函数中对应的累积函数值;
在特征空间中,将累积函数值作为权重因子,对累积分布函数的期望进行加权计算;
对累积分布函数的期望的加权结果进行积分计算,得到目标业务对象在目标对象特征下的对象特征值所对应的目标表征信息。
在一种实现方式中,特征空间中的积分计算,被采用累积分布函数对应的累积分布空间中的核回归计算进行拟合;拟合的过程包括:
获取累积分布空间中的N+1个拟合点中每个拟合点在所述目标对象特征下对应的拟合表征信息,N为正整数;
根据累积函数值,计算N+1个拟合点中每个拟合点对应的核权重;
根据N+1个拟合点中每个拟合点的核权重,对N+1个拟合点中每个拟合点在目标对象特征下对应的拟合表征信息进行加权求和计算,得到目标业务对象在目标对象特征下的对象特征值所对应的目标表征信息。
在一种实现方式中,处理单元702,用于根据累积函数值,计算N+1个拟合点中每个拟合点对应的核权重时,具体用于执行如下步骤:
获取用于进行核回归计算的核函数;
针对N+1个拟合点中的目标拟合点,根据累积函数值,计算目标拟合点在核函数下对应的核函数值;
根据目标拟合点在核函数下对应的核函数值,与N+1个拟合点中的各个拟合点在核函数下对应的核函数值总和之间的比值,确定目标拟合点对应的核权重。
在一种实现方式中,N+1个拟合点中每个拟合点在目标对象特征下对应的拟合表征信息是训练得到的;N+1个拟合点中每个拟合点在目标对象特征下对应的拟合表征信息的训练过程,包括:
获取N+1个拟合点中的每个拟合点在目标对象特征下对应的初始表征向量;
根据N+1个拟合点中的每个拟合点在目标对象特征下对应的初始表征向量,拟合活跃样本对象在目标对象特征下的样本特征值所对应的第一样本表征信息;
以及,根据N+1个拟合点中的每个拟合点在目标对象特征下对应的初始表征向量,拟合活跃样本对象的流失样本对象在目标对象特征下的样本特征值所对应的第二样本表征信息;
根据第一样本表征信息和第二样本表征信息,更新N+1个拟合点中的每个拟合点在目标对象特征下对应的初始表征向量,以得到N+1个拟合点中每个拟合点在目标对象特征下对应的拟合表征信息。
在一种实现方式中,处理单元702,用于根据第一样本表征信息和第二样本表征信息,更新N+1个拟合点中的每个拟合点在目标对象特征下对应的初始表征向量,以得到N+1个拟合点中每个拟合点在目标对象特征下对应的拟合表征信息时,具体用于执行如下步骤:
根据第一样本表征信息和第二样本表征信息,预测活跃样本对象与流失样本对象之间的召回回流情况;
根据活跃样本对象与流失样本对象之间预测的召回回流情况,与活跃样本对象与流失样本对象之间真实的召回回流情况之间的差异,更新N+1个拟合点中的每个拟合点在目标对象特征下对应的初始表征向量,以得到N+1个拟合点中每个拟合点在目标对象特征下对应的拟合表征信息。
在一种实现方式中,获取单元701,还用于获取目标业务对象在参考对象特征下的对象特征值;参考对象特征为离散特征;
处理单元702,还用于提取目标业务对象在参考对象特征下的对象特征值所对应的参考表征信息;
处理单元702,用于在业务场景中,根据目标表征信息对目标业务对象进行业务处理时,具体用于执行如下步骤:
在业务场景中,根据目标表征信息和参考表征信息,对目标业务对象进行业务处理。
在一种实现方式中,业务场景包括游戏业务场景,目标业务对象是游戏业务场景中的活跃游戏对象;处理单元702,用于在业务场景中,根据目标表征信息对目标业务对象进行业务处理时,具体用于执行如下步骤:
确定目标业务对象在游戏业务场景中的流失好友对象,并获取流失好友对象在目标对象特征下的对象特征值所对应的流失表征信息;
根据目标表征信息和流失表征信息,对目标业务对象与流失好友对象之间的召回回流情况进行分析,确定目标业务对象对流失好友对象进行召回处理且流失好友对象回流的概率;
若目标业务对象对流失好友对象进行召回处理且流失好友对象回流的概率满足召回条件,则将流失好友对象确定为目标业务对象需要召回的对象。
在一种实现方式中,业务场景包括游戏业务场景,目标业务对象是游戏业务场景中的流失游戏对象;处理单元702,用于在业务场景中,根据目标表征信息对目标业务对象进行业务处理时,具体用于执行如下步骤:
根据目标表征信息,对目标业务对象进行回流分析,得到目标业务对象的回流概率;
根据目标业务对象的回流概率,对目标业务对象进行召回处理。
根据本申请的另一个实施例,图7所示的数据处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,数据处理装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图3或图4所示的部分或全部方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图7中所示的数据处理装置,以及来实现本申请实施例的数据处理方法。计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质装载于上述计算设备中,并在其中运行。
本申请实施例中,目标对象特征是连续特征,基于目标对象特征所在的特征空间内的连续性信息,提取目标业务对象在目标对象特征下的对象特征值所对应的目标表征向量,可以使得提取得到的目标表征向量能够保留目标对象特征所在的特征空间内的连续性信息,从而可以使得提取到的目标表征信息能够在目标对象特征对应的表征空间中,较为准确地表征目标业务对象在目标对象特征下的对象特征值;基于此,在业务场景中,根据目标表征信息对目标业务对象进行业务处理,可以提高业务处理的准确率。也就是说,本申请实施例可以提取能够较为准确地表征连续特征的表征信息,从而可以提升基于表征信息的业务处理准确率。
基于上述方法以及装置实施例,本申请实施例提供了一种计算机设备,该计算机设备可以是前述所提及的终端或服务器。请参见图8,图8是本申请实施例提供的一种计算机设备的结构示意图。图8所示的计算机设备至少包括处理器801、输入接口802、输出接口803以及计算机可读存储介质804。其中,处理器801、输入接口802、输出接口803以及计算机可读存储介质804可通过总线或其他方式连接。
计算机可读存储介质804可以存储在计算机设备的存储器中,计算机可读存储介质804用于存储计算机程序,计算机程序包括计算机指令,处理器801用于执行计算机可读存储介质804存储的程序指令。处理器801(或称CPU(Central Processing Unit,中央处理器))是计算机设备的计算核心以及控制核心,其适于实现一条或多条计算机指令,具体适于加载并执行一条或多条计算机指令从而实现相应方法流程或相应功能。
本申请实施例还提供了一种计算机可读存储介质(Memory),计算机可读存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了计算机设备的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或多条的计算机指令,这些计算机指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(Non-VolatileMemory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器的计算机可读存储介质。
在一些实施例中,可由处理器801加载并执行计算机可读存储介质804中存放的一条或多条计算机指令,以实现上述有关图3或图4所示的数据处理方法的相应步骤。具体实现中,计算机可读存储介质804中的计算机指令由处理器801加载并执行如下步骤:
获取业务场景中的目标业务对象在目标对象特征下的对象特征值,目标对象特征为连续特征;
基于目标对象特征所在的特征空间内的连续性信息,提取目标业务对象在目标对象特征下的对象特征值所对应的目标表征信息;其中,目标表征信息用于在目标对象特征对应的表征空间中,表征目标业务对象在目标对象特征下的对象特征值;
在业务场景中,根据目标表征信息对目标业务对象进行业务处理。
在一种实现方式中,计算机可读存储介质804中的计算机指令由处理器801加载并执行基于目标对象特征所在的特征空间内的连续性信息,提取目标业务对象在目标对象特征下的对象特征值所对应的目标表征信息时,具体用于执行如下步骤:
获取目标对象特征在业务场景中的分布信息;分布信息用于反映目标对象特征所在的特征空间内的连续性信息;
基于分布信息,将目标对象特征下的对象特征值从特征空间映射至表征空间,得到目标业务对象在目标对象特征下的对象特征值所对应的目标表征信息。
在一种实现方式中,分布信息包括累积分布函数;计算机可读存储介质804中的计算机指令由处理器801加载并执行基于分布信息,将目标对象特征下的对象特征值从特征空间映射至表征空间,得到目标业务对象在目标对象特征下的对象特征值所对应的目标表征信息时,具体用于执行如下步骤:
获取目标对象特征下的对象特征值,在累积分布函数中对应的累积函数值;
在特征空间中,将累积函数值作为权重因子,对累积分布函数的期望进行加权计算;
对累积分布函数的期望的加权结果进行积分计算,得到目标业务对象在目标对象特征下的对象特征值所对应的目标表征信息。
在一种实现方式中,特征空间中的积分计算,被采用累积分布函数对应的累积分布空间中的核回归计算进行拟合;拟合的过程包括:
获取累积分布空间中的N+1个拟合点中每个拟合点在所述目标对象特征下对应的拟合表征信息,N为正整数;
根据累积函数值,计算N+1个拟合点中每个拟合点对应的核权重;
根据N+1个拟合点中每个拟合点的核权重,对N+1个拟合点中每个拟合点在目标对象特征下对应的拟合表征信息进行加权求和计算,得到目标业务对象在目标对象特征下的对象特征值所对应的目标表征信息。
在一种实现方式中,计算机可读存储介质804中的计算机指令由处理器801加载并执行根据累积函数值,计算N+1个拟合点中每个拟合点对应的核权重时,具体用于执行如下步骤:
获取用于进行核回归计算的核函数;
针对N+1个拟合点中的目标拟合点,根据累积函数值,计算目标拟合点在核函数下对应的核函数值;
根据目标拟合点在核函数下对应的核函数值,与N+1个拟合点中的各个拟合点在核函数下对应的核函数值总和之间的比值,确定目标拟合点对应的核权重。
在一种实现方式中,N+1个拟合点中每个拟合点在目标对象特征下对应的拟合表征信息是训练得到的;N+1个拟合点中每个拟合点在目标对象特征下对应的拟合表征信息的训练过程,包括:
获取N+1个拟合点中的每个拟合点在目标对象特征下对应的初始表征向量;
根据N+1个拟合点中的每个拟合点在目标对象特征下对应的初始表征向量,拟合活跃样本对象在目标对象特征下的样本特征值所对应的第一样本表征信息;
以及,根据N+1个拟合点中的每个拟合点在目标对象特征下对应的初始表征向量,拟合活跃样本对象的流失样本对象在目标对象特征下的样本特征值所对应的第二样本表征信息;
根据第一样本表征信息和第二样本表征信息,更新N+1个拟合点中的每个拟合点在目标对象特征下对应的初始表征向量,以得到N+1个拟合点中每个拟合点在目标对象特征下对应的拟合表征信息。
在一种实现方式中,计算机可读存储介质804中的计算机指令由处理器801加载并执行根据第一样本表征信息和第二样本表征信息,更新N+1个拟合点中的每个拟合点在目标对象特征下对应的初始表征向量,以得到N+1个拟合点中每个拟合点在目标对象特征下对应的拟合表征信息时,具体用于执行如下步骤:
根据第一样本表征信息和第二样本表征信息,预测活跃样本对象与流失样本对象之间的召回回流情况;
根据活跃样本对象与流失样本对象之间预测的召回回流情况,与活跃样本对象与流失样本对象之间真实的召回回流情况之间的差异,更新N+1个拟合点中的每个拟合点在目标对象特征下对应的初始表征向量,以得到N+1个拟合点中每个拟合点在目标对象特征下对应的拟合表征信息。
在一种实现方式中,计算机可读存储介质804中的计算机指令由处理器801加载并还用于执行如下步骤:
获取目标业务对象在参考对象特征下的对象特征值;参考对象特征为离散特征;
提取目标业务对象在参考对象特征下的对象特征值所对应的参考表征信息;
计算机可读存储介质804中的计算机指令由处理器801加载并执行在业务场景中,根据目标表征信息对目标业务对象进行业务处理时,具体用于执行如下步骤:
在业务场景中,根据目标表征信息和参考表征信息,对目标业务对象进行业务处理。
在一种实现方式中,业务场景包括游戏业务场景,目标业务对象是游戏业务场景中的活跃游戏对象;计算机可读存储介质804中的计算机指令由处理器801加载并执行在业务场景中,根据目标表征信息对目标业务对象进行业务处理时,具体用于执行如下步骤:
确定目标业务对象在游戏业务场景中的流失好友对象,并获取流失好友对象在目标对象特征下的对象特征值所对应的流失表征信息;
根据目标表征信息和流失表征信息,对目标业务对象与流失好友对象之间的召回回流情况进行分析,确定目标业务对象对流失好友对象进行召回处理且流失好友对象回流的概率;
若目标业务对象对流失好友对象进行召回处理且流失好友对象回流的概率满足召回条件,则将流失好友对象确定为目标业务对象需要召回的对象。
在一种实现方式中,业务场景包括游戏业务场景,目标业务对象是游戏业务场景中的流失游戏对象;计算机可读存储介质804中的计算机指令由处理器801加载并执行在业务场景中,根据目标表征信息对目标业务对象进行业务处理时,具体用于执行如下步骤:
根据目标表征信息,对目标业务对象进行回流分析,得到目标业务对象的回流概率;
根据目标业务对象的回流概率,对目标业务对象进行召回处理。
本申请实施例中,目标对象特征是连续特征,基于目标对象特征所在的特征空间内的连续性信息,提取目标业务对象在目标对象特征下的对象特征值所对应的目标表征向量,可以使得提取得到的目标表征向量能够保留目标对象特征所在的特征空间内的连续性信息,从而可以使得提取到的目标表征信息能够在目标对象特征对应的表征空间中,较为准确地表征目标业务对象在目标对象特征下的对象特征值;基于此,在业务场景中,根据目标表征信息对目标业务对象进行业务处理,可以提高业务处理的准确率。也就是说,本申请实施例可以提取能够较为准确地表征连续特征的表征信息,从而可以提升基于表征信息的业务处理准确率。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选方式中提供的数据处理方法。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (12)

1.一种数据处理方法,其特征在于,包括:
获取业务场景中的目标业务对象在目标对象特征下的对象特征值,所述目标对象特征为连续特征;
获取所述目标对象特征在所述业务场景中的分布信息;所述分布信息用于反映所述目标对象特征所在的特征空间内的连续性信息;基于所述分布信息,将所述目标对象特征下的对象特征值从所述特征空间映射至表征空间,得到所述目标业务对象在所述目标对象特征下的对象特征值所对应的目标表征信息;其中,所述目标对象特征所在的特征空间内的连续性信息是指:所述目标对象特征所在的特征空间是连续空间,所述目标对象特征在连续空间中任意取值;所述目标表征信息用于在所述目标对象特征对应的所述表征空间中,表征所述目标业务对象在所述目标对象特征下的对象特征值;
在所述业务场景中,根据所述目标表征信息对所述目标业务对象进行业务处理。
2.如权利要求1所述的方法,其特征在于,所述分布信息包括累积分布函数;所述基于所述分布信息,将所述目标对象特征下的对象特征值从所述特征空间映射至所述表征空间,得到所述目标业务对象在所述目标对象特征下的对象特征值所对应的目标表征信息,包括:
获取所述目标对象特征下的对象特征值,在所述累积分布函数中对应的累积函数值;
在所述特征空间中,将所述累积函数值作为权重因子,对所述累积分布函数的期望进行加权计算;
对所述累积分布函数的期望的加权结果进行积分计算,得到所述目标业务对象在所述目标对象特征下的对象特征值所对应的目标表征信息。
3.如权利要求2所述的方法,其特征在于,所述特征空间中的积分计算,被采用所述累积分布函数对应的累积分布空间中的核回归计算进行拟合;所述拟合的过程包括:
获取所述累积分布空间中的N+1个拟合点中每个拟合点在所述目标对象特征下对应的拟合表征信息,N为正整数;
根据所述累积函数值,计算所述N+1个拟合点中每个拟合点对应的核权重;
根据所述N+1个拟合点中每个拟合点的核权重,对所述N+1个拟合点中每个拟合点在所述目标对象特征下对应的拟合表征信息进行加权求和计算,得到所述目标业务对象在所述目标对象特征下的对象特征值所对应的目标表征信息。
4.如权利要求3所述的方法,其特征在于,所述根据所述累积函数值,计算所述N+1个拟合点中每个拟合点对应的核权重,包括:
获取用于进行所述核回归计算的核函数;
针对所述N+1个拟合点中的目标拟合点,根据所述累积函数值,计算所述目标拟合点在所述核函数下对应的核函数值;
根据所述目标拟合点在所述核函数下对应的核函数值,与所述N+1个拟合点中的各个拟合点在所述核函数下对应的核函数值总和之间的比值,确定所述目标拟合点对应的核权重。
5.如权利要求3所述的方法,其特征在于,所述N+1个拟合点中每个拟合点在所述目标对象特征下对应的拟合表征信息是训练得到的;所述N+1个拟合点中每个拟合点在所述目标对象特征下对应的拟合表征信息的训练过程,包括:
获取所述N+1个拟合点中的每个拟合点在所述目标对象特征下对应的初始表征向量;
根据所述N+1个拟合点中的每个拟合点在所述目标对象特征下对应的初始表征向量,拟合活跃样本对象在所述目标对象特征下的样本特征值所对应的第一样本表征信息;以及,
根据所述N+1个拟合点中的每个拟合点在所述目标对象特征下对应的初始表征向量,拟合所述活跃样本对象的流失样本对象在所述目标对象特征下的样本特征值所对应的第二样本表征信息;
根据所述第一样本表征信息和所述第二样本表征信息,更新所述N+1个拟合点中的每个拟合点在所述目标对象特征下对应的初始表征向量,以得到所述N+1个拟合点中每个拟合点在所述目标对象特征下对应的拟合表征信息。
6.如权利要求5所述的方法,其特征在于,所述根据所述第一样本表征信息和所述第二样本表征信息,更新所述N+1个拟合点中的每个拟合点在所述目标对象特征下对应的初始表征向量,以得到所述N+1个拟合点中每个拟合点在所述目标对象特征下对应的拟合表征信息,包括:
根据所述第一样本表征信息和所述第二样本表征信息,预测所述活跃样本对象与所述流失样本对象之间的召回回流情况;
根据所述活跃样本对象与所述流失样本对象之间预测的召回回流情况,与所述活跃样本对象与所述流失样本对象之间真实的召回回流情况之间的差异,更新所述N+1个拟合点中的每个拟合点在所述目标对象特征下对应的初始表征向量,以得到所述N+1个拟合点中每个拟合点在所述目标对象特征下对应的拟合表征信息。
7.如权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述目标业务对象在参考对象特征下的对象特征值;所述参考对象特征为离散特征;
提取所述目标业务对象在所述参考对象特征下的对象特征值所对应的参考表征信息;
所述在所述业务场景中,根据所述目标表征信息对所述目标业务对象进行业务处理,包括:
在所述业务场景中,根据所述目标表征信息和所述参考表征信息,对所述目标业务对象进行业务处理。
8.如权利要求1所述的方法,其特征在于,所述业务场景包括游戏业务场景,所述目标业务对象是所述游戏业务场景中的活跃游戏对象;所述在所述业务场景中,根据所述目标表征信息对所述目标业务对象进行业务处理,包括:
确定所述目标业务对象在所述游戏业务场景中的流失好友对象,并获取所述流失好友对象在所述目标对象特征下的对象特征值所对应的流失表征信息;
根据所述目标表征信息和所述流失表征信息,对所述目标业务对象与所述流失好友对象之间的召回回流情况进行分析,确定所述目标业务对象对所述流失好友对象进行召回处理且所述流失好友对象回流的概率;
若所述目标业务对象对所述流失好友对象进行召回处理且所述流失好友对象回流的概率满足召回条件,则将所述流失好友对象确定为所述目标业务对象需要召回的对象。
9.如权利要求1所述的方法,其特征在于,所述业务场景包括游戏业务场景,所述目标业务对象是所述游戏业务场景中的流失游戏对象;所述在所述业务场景中,根据所述目标表征信息对所述目标业务对象进行业务处理,包括:
根据所述目标表征信息,对所述目标业务对象进行回流分析,得到所述目标业务对象的回流概率;
根据所述目标业务对象的回流概率,对所述目标业务对象进行召回处理。
10.一种数据处理装置,其特征在于,包括:
获取单元,用于获取业务场景中的目标业务对象在目标对象特征下的对象特征值,所述目标对象特征为连续特征;
处理单元,用于获取所述目标对象特征在所述业务场景中的分布信息;所述分布信息用于反映所述目标对象特征所在的特征空间内的连续性信息;基于所述分布信息,将所述目标对象特征下的对象特征值从所述特征空间映射至表征空间,得到所述目标业务对象在所述目标对象特征下的对象特征值所对应的目标表征信息;其中,所述目标对象特征所在的特征空间内的连续性信息是指:所述目标对象特征所在的特征空间是连续空间,所述目标对象特征在连续空间中任意取值;所述目标表征信息用于在所述目标对象特征对应的所述表征空间中,表征所述目标业务对象在所述目标对象特征下的对象特征值;
所述处理单元,还用于根据所述目标表征信息,在所述业务场景中对所述目标业务对象进行业务处理。
11.一种计算机设备,其特征在于,包括:
处理器,适于实现计算机程序;
计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1-9任一项所述的数据处理方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于由处理器加载并执行如权利要求1-9任一项所述的数据处理方法。
CN202211571846.1A 2022-12-08 2022-12-08 一种数据处理方法、装置及计算机设备、存储介质 Active CN115624755B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211571846.1A CN115624755B (zh) 2022-12-08 2022-12-08 一种数据处理方法、装置及计算机设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211571846.1A CN115624755B (zh) 2022-12-08 2022-12-08 一种数据处理方法、装置及计算机设备、存储介质

Publications (2)

Publication Number Publication Date
CN115624755A CN115624755A (zh) 2023-01-20
CN115624755B true CN115624755B (zh) 2023-03-14

Family

ID=84909657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211571846.1A Active CN115624755B (zh) 2022-12-08 2022-12-08 一种数据处理方法、装置及计算机设备、存储介质

Country Status (1)

Country Link
CN (1) CN115624755B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647696A (zh) * 2018-06-08 2020-01-03 北京三快在线科技有限公司 一种业务对象的排序方法及装置
CN111325578A (zh) * 2020-02-20 2020-06-23 深圳市腾讯计算机系统有限公司 预测模型的样本确定方法及装置、介质和设备
CN112232165A (zh) * 2020-10-10 2021-01-15 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机及可读存储介质
CN113244629A (zh) * 2021-06-22 2021-08-13 腾讯科技(深圳)有限公司 流失帐号的召回方法和装置、存储介质及电子设备
CN115374362A (zh) * 2022-09-01 2022-11-22 华为技术有限公司 多路召回模型训练方法、多路召回方法、装置及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6515259B2 (ja) * 2016-02-24 2019-05-22 Soinn株式会社 特徴量抽出方法及び特徴量抽出装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647696A (zh) * 2018-06-08 2020-01-03 北京三快在线科技有限公司 一种业务对象的排序方法及装置
CN111325578A (zh) * 2020-02-20 2020-06-23 深圳市腾讯计算机系统有限公司 预测模型的样本确定方法及装置、介质和设备
CN112232165A (zh) * 2020-10-10 2021-01-15 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机及可读存储介质
CN113244629A (zh) * 2021-06-22 2021-08-13 腾讯科技(深圳)有限公司 流失帐号的召回方法和装置、存储介质及电子设备
CN115374362A (zh) * 2022-09-01 2022-11-22 华为技术有限公司 多路召回模型训练方法、多路召回方法、装置及电子设备

Also Published As

Publication number Publication date
CN115624755A (zh) 2023-01-20

Similar Documents

Publication Publication Date Title
CN110162703B (zh) 内容推荐方法、训练方法、装置、设备及存储介质
CN109033408B (zh) 信息推送方法及装置、计算机可读存储介质、电子设备
CN111931062A (zh) 一种信息推荐模型的训练方法和相关装置
CN110147711A (zh) 视频场景识别方法、装置、存储介质和电子装置
CN113158554B (zh) 模型优化方法、装置、计算机设备及存储介质
CN115455471A (zh) 提升隐私和鲁棒的联邦推荐方法、装置、设备及存储介质
CN113761359B (zh) 数据包推荐方法、装置、电子设备和存储介质
CN111522724A (zh) 异常账号的确定方法、装置、服务器及存储介质
CN115221396A (zh) 基于人工智能的信息推荐方法、装置及电子设备
CN115600017A (zh) 特征编码模型训练方法及装置、媒体对象推荐方法及装置
CN115841366A (zh) 物品推荐模型训练方法、装置、电子设备及存储介质
CN115062709A (zh) 模型优化方法、装置、设备、存储介质及程序产品
CN113244627B (zh) 识别外挂的方法、装置、电子设备以及存储介质
CN112817563A (zh) 目标属性配置信息确定方法、计算机设备和存储介质
CN115130542A (zh) 模型训练方法、文本处理方法、装置及电子设备
Zhang Application of knowledge model in dance teaching based on wearable device based on deep learning
CN112418256A (zh) 分类、模型训练、信息搜索方法、系统及设备
CN114004364A (zh) 采样优化方法、装置、电子设备及存储介质
CN115624755B (zh) 一种数据处理方法、装置及计算机设备、存储介质
CN117235371A (zh) 视频推荐方法、模型训练方法及装置
CN112463394A (zh) 基于大数据和云计算的数据筛选方法及云服务器
CN117216362A (zh) 内容推荐方法、装置、设备、介质和程序产品
CN112116441B (zh) 金融风险分类模型的训练方法、分类方法、装置及设备
CN115131058A (zh) 账号识别方法、装置、设备及存储介质
CN114266352A (zh) 模型训练结果优化方法、装置、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant