CN115994321A - 对象分类方法及相关装置 - Google Patents

对象分类方法及相关装置 Download PDF

Info

Publication number
CN115994321A
CN115994321A CN202111202431.2A CN202111202431A CN115994321A CN 115994321 A CN115994321 A CN 115994321A CN 202111202431 A CN202111202431 A CN 202111202431A CN 115994321 A CN115994321 A CN 115994321A
Authority
CN
China
Prior art keywords
sample
object sample
samples
training
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111202431.2A
Other languages
English (en)
Inventor
樊鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111202431.2A priority Critical patent/CN115994321A/zh
Publication of CN115994321A publication Critical patent/CN115994321A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本申请公开了一种对象分类方法及相关装置,本申请相关实施例可应用于云技术、云安全、人工智能、区块链、地图车联网等领域。该方法包括:将目标对象集中对象样本基于至少一种筛选路径进行筛选处理,得到符合预定质量条件的目标对象样本;对目标对象样本通过分割测试进行过滤处理,得到预定生活状态匹配的测试结果所对应训练对象样本;构建训练对象样本的画像特征;根据画像特征的数据特性所对应信息提取策略,对画像特征进行信息提取处理,得到训练对象样本对应的特征向量;利用所述特征向量对基于深度学习的状态识别模型进行训练,以获得训练后状态识别模型对待识别对象进行生活状态识别。本申请可有效提升对象的生活状态识别效果。

Description

对象分类方法及相关装置
技术领域
本申请涉及人工智能技术领域,具体涉及一种对象分类方法及相关装置。
背景技术
对象分类即识别对象的类别的任务,对象分类时会具有识别对象的生活状态类别的任务,生活状态类别例如婚恋状态类别或育儿状态类别等。目前,相关技术方案中,存在基于人工经验确定的数据规则进生活状态识别的方式,以及基于非深度学习的数据挖掘方法进行生活状态识别。由于数据规则的有限性以及非深度学习的数据挖掘方法特征挖掘能力较低,目标对象的生活状态类别的分类效果往往较差。
发明内容
本申请实施例提供一种对象分类方法及相关装置,可以有效提升对象的生活状态类别的分类效果。其中,相关装置可以包括对象分类装置、计算机可读存储介质、电子设备以及计算机程序产品或计算机程序。
本申请实施例提供以下技术方案:
根据本申请的一个实施例,一种对象分类方法,该方法包括:将目标对象集中包括的对象样本基于至少一种筛选路径进行筛选处理,得到符合预定质量条件的目标对象样本;通过分割测试对所述目标对象样本进行过滤处理,得到预定生活状态匹配的测试结果所对应训练对象样本;构建所述训练对象样本的画像特征,并根据所述画像特征的数据特性确定对应的信息提取策略;根据所述信息提取策略对所述画像特征进行信息提取处理,得到所述训练对象样本对应的特征向量;利用所述特征向量对基于深度学习的状态识别模型进行训练,以获得训练后状态识别模型对待识别对象进行分类处理,得到所述待识别对象的生活状态类别。
根据本申请的一个实施例,一种对象分类装置,其包括:筛选模块,用于将目标对象集中包括的对象样本基于至少一种筛选路径进行筛选处理,得到符合预定质量条件的目标对象样本;过滤模块,用于通过分割测试对所述目标对象样本进行过滤处理,得到预定生活状态匹配的测试结果所对应训练对象样本;构建模块,用于构建所述训练对象样本的画像特征,并根据所述画像特征的数据特性确定对应的信息提取策略;提取模块,根据所述信息提取策略对所述画像特征进行信息提取处理,得到所述训练对象样本对应的特征向量;识别模块,用于利用所述特征向量对基于深度学习的状态识别模型进行训练,以获得训练后状态识别模型对待识别对象进行分类处理,得到所述待识别对象的生活状态类别。
在本申请的一些实施例中,所述筛选模块,包括:第一召回单元,用于从所述目标对象集内的对象样本中确定基准对象样本,所述基准对象样本指与业务经验规则匹配的对象样本;第二召回单元,用于根据所述基准对象样本进行对象扩展处理,以从所述目标对象集内确定所述基准对象样本匹配的扩展对象样本;样本确定单元,用于将所述基准对象样本及所述扩展对象样本,确定为符合预定质量条件的目标对象样本。
在本申请的一些实施例中,所述扩展对象样本包括第一对象样本与第二对象样本的并集;所述第二召回单元,包括:分类子单元,用于采用目标分类器对特定对象样本进行分类处理,得到所述特定对象样本中所述基准对象样本匹配的所述第一对象样本,所述特定对象样本包括部分所述基准对象样本及所述目标对象集中所述基准对象样本之外的对象样本,所述目标分类器以部分所述基准对象样本为正样本且所述特定对象样本为负样本训练得到;扩展子单元,用于基于所述基准对象样本进行相似人群扩展处理,得到所述目标对象集内的对象样本中所述基准对象样本匹配的所述第二对象样本。
在本申请的一些实施例中,所述装置还包括第三召回单元,用于:基于深度神经网络对待识别对象样本进行对象识别处理,得到所述待识别对象样本中所述基准对象样本匹配的所述第三对象样本,所述待识别对象样本包括所述目标对象集中所述基准对象样本之外的对象样本;对所述待识别对象样本进行聚类处理,以确定所述待识别对象样本中所述基准对象样本匹配的所述第四对象样本;将所述基准对象样本、所述扩展对象样本、所述第三对象样本及所述第四对象样本的并集,确定为符合预定质量条件的目标对象样本。
在本申请的一些实施例中,所述过滤模块,包括:分组单元,用于将所述目标对象样本进行分组,并对分组得到的每个对象组设定对应的对照组,形成实验组对;分层单元,用于将每个所述实验组对分别作为线上流量按照预定实验层的层数进行流量分层处理,得到每个所述实验组对在预定实验层的分层结果,所述预定实验层之间的分层结果正交;测试单元,用于根据每个所述实验组对在预定实验层的分层结果,将每个所述实验组对分别作为线上流量基于所述预定实验层进行分层对照测试,得到每个实验组对的测试结果;匹配单元,用于确定预定生活状态匹配的测试结果所对应实验组对,并将确定的实验组对中对象组内的目标对象样本作为所述训练对象样本。
在本申请的一些实施例中,所述测试单元,用于:根据每个所述实验组对在预定实验层的分层结果,将每个所述实验组对分别作为线上流量基于所述预定实验层进行分层对照测试,所述分层对照测试的测试持续时长大于预定时长。
在本申请的一些实施例中,所述构建模块,包括:数据获取单元,用于获取所述训练对象样本的历史上参与目标业务产生的日志数据;特征提取单元,用于基于所述日志数据对所述训练对象样本进行特征提取处理,生成由对象属性的特征、设备属性的特征以及网络属性的特征组成的所述画像特征。
在本申请的一些实施例中,所述提取模块,包括:策略确定单元,用于确定所述画像特征中每个子画像特征的数据特性所对应信息提取策略;信息提取单元,用于基于每个所述子画像特征所对应信息提取策略,对每个所述子画像特征进行信息提取处理,得到提取到的子特征向量;向量生成单元,用于基于提取到的所述子特征向量,生成所述训练对象样本对应的特征向量。
在本申请的一些实施例中,提取到的子特征向量包括第一子特征向量及所述第二子特征向量;所述信息提取单元,包括:特征筛选子单元,用于对每个所述子画像特征进行筛选处理,得到符合业务逻辑的子画像特征以及不符合业务逻辑的子画像特征;第一提取子单元,用于将所述符合业务逻辑的子画像特征,基于对应的信息提取策略进行信息提取处理,得到所述符合目标业务逻辑的子画像特征对应的第一子特征向量;第二提取子单元,用于将所述不符合业务逻辑的子画像特征进行缺失值标记处理,得到缺失值标记向量作为所述不符合业务逻辑的子画像特征对应的第二子特征向量。
在本申请的一些实施例中,所述向量生成单元,用于:将提取到的所述子特征向量进行拼接处理,生成所述训练对象样本对应的特征向量。
在本申请的一些实施例中,所述识别模块,包括:模型获取单元,用于获取基于深度交叉网络构建的状态识别模型;模型调用单元,用于采用所述状态识别模型,基于所述特征向量进行生活状态识别,得到所述训练对象样本对应的预测生活状态;模型优化单元,用于根据所述预测生活状态对所述状态识别模型进行参数调整,生成所述训练后状态识别模型。
在本申请的一些实施例中,所述识别模块,包括状态识别单元,用于:获取所述待识别对象的特征向量;采用所述训练后状态识别模型,基于所述待识别对象的特征向量进行生成状态识别,得到生活状态识别结果;根据所述生活状态识别结果确定所述待识别对象的生活状态类别,所述生活状态类别包括婚恋状态类别或育儿状态类别。
根据本申请的另一实施例,一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序被计算机的处理器执行时,使计算机执行本申请实施例所述的方法。
根据本申请的另一实施例,一种电子设备,包括:存储器,存储有计算机程序;处理器,读取存储器存储的计算机程序,以执行本申请实施例所述的方法。
根据本申请的另一实施例,一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例所述的各种可选实现方式中提供的方法。
本申请实施例中,将目标对象集中包括的对象样本基于至少一种筛选路径进行筛选处理,得到符合预定质量条件的目标对象样本;通过分割测试对所述目标对象样本进行过滤处理,得到预定生活状态匹配的测试结果所对应训练对象样本;构建所述训练对象样本的画像特征,并根据所述画像特征的数据特性确定对应的信息提取策略;根据所述信息提取策略对所述画像特征进行信息提取处理,得到所述训练对象样本对应的特征向量;利用所述特征向量对基于深度学习的状态识别模型进行训练,以获得训练后状态识别模型对待识别对象进行分类处理,得到所述待识别对象的生活状态类别。
以这种方式,通过至少一种筛选路径进行筛选处理,然后通过分割测试进行过滤处理以及根据画像特征的数据特性所对应信息提取策略对画像特征进行信息提取处理的整体流程,可以获取高质量的反映生活状态信息的特征向量,进一步利用特征向量对基于深度学习的状态识别模型进行训练,可以获得性能显著的训练后状态识别模型,训练后状态识别模型可以对待识别对象进行准确地生活状态识别分类,有效提升对象的生活状态类别的分类效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了可以应用本申请实施例的系统的示意图。
图2示出了根据本申请的一个实施例的对象分类方法的流程图。
图3示出了根据本申请的另一个实施例的对象分类方法的流程图。
图4示出了根据本申请的一个实施例的状态识别模型的框架图。
图5示出了一种场景下应用本申请的实施例进行对象的生活状态识别过程的终端界面图。
图6示出了根据本申请的一个实施例的对象分类装置的框图。
图7示出了根据本申请的一个实施例的电子设备的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1示出了可以应用本申请实施例的系统100的示意图。如图1所示,系统100可以包括服务器101及终端102。服务器101及终端102可以通过无线通信方式进行直接或间接地连接,本申请在此不做特殊限制。
服务器101可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云技术服务的云服务器。
本示例的一种实施方式中,服务器101为云服务器,服务器101可以提供人工智能云服务,例如,服务器101可以提供基于人工智能的对象的生活状态识别服务。一种实施方式中,服务器101及终端102可以是区块链网络中的节点,基于区块链网络保证数据安全性。
终端102可以是任意的设备,终端102包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、VR/AR设备、智能手表以及计算机等等。
本示例的一种实施方式中,服务器101可以:将目标对象集中包括的对象样本基于至少一种筛选路径进行筛选处理,得到符合预定质量条件的目标对象样本;通过分割测试对所述目标对象样本进行过滤处理,得到预定生活状态匹配的测试结果所对应训练对象样本;构建所述训练对象样本的画像特征,并根据所述画像特征的数据特性确定对应的信息提取策略;根据所述信息提取策略对所述画像特征进行信息提取处理,得到所述训练对象样本对应的特征向量;利用所述特征向量对基于深度学习的状态识别模型进行训练,以获得训练后状态识别模型对待识别对象进行分类处理,得到所述待识别对象的生活状态类别。
一个示例中,待识别对象可以是终端102对应的对象,例如使用终端102的用户,可以理解,终端102可以是多个,用户可以在不同的终端102上通过自身的唯一信息(如唯一手机号或唯一账号等)参与目标业务(如登录游戏平台或地图车辆网平台等目标平台进行特定业务),通过终端102上的特定客户端可以按照约定的合法协议,根据唯一信息采集待识别对象参与目标业务产生的日志数据。服务器101可以获取这些日志数据,并从日志数据中可以提取待识别对象的描述性特征,进而构建到待识别对象的画像特征,然后,根据画像特征的数据特性所对应信息提取策略,对画像特征进行信息提取处理,得到待识别对象对应的特征向量。
图2示意性示出了根据本申请的一个实施例的对象分类方法的流程图。该对象分类方法的执行主体可以是任意的终端,例如图1所示的服务器101或终端102。
如图2所示,该对象分类方法可以包括步骤S210至步骤S250。
步骤S210,将目标对象集中包括的对象样本基于至少一种筛选路径进行筛选处理,得到符合预定质量条件的目标对象样本;步骤S220,通过分割测试对目标对象样本进行过滤处理,得到预定生活状态匹配的测试结果所对应训练对象样本;步骤S230,构建训练对象样本的画像特征,并根据画像特征的数据特性确定对应的信息提取策略;步骤S240,根据信息提取策略对画像特征进行信息提取处理,得到训练对象样本对应的特征向量;步骤S250,利用特征向量对基于深度学习的状态识别模型进行训练,以获得训练后状态识别模型对待识别对象分类处理,得到所述待识别对象的进行生活状态类别。
以这种方式,基于步骤S210至步骤S250,通过至少一种筛选路径进行筛选处理,然后通过分割测试进行过滤处理以及根据画像特征的数据特性所对应信息提取策略对画像特征进行信息提取处理的整体流程,可以获取高质量的反映生活状态信息的特征向量,进一步利用特征向量对基于深度学习的状态识别模型进行训练,可以获得性能显著的训练后状态识别模型,训练后状态识别模型可以对待识别对象进行准确地生活状态识别分类,有效提升对象的生活状态类别的分类效果。
下面描述进行对象的生活状态识别时,所进行的各步骤的具体过程。
步骤S210,将目标对象集中对象样本基于至少一种筛选路径进行筛选处理,得到符合预定质量条件的目标对象样本。
目标对象集即对象样本的集合,对象样本即用于描述一个用户的样本,每个对象样本可以对应一个唯一标识、唯一手机号或唯一账号等。
预定质量条件即描述对象样本自身的质量的条件,该质量可以是对象样本自身的准确率等。该预定质量条件可以由业务经验规则、目标分类器的分类结果等所表征,例如,业务经验规则匹配的对象样本可以是符合预定质量条件的目标对象样本。
筛选路径即筛选处理的路径,筛选路径可以包括至少一种,例如1个或3个等,每种筛选路径可以对应一种类型的召回方式(例如一个类型可以是基于业务经验规则匹配的召回方式,另一个类型可以是基于有监督学习进行召回的召回方式等),每种筛选路径下又可以对应至少一个召回方式。
基于至少一种筛选路径进行筛选处理,可以准确获得符合预定质量条件的目标对象样本,进一步可以整体提升对象的生活状态识别果。
一种实施例中,参阅图3,步骤S210,将目标对象集中对象样本基于至少一种筛选路径进行筛选处理,得到符合预定质量条件的目标对象样本,包括:
步骤S211,从目标对象集内的对象样本中确定基准对象样本,基准对象样本指与业务经验规则匹配的对象样本;步骤S212,根据基准对象样本进行对象扩展处理,以从目标对象集内确定基准对象样本匹配的扩展对象样本;步骤S213,将基准对象样本及扩展对象样本,确定为符合预定质量条件的目标对象样本。
该实施例中,基于至少两种筛选路径进行筛选处理,进一步准确获得符合预定质量条件的目标对象样本,且获得满足需求的目标对象样本的量级。
具体地,第一种筛选路径下,基于业务经验规则进行匹配的方式进行筛选处理,获得目标对象集内的对象样本中与业务经验规则匹配的对象样本,即获得基准对象样本。
其中,基准对象样本可以由用户指定,召回时获取用户指定的基准对象样本即可。针对对象样本,用户可以基于业务经验,设定统计逻辑,圈定基准对象样本,以及可以统计关键特征,通过人工审查,圈定基准对象样本,进而,基准对象样本可与业务经验规则匹配,且基准对象样本的质量高。
第二种筛选路径下,在基准对象样本的基础上进行对象扩展处理,进一步从目标对象集内召回基准对象样本匹配的扩展对象样本。根据基准对象样本进行对象扩展处理可以包括:采用目标分类器对特定对象样本进行分类处理,以及基于基准对象样本进行相似人群扩展处理等方式,获取基准对象样本匹配的对象样本。
最后,将两种筛选路径下召回的所有基准对象样本及扩展对象样本,即符合预定质量条件的目标对象样本。
一种实施例中,扩展对象样本包括第一对象样本与第二对象样本的并集;参阅图3,步骤S212,根据基准对象样本进行对象扩展处理,以从目标对象集内确定基准对象样本匹配的扩展对象样本,包括:
步骤S2121,采用目标分类器对特定对象样本进行分类处理,得到特定对象样本中基准对象样本匹配的第一对象样本,特定对象样本包括部分基准对象样本及目标对象集中基准对象样本之外的对象样本,目标分类器以部分基准对象样本为正样本且特定对象样本为负样本训练得到;步骤S2122,基于基准对象样本进行相似人群扩展处理,得到目标对象集内的对象样本中基准对象样本匹配的第二对象样本。
该实施例下,第二种筛选路径包括两个召回方式,申请人发现以这种方式可以进一步提升生活状态识别效果。
步骤S2121即第一个召回方式,例如,目标对象集为W,基准对象样本的集合为D,D为W的一部分,W中基准对象样本之外的对象样本的集合为K,从W中抽取一部分基准对象样本得到W1,将W1与K的组合即特定对象样本U(即特定对象样本包括部分基准对象样本及目标对象集中基准对象样本之外的对象样本),然后,以W1为正样本,U为负样本对目标分类器进行训练,进而,训练后的目标分类器可以计算对象样本属于正样本的概率。
采用目标分类器对特定对象样本进行分类处理,可以得到特定对象样本中对象样本属于正样本的概率(即与基准对象样本匹配的概率),进而某个对象样本对应的该概率高于预定阈值时,可以确定该某个对象样本为基准对象样本匹配的第一对象样本。
步骤S2122即第二个召回方式,基于基准对象样本进行相似人群扩展处理时,一个示例中,可以基于基准对象样本训练的相似人群扩展模型,基于相似人群扩展模型对目标对象集中基准对象样本之外的对象样本进行筛选,得到基准对象样本匹配的第二对象样本,另一个示例中,可以基于目标对象集中对象样本的社交网络图进行社区划分,得到基准对象样本匹配的第二对象样本(例如与基准对象样本位于相同社区的对象样本)。
其中,步骤S2121可以基于Spy算法实现,此时目标分类器可以是贝叶斯分类器,可以以W1为正样本,U为负样本对目标分类器基于EM算法进行训练。步骤S2122可以基于Lookalike算法的相似人群扩展方法实现。这样实现基于有监督学习的第二种筛选路径。
一种实施例下,参阅图3,还包括结合第三种筛选路径进行筛选处理的步骤S213,步骤S213可以包括:
步骤S2131,基于深度神经网络对待识别对象样本进行对象识别处理,得到待识别对象样本中基准对象样本匹配的第三对象样本,待识别对象样本包括目标对象集中基准对象样本之外的对象样本;步骤S2132,对待识别对象样本进行聚类处理,以确定待识别对象样本中基准对象样本匹配的第四对象样本;S2133,将基准对象样本、扩展对象样本、第三对象样本及第四对象样本的并集,确定为符合预定质量条件的目标对象样本。
该实施例下,结合第三种筛选路径进行筛选处理,该实施例下,第三种筛选路径包括两个召回方式,申请人发现以这种方式可以进一步提升生活状态识别效果,且进一步保证满足需求的目标对象样本的量级。
步骤S2131即第一个召回方式,可以基于预先训练的深度神经网络(Deep NeuralNetworks,DNN)对待识别对象样本进行对象识别处理,可以确定待识别样本中对象样本属于特定样本的概率(即与基准对象样本匹配的概率),进而某个对象样本对应的该概率高于预定阈值时,可以确定该某个对象样本为基准对象样本匹配的第三对象样本。
步骤S2132即第二个召回方式,对待识别对象样本进行聚类处理,即基于非监督学习的聚类模型对待识别对象样本进行聚类处理,进而,可以基于聚类结果以确定待识别对象样本中基准对象样本匹配的第四对象样本(例如与基准对象样本位于相同对象样本聚类簇的对象样本)。一种实施例中,基于K-Means聚类模型对待识别对象样本中的对象样本进行聚类处理。
步骤S220,通过分割测试对目标对象样本进行过滤处理,得到预定生活状态匹配的测试结果所对应训练对象样本。
本示例的实施方式中,分割测试即A/B Test,也称桶测试,通过分割测试可以在线上真实流量环境对目标对象样本的质量进行验证测试,得到目标对象样本的测试结果。例如,在线上真实流量环境对目标对象样本对特定广告的响应情况进行测试,得到测试结果即目标对象样本对特定广告的响应情况。
预定生活状态例如已婚、已婚未孕等,预定生活状态匹配的测试结果例如与已婚状态匹配的测试结果,根据测试结果可以过滤预定生活状态不匹配的测试结果所对应目标对象样本,进而进一步过滤质量异常的目标对象样本,剩余的目标对象样本即预定生活状态匹配的测试结果所对应训练对象样本。基于训练对象样本可以准确进行状态识别模型的训练,提升训练后状态识别模型的准确性。
一种实施例中,参阅图3,步骤S220,通过分割测试对目标对象样本进行过滤处理,得到预定生活状态匹配的测试结果所对应训练对象样本,包括:
步骤S221,将目标对象样本进行分组,并对分组得到的每个对象组设定对应的对照组,形成实验组对;步骤S222,将每个实验组对分别作为线上流量按照预定实验层的层数进行流量分层处理,得到每个实验组对在预定实验层的分层结果,预定实验层之间的分层结果正交;步骤S223,根据每个实验组对在预定实验层的分层结果,将每个实验组对分别作为线上流量基于预定实验层进行分层对照测试,得到每个实验组对的测试结果;步骤S224,确定预定生活状态匹配的测试结果所对应实验组对,并将确定的实验组对中对象组内的目标对象样本作为训练对象样本。
将目标对象样本进行分组,例如将20个目标对象样本分为5个对象组,每个对象组中包括至少一个目标对象样本,分组的个数可以根据需求设定。分组后,对每个对象组设定对应的对照组,例如对A对象组设定一个对照组A1,进而A与A1形成一个实验组对。
预定实验层的层数例如2层,每个预定实验层分别进行独立的测试实验。将每个实验组对分别作为线上流量按照预定实验层的层数进行流量分层处理,即将每个实验组对中对象组及对照组中对象样本作为用户流量进行分层处理,例如,将对象组中目标对象样本针对第1层预定实验层划分为至少一个子对象组,并且针对第2层预定实验层划分为至少一个子对象组,同理将对照组中对象样本可以针对每个预定实验层划分为至少一个子对照组,进而得到每个实验组对在预定实验层的分层结果。
进一步的,预定实验层之间的分层结果正交,例如,第1层预定实验层对应的子对象组A中的目标对象样本,在第2层预定实验层的每个子对象组中均有分布,第1层预定实验层对应的子对象组B中的目标对象样本,在第2层预定实验层的每个子对象组中也均有分布。
进而,根据每个实验组对在预定实验层的分层结果,将每个实验组对分别作为线上流量可以基于预定实验层中设定的测试实验进行分层对照测试,得到每个实验组对的测试结果,例如对照组及对象组中对象样本对特定广告的响应情况。对照组中可以包括至少一个对象样本,对照组中对象样本可以是质量满足业务需求的对象样本,对照组的测试结果可以视为标准测试结果。
进而,可以确定预定生活状态匹配的测试结果所对应实验组对,例如可以将对特定广告的响应情况优于对照组的对象组确定为预定生活状态匹配的测试结果所对应实验组对,进而可以准确地将确定的实验组对中对象组内的目标对象样本作为训练对象样本。
一种实施例中,步骤S223,根据每个实验组对在预定实验层的分层结果,将每个实验组对分别作为线上流量基于预定实验层进行分层对照测试,分层对照测试的测试持续时长大于预定时长。
将每个实验组对推送到线上实验流量池,进行大于预定时长的持续时长的分层对照测试,例如,将每个实验组对推送到线上实验流量池,连续多周(大于预定时长的周数)持续回收测试结果,这样可以通过持续时长大于预定时长的测试,进一步排除特定时间点对实验效果带来的异常影响。
步骤S230,构建训练对象样本的画像特征,并根据画像特征的数据特性确定对应的信息提取策略。
画像特征即描述训练对象样本的特征,例如年龄大小、游戏时长、使用设备类型等特征,通过约定的合法协议可以获取每个训练对象样本历史上参与目标业务产生的日志数据,从日志数据中可以提取每个训练对象样本的描述性特征,进而构建到每个训练对象样本的画像特征。
一种实施例中,步骤S230,构建训练对象样本的画像特征,包括:获取训练对象样本的历史上参与目标业务产生的日志数据;基于日志数据对训练对象样本进行特征提取处理,得到日志数据中所有属性的特征组成的画像特征。
一种实施例中,步骤S230,构建训练对象样本的画像特征,包括:获取训练对象样本的历史上参与目标业务产生的日志数据;基于日志数据对训练对象样本进行特征提取处理,生成由对象属性的特征、设备属性的特征以及网络属性的特征组成的画像特征。
历史上参与目标业务产生的日志数据,可以包括玩游戏时产生的日志数据以及注册、登录业务平台时产生的日志数据等。对象属性即对象样本自身的属性,例如年龄等属性;设备数据即对象样本关联设备的属性,例如对象样本登录的设备的型号属性等;网络属性即对象样本关联网络的属性,例如对象样本的网络兴趣点(WiFi POI)属性等。
从日志数据中可以基于特征关键词(例如年龄)提取特征关键词对应的描述性特征(例如18岁),其中特征提取处理时提取对象属性的特征、设备属性的特征以及网络属性的特征,基于对象属性的特征、设备属性的特征以及网络属性的特征组成画像特征,申请人发现可以高效且准确地训练状态识别模型。
步骤S240,根据信息提取策略对画像特征进行信息提取处理,得到训练对象样本对应的特征向量。
本示例的实施方式中,画像特征中可以包括至少一个子画像特征,每个子画像特征对应有自身数据特性,可以根据预设的策略查询表确定每个子画像特征的数据特性所对应信息提取策略,进而根据信息提取策略对画像特征进行信息提取处理,得到训练对象样本对应的特征向量,获得精确的特征向量,可以用于进行准确地训练状态识别模型。
一种实施例中,参阅图3,步骤S240,根据信息提取策略对画像特征进行信息提取处理,得到训练对象样本对应的特征向量,包括:
步骤S241,确定画像特征中每个子画像特征的数据特性所对应信息提取策略;步骤S242,基于每个子画像特征所对应信息提取策略,对每个子画像特征进行信息提取处理,得到提取到的子特征向量;步骤S243,基于提取到的子特征向量,生成训练对象样本对应的特征向量。
根据预设的策略查询表可以确定每个子画像特征的数据特性所对应信息提取策略,进而,基于每个子画像特征所对应信息提取策略,可以对每个子画像特征进行信息提取处理,得到提取到的子特征向量。
例如,对于性别等子画像特征对应的信息提取策略可以是基于独热编码(One-HotEncoding)的提取策略;对于网络兴趣点(WiFi POI)等子画像特征对应的信息提取策略可以是基于频数编码(Count Encoding)的提取策略,如某个对象样本当周去了“美食-中国菜-粤菜”这个网络兴趣点共3次;对于一些存在较强的稀疏性的数据特性的子画像特征,可以确定对应的信息提取策略是基于类别转换编码(Category Embedding)的提取策略,可以避免状态识别模型过拟合和提高模型稳定性,基于类别转换编码引入神经网络将高维稀疏分类变量转换为低维稠密的特征变量;对于存在多个取值的一些子画像特征,可以确定对应的信息提取策略是基于合并编码(Category Embedding)的提取策略,基于合并编码可以将多个取值纳成同一个信息,例如安卓手机的系统版本特征的多个取值里包括“4.2”、“4.4”和“5.0”三个,可以将这三个值归纳为“低版本安卓系统”,这样相较于直接将“安卓系统版本”特征独热编码能带来更大的正向收益。
这样根据数据特性对应的信息提取策略提取到的子特征向量可靠性优秀,基于提取到的子特征向量,可以准确生成训练对象样本对应的特征向量。其中基于提取到的子特征向量生成训练对象样本对应的特征向量,可以将提取到的子特征向量进行串联拼接或者累加等,得到训练对象样本对应的特征向量。
一种实施例中,参阅图3,提取到的子特征向量包括第一子特征向量及第二子特征向量;步骤S242,基于每个子画像特征所对应信息提取策略,对每个子画像特征进行信息提取处理,得到提取到的子特征向量,包括:
步骤S2421,对每个子画像特征进行筛选处理,得到符合业务逻辑的子画像特征以及不符合业务逻辑的子画像特征;步骤S2422,将符合业务逻辑的子画像特征,基于对应的信息提取策略进行信息提取处理,得到符合目标业务逻辑的子画像特征对应的第一子特征向量;步骤S2423,将不符合业务逻辑的子画像特征进行缺失值标记处理,得到缺失值标记向量作为不符合业务逻辑的子画像特征对应的第二子特征向量。
对每个子画像特征进行筛选处理时,可以按照预设业务逻辑对子画像特征进行验证,得到符合业务逻辑的子画像特征以及不符合业务逻辑的子画像特征,预设业务逻辑可以根据实际业务需求设定。
将符合业务逻辑的子画像特征,基于子画像特征的数据特性对应的信息提取策略进行信息提取处理,得到符合目标业务逻辑的子画像特征对应的第一子特征向量。
将不符合业务逻辑的子画像特征进行缺失值标记(NaN Embedding)处理,得到缺失值标记向量作为不符合业务逻辑的子画像特征对应的第二子特征向量,申请人发现相较于“剔除”、“平均值填充”等方法,缺失值标记(NaN Embedding)处理方式,对状态识别模型的效果具有最大的正向收益。
一种实施例中,基于提取到的子特征向量,生成训练对象样本对应的特征向量,包括:将提取到的子特征向量进行拼接处理,生成训练对象样本对应的特征向量。
该实施例中,基于将提取到的子特征向量进行拼接处理,拼接后向量即生成的训练对象样本对应的特征向量,这样可以对状态识别模型的效果具有优秀的正向收益。
步骤S250,利用特征向量对基于深度学习的状态识别模型进行训练,以获得训练后状态识别模型对待识别对象进行分类处理,得到待识别对象的生活状态类别。
本示例的实施方式中,可以随机划分所有训练对象样本的特征向量为训练集和测试集,可以按照训练对象样本所属的时间窗口进行划分,时间较早的作为训练集,时间较晚的作为验证集。一个示例中,训练集和验证集的比例为5:1。
然后,可以将训练集中特征向量输入到基于深度学习的状态识别模型,对状态识别模型进行参数寻优,并基于验证集进行验证,最后,得到参数优化后的状态识别模型即训练后状态识别模型,基于训练后状态识别模型可以对待识别对象进行准确地生活状态识别分类。
进一步的,获取到练后状态识别模型后,可以基于分割测试对练后状态识别模型进行线上测试,基于广告点击率、广告转化率等评估指标对模型的效果进行评估,根据评估结果进一步调整模型中的参数。还可以基于评价指标AUC对状态识别模型的识别效果进行评价,根据评价结果确定参数是否优化。
进一步的,训练得到训练后状态识别模型可以进行模型固化。基于TensorFlow的Saver()方法固化训练后状态识别模型,共产生4个文件:checkpoint文本文件,记录了模型文件的路径信息列表;model.ckpt.data文本文件,记录网络权重信息;model.ckpt.index.data和.index是二进制文件,保存模型中的变量权重信息。固化模型后,客户端可以基于调用服务接口的方式,使用固化好的训练后状态识别模型。
一种实施例中,利用特征向量对基于深度学习的状态识别模型进行训练,包括:
获取基于深度交叉网络构建的状态识别模型;采用状态识别模型,基于特征向量进行生活状态识别,得到训练对象样本对应的预测生活状态;根据预测生活状态对状态识别模型进行参数调整,生成训练后状态识别模型。
该实施例中,基于深度学习的状态识别模型采用基于深度交叉网络(Deep&CrossNetwork,DCN)构建的状态识别模型,如图4所示,基于深度交叉网络(Deep&Cross Network)构建的状态识别模型中,特征向量首先输入嵌入和堆积层(embedding and stackinglayer)310,然后,输入嵌入和堆积层310的输出接着输入一个交叉网络(cross network)320和一个与交叉网络平行的深度网络(deep network)330,并接着通过一个组合输出层(Combination output Layer)340将交叉网络320及深度网络330的输出进行组合后进行预测,输出训练对象样本对应的预测生活状态P。
其中,基于深度交叉网络(Deep&Cross Network,DCN)构建的状态识别模型中对特征向量的处理过程,参阅图4,一个训练对象样本的特征向量可以由向量M和向量Z组成。在嵌入和堆积层310,可以将高维度的稀疏向量Z(如独热编码得到的向量)基于特征嵌入矩阵Wz进行特征嵌入处理,生成低维度的嵌入向量Z1,然后,将嵌入向量Z1与稠密向量M叠加生成堆积向量x0。然后,将堆积向量x0输入交叉网络320,在交叉网络320中可以从第1层至第n层网络依次对堆积向量x0进行特征交叉处理,最终生成第一输出向量xn;其中,在第1层可以按照公式x1=x0(x0)Twc+bc+x0进行特征交叉处理生成向量x1,后续各层按照公式xi=x0(xi-1)Twc+bc+xi-1进行特征交叉处理生成各层的向量xi,其中,wc为权重参数,bc为偏差参数。同时,将堆积向量x0输入深度网络330,在深度网络330中可以从第1层至第n层网络依次对堆积向量x0进行前馈传播,最终生成第二输出向量hn;其中,在第1层可以按照公式h1=ReLu(whx0+bh)进行传播生成向量h1,后续各层按照公式hi=ReLu(whhi-1+bh)进行特征交叉处理生成各层的向量hi,其中,wh为权重参数,bh为偏差参数,ReLu为激活函数。最后,在组合输出层340中,将第一输出向量xn与第二输出向量hn拼接得到组合向量xs,然后基于sigmoid函数进行计算得到训练对象样本对应的预测生活状态P=sigmoid(ws*xs+b),P即训练对象样本属于某种生活状态的概率,ws为权重参数,b为偏差参数。
根据预测生活状态可以对状态识别模型中参数进行参数调整更新,调整的参数可以包括特征嵌入矩阵Wz、wc、bc、wh、bh、ws及b等,最后,基于验证集进行验证,状态识别模型的预测准确率符合要求时得到参数优化后的状态识别模型即训练后状态识别模型。
基于深度交叉网络(Deep&Cross Network,DCN)构建的状态识别模型,在每个层上明确地应用特征交叉,可以有效地学习有界度的预测交叉特征,并且不需要手工特征工程或穷举搜索。而且网络简单而有效,各层的多项式级数最高,并由层深度决定,网络由所有的交叉项组成,交叉项系数各不相同。且跨网络内存高效,节约内存,易于实现。同时在交叉熵(LogLoss)上与DNN相比少了近一个量级的参数量。该模型中可以使用ReLu函数作为激活函数;且可以训练过程中增加Dropout,即对于神经网络单元,增加按照一定的概率将其暂时从网络中丢弃的过程。进而基于深度交叉网络(Deep&Cross Network,DCN)构建的状态识别模型进行训练,可以获得高效可靠地获得高性能的用于生活状态识别的训练后状态识别模型,进一步提升生活状态识别效果。
一种实施例中,获得训练后状态识别模型对待识别对象进行生活状态识别,包括:获取待识别对象的特征向量;采用训练后状态识别模型,基于待识别对象的特征向量进行生成状态识别,得到生活状态识别结果;根据生活状态识别结果确定待识别对象的生活状态类别,生活状态类别包括婚恋状态类别或育儿状态类别。
该实施例中,采用训练后状态识别模型,基于待识别对象的特征向量进行生成状态识别,得到生活状态识别结果,生活状态识别结果例如已婚概率80%、未婚概率20%或者已育儿概率60%、未育儿概率60%等。进而,可以基于生活状态识别结果确定待识别对象的生活状态类别,生活状态类别可以包括婚恋状态类别或育儿状态类别,例如可以根据生活状态识别结果中的概率大于预定阈值的结果“已婚概率80%”确定待识别对象的生活状态类别为“已婚”。
获取待识别对象的特征向量可以包括:通过约定的合法协议可以获取待识别对象参与目标业务产生的日志数据,从日志数据中可以提取待识别对象的描述性特征,进而构建到待识别对象的画像特征,然后,根据画像特征的数据特性所对应信息提取策略,对画像特征进行信息提取处理,得到待识别对象对应的特征向量。
一种实施例中,获取待识别对象的特征向量可以包括:首先,拉取待识别对象的线上实时业务产生的日志数据,计算待识别对象的通用特征(如对象属性的特征);基于业务设置的特有特征逻辑,对日志数据计算特有特征(如网络属性或设备属性的特征);然后,拼接通用特征和特有特征,作为线上的实时特征。然后,读取待识别对象的线下日志数据(例如历史上采集的日志数据)进行特征提取,得到线下的离线特征,如对象属性、网络属性及设备属性的特征。然后,可以基于Spark和TensorFlow等计算引擎,基于不同的特征的数据特性对应的信息提取策略进行信息提取处理,生成每个特征对应的特征向量。最后,基于所有线上的实时特征和线下的离线特征对应的特征向量可以生成待识别对象的特征向量,例如拼接所有线上的实时特征和线下的离线特征对应的特征向量为一个长向量,长向量即待识别对象的特征向量。
根据上述实施例所描述的方法,以下将结合应用场景举例作进一步详细说明。如图5示出一种场景下应用本申请的实施例进行对象的生活状态识别的流程图,该场景下相关名词的含义与前述实施例中相同,具体可以参考前述实施例中的说明,该场景下应用本申请的前述实施例进行对象的婚恋状态识别。
参阅图5,该场景下进行对象的生活状态识别的流程可以包括步骤S410至步骤S440。
步骤S410,目标对象样本圈定,即将目标对象集中包括的对象样本基于至少一种筛选路径进行筛选处理,得到符合预定质量条件的目标对象样本。
其中,步骤S410中,将目标对象集中包括的对象样本基于至少一种筛选路径进行筛选处理,得到符合预定质量条件的目标对象样本,可以包括:步骤S411,从目标对象集内的对象样本中确定基准对象样本,基准对象样本指与业务经验规则匹配的对象样本;步骤S412,根据基准对象样本进行对象扩展处理,以从目标对象集内确定基准对象样本匹配的扩展对象样本;步骤S413,将基准对象样本及扩展对象样本,确定为符合预定质量条件的目标对象样本。
第一种筛选路径下,基于业务经验规则进行匹配的方式进行筛选处理,确定目标对象集内的对象样本中与业务经验规则匹配的对象样本,即确定基准对象样本。其中,基准对象样本可以由用户指定,召回时可以获取用户指定的基准对象样本即可。具体地,针对对象样本,用户可以在步骤S4111,基于业务经验,设定统计逻辑,圈定基准对象样本,以及在步骤S4112,可以统计关键特征,通过人工审查,判别基准对象样本,进而,基准对象样本可与业务经验规则匹配,且基准对象样本的质量高。
第二种筛选路径下,在基准对象样本的基础上进行对象扩展处理,进一步从目标对象集内召回基准对象样本匹配的扩展对象样本。根据基准对象样本进行对象扩展处理可以包括:采用目标分类器对特定对象样本进行分类处理,以及基于基准对象样本进行相似人群扩展处理等方式,获取基准对象样本匹配的对象样本。
第二种筛选路径下包括两个召回方式,具体地,步骤S412,根据基准对象样本进行对象扩展处理,以从目标对象集内召回基准对象样本匹配的扩展对象样本,包括:步骤S4121,基于Spy算法识别优质对象样本,具体地,采用目标分类器对特定对象样本进行分类处理,得到特定对象样本中基准对象样本匹配的第一对象样本,特定对象样本包括部分基准对象样本及目标对象集中基准对象样本之外的对象样本,目标分类器以部分基准对象样本为正样本且特定对象样本为负样本训练得到;步骤S4122,基于Lookalike算法识别优质对象样本,具体地,基于基准对象样本进行相似人群扩展处理,得到目标对象集内的对象样本中基准对象样本匹配的第二对象样本。进而,扩展对象样本包括第一对象样本与第二对象样本的并集。
步骤S4121即第一个召回方式,例如,目标对象集为W,基准对象样本的集合为D,D为W的一部分,W中基准对象样本之外的对象样本的集合为K,从W中抽取一部分基准对象样本得到W1,将W1与K的组合即特定对象样本U(即特定对象样本包括部分基准对象样本及目标对象集中基准对象样本之外的对象样本),然后,以W1为正样本,U为负样本对目标分类器进行训练,进而,训练后的目标分类器可以计算对象样本属于正样本的概率。
采用目标分类器对特定对象样本进行分类处理,可以得到特定对象样本中对象样本属于正样本的概率(即与基准对象样本匹配的概率),进而某个对象样本对应的该概率高于预定阈值时,可以确定该某个对象样本为基准对象样本匹配的第一对象样本。
步骤S4122即第二个召回方式,基于基准对象样本进行相似人群扩展处理时,一个示例中,可以基于基准对象样本训练的相似人群扩展模型,基于相似人群扩展模型对目标对象集中基准对象样本之外的对象样本进行筛选,得到基准对象样本匹配的第二对象样本,另一个示例中,可以基于目标对象集中对象样本的社交网络图进行社区划分,得到基准对象样本匹配的第二对象样本(例如与基准对象样本位于相同社区的对象样本)。
其中,步骤S4121可以基于Spy算法实现,目标分类器可以是贝叶斯分类器,可以以W1为正样本,U为负样本对目标分类器基于EM算法进行训练。步骤S4122基于Lookalike算法的相似人群扩展方法实现。实现基于有监督学习的第二种筛选路径。
进一步的,还包括结合第三种筛选路径进行筛选处理的步骤S413,第三种筛选路径包括两个召回方式,具体地,步骤S413可以包括:
步骤S4131,基于深度神经网络识别优质对象样本,具体地,基于深度神经网络对待识别对象样本进行对象识别处理,得到待识别对象样本中基准对象样本匹配的第三对象样本,待识别对象样本包括目标对象集中基准对象样本之外的对象样本;步骤S4132,基于聚类模型识别优质对象样本,具体地,对待识别对象样本进行聚类处理,以确定待识别对象样本中基准对象样本匹配的第四对象样本;S4133,将基准对象样本、扩展对象样本、第三对象样本及第四对象样本的并集,确定为符合预定质量条件的目标对象样本。
步骤S4131即第一个召回方式,可以基于预先训练的深度神经网络(Deep NeuralNetworks,DNN)模型对待识别对象样本进行对象识别处理,可以确定待识别样本中对象样本属于特定样本的概率(即与基准对象样本匹配的概率),进而某个对象样本对应的该概率高于预定阈值时,可以确定该某个对象样本为基准对象样本匹配的第三对象样本。
步骤S4132即第二个召回方式,对待识别对象样本进行聚类处理,具体地,基于非监督学习的聚类模型(K-Means聚类模型)对待识别对象样本进行聚类处理,进而,可以基于聚类结果以确定待识别对象样本中基准对象样本匹配的第四对象样本(例如与基准对象样本位于相同对象样本聚类簇的对象样本)。
步骤S420,样本验证与存储:即通过分割测试对目标对象样本进行过滤处理,得到预定生活状态匹配的测试结果所对应训练对象样本。获得训练对象样本后可以将训练对象样本的数据存储至分布式文件系统(HDFS)。预定生活状态可以是预定婚恋状态。
其中,步骤S420中,通过分割测试对目标对象样本进行过滤处理,得到预定生活状态匹配的测试结果所对应训练对象样本,包括:
步骤S421,样本分组并设定对照组,具体地,将目标对象样本进行分组,并对分组得到的每个对象组设定对应的对照组,形成实验组对;步骤S422,流量分层处理,具体地,将每个实验组对分别作为线上流量按照预定实验层的层数进行流量分层处理,得到每个实验组对在预定实验层的分层结果,预定实验层之间的分层结果正交;步骤S423,分层对照测试,回收实验结果,具体地,根据每个实验组对在预定实验层的分层结果,将每个实验组对分别作为线上流量基于预定实验层进行分层对照测试,得到每个实验组对的测试结果;步骤S424,选择训练对象样本,具体地,确定预定生活状态匹配的测试结果所对应实验组对,并将确定的实验组对中对象组内的目标对象样本作为训练对象样本。
将目标对象样本进行分组,例如将20个目标对象样本分为5个对象组,每个对象组中包括至少一个目标对象样本,分组的个数可以根据需求设定。分组后,对每个对象组设定对应的对照组,例如对A对象组设定一个对照组A1,进而A与A1形成一个实验组对。
预定实验层的层数例如2层,每个预定实验层分别进行独立的测试实验。将每个实验组对分别作为线上流量按照预定实验层的层数进行流量分层处理,即将每个实验组对中对象组及对照组中对象样本作为用户流量进行分层处理,例如,将对象组中目标对象样本针对第1层预定实验层划分为至少一个子对象组,并且针对第2层预定实验层划分为至少一个子对象组,同理将对照组中对象样本可以针对每个预定实验层划分为至少一个子对照组,进而得到每个实验组对在预定实验层的分层结果。
进一步的,预定实验层之间的分层结果正交,例如,第1层预定实验层对应的子对象组A中的目标对象样本,在第2层预定实验层的每个子对象组中均有分布,第1层预定实验层对应的子对象组B中的目标对象样本,在第2层预定实验层的每个子对象组中也均有分布。
进而,根据每个实验组对在预定实验层的分层结果,将每个实验组对分别作为线上流量可以基于预定实验层中设定的测试实验进行分层对照测试,得到每个实验组对的测试结果,例如对照组及对象组中对象样本对特定广告的响应情况。对照组中可以包括至少一个对象样本,对照组中对象样本可以是质量满足业务需求的对象样本,对照组的测试结果可以视为标准测试结果。
进而,可以确定预定生活状态匹配的测试结果所对应实验组对,例如可以将对特定广告的响应情况优于对照组的对象组确定为预定生活状态匹配的测试结果所对应实验组对,进而可以准确地将确定的实验组对中对象组内的目标对象样本作为训练对象样本。
一种实施例中,步骤S423,根据每个实验组对在预定实验层的分层结果,将每个实验组对分别作为线上流量基于预定实验层进行分层对照测试,分层对照测试的测试持续时长大于预定时长。
将每个实验组对推送到线上实验流量池,进行大于预定时长的持续时长的分层对照测试,例如,将每个实验组对推送到线上实验流量池,连续多周(大于预定时长的周数)持续回收测试结果,这样可以通过持续时长大于预定时长的测试,进一步排除特定时间点对实验效果带来的异常影响。
步骤S430,特征构建与模型训练,包括:步骤S431,特征构建,具体地,构建训练对象样本的画像特征,并根据画像特征的数据特性确定对应的信息提取策略;步骤S432,信息提取(可以包括筛选处理、缺失值标记、拼接处理等),具体地,根据信息提取策略对画像特征进行信息提取处理,得到训练对象样本对应的特征向量;步骤S433,模型训练,具体地,利用特征向量对基于深度学习的状态识别模型进行训练,以获得训练后状态识别模型。
其中,步骤S431中,构建训练对象样本的画像特征,包括:获取训练对象样本的历史上参与目标业务产生的日志数据;基于日志数据对训练对象样本进行特征提取处理,生成由对象属性的特征、设备属性的特征以及网络属性的特征组成的画像特征。
历史上参与目标业务产生的日志数据,可以包括玩游戏时产生的日志数据以及注册、登录业务平台时产生的日志数据等。对象属性即对象样本自身的属性,例如年龄等属性;设备数据即对象样本关联设备的属性,例如对象样本登录的设备的型号属性等;网络属性即对象样本关联网络的属性,例如对象样本的网络兴趣点(WiFi POI)属性等。
其中,步骤S432,根据信息提取策略对画像特征进行信息提取处理,得到训练对象样本对应的特征向量,包括:确定画像特征中每个子画像特征的数据特性所对应信息提取策略;基于每个子画像特征所对应信息提取策略,对每个子画像特征进行信息提取处理,得到提取到的子特征向量;基于提取到的子特征向量,生成训练对象样本对应的特征向量。
其中,基于每个子画像特征所对应信息提取策略,对每个子画像特征进行信息提取处理,得到提取到的子特征向量,包括:对每个子画像特征进行筛选处理,得到符合业务逻辑的子画像特征以及不符合业务逻辑的子画像特征;将符合业务逻辑的子画像特征,基于对应的信息提取策略进行信息提取处理,得到符合目标业务逻辑的子画像特征对应的第一子特征向量;将不符合业务逻辑的子画像特征进行缺失值标记处理,得到缺失值标记向量作为不符合业务逻辑的子画像特征对应的第二子特征向量。进而提取到的子特征向量包括第一子特征向量及第二子特征向量。
根据预设的策略查询表可以确定每个子画像特征的数据特性所对应信息提取策略,进而,基于每个子画像特征所对应信息提取策略,可以将符合业务逻辑的子画像特征,基于对应的信息提取策略进行信息提取处理,得到符合目标业务逻辑的子画像特征对应的第一子特征向量。
例如,对于性别等子画像特征对应的信息提取策略可以是基于独热编码(One-HotEncoding)的提取策略;对于网络兴趣点(WiFi POI)等子画像特征对应的信息提取策略可以是基于频数编码(Count Encoding)的提取策略,如某个对象样本当周去了“美食-中国菜-粤菜”这个网络兴趣点共3次;对于一些存在较强的稀疏性的数据特性的子画像特征,可以确定对应的信息提取策略是基于类别转换编码(Category Embedding)的提取策略,可以避免状态识别模型过拟合和提高模型稳定性,基于类别转换编码引入神经网络将高维稀疏分类变量转换为低维稠密的特征变量;对于存在多个取值的一些子画像特征,可以确定对应的信息提取策略是基于合并编码(Category Embedding)的提取策略,基于合并编码可以将多个取值纳成同一个信息,例如安卓手机的系统版本特征的多个取值里包括“4.2”、“4.4”和“5.0”三个,可以将这三个值归纳为“低版本安卓系统”,这样相较于直接将“安卓系统版本”特征独热编码能带来更大的正向收益。
进一步的,基于提取到的子特征向量,生成训练对象样本对应的特征向量,包括:将提取到的子特征向量进行拼接处理,生成训练对象样本对应的特征向量。
其中,步骤S433中,利用特征向量对基于深度学习的状态识别模型进行训练,包括:获取基于深度交叉网络构建的状态识别模型;采用状态识别模型,基于特征向量进行生活状态识别,得到训练对象样本对应的预测生活状态;根据预测生活状态对状态识别模型进行参数调整,生成训练后状态识别模型。
可以随机划分所有训练对象样本的特征向量为训练集和测试集,可以按照训练对象样本所属的时间窗口进行划分,时间较早的作为训练集,时间较晚的作为验证集。一个示例中,训练集和验证集的比例为5:1。
然后,将训练集中特征向量输入到基于深度交叉网络构建的状态识别模型,对状态识别模型进行参数寻优,并基于验证集进行验证,最后,得到参数优化后的状态识别模型即训练后状态识别模型,基于训练后状态识别模型可以对待识别对象进行准确地生活状态识别。
获取到练后状态识别模型后,可以基于分割测试对练后状态识别模型进行线上测试,基于广告点击率、广告转化率等评估指标对模型的效果进行评估,根据评估结果进一步调整模型中的参数。还可以基于评价指标AUC对状态识别模型的识别效果进行模型评估,根据评价结果确定参数是否优化。
进一步的,训练得到训练后状态识别模型后进行模型固化。基于TensorFlow的Saver()方法固化训练后状态识别模型,共产生4个文件:checkpoint文本文件,记录了模型文件的路径信息列表;model.ckpt.data文本文件,记录网络权重信息;model.ckpt.index.data和.index是二进制文件,保存模型中的变量权重信息。固化模型后,客户端可以基于调用服务接口的方式,使用固化好的训练后状态识别模型。
步骤S440,线上服务调用模型:即获得训练后状态识别模型对待识别对象进行分类处理,得到待识别对象的生活状态类别。
其中,步骤S440中,获得训练后状态识别模型对待识别对象进行分类处理,包括:步骤S441,获取待识别对象的特征向量;步骤S442,婚恋状态识别,具体地,采用训练后状态识别模型,基于待识别对象的特征向量进行生成状态识别,得到生活状态识别结果;步骤S443,婚恋状态确定,具体地,根据生活状态识别结果确定待识别对象的生活状态类别,生活状态类别指婚恋状态类别。
获取待识别对象的特征向量可以包括:通过约定的合法协议可以获取待识别对象参与目标业务产生的日志数据,从日志数据中可以提取待识别对象的描述性特征,进而构建到待识别对象的画像特征,然后,根据画像特征的数据特性所对应信息提取策略,对画像特征进行信息提取处理,得到待识别对象对应的特征向量。
具体地,获取待识别对象的特征向量可以包括:首先,拉取待识别对象的线上实时业务产生的日志数据,计算待识别对象的通用特征(如对象属性的特征);基于业务设置的特有特征逻辑,对日志数据计算特有特征(如网络属性或设备属性的特征);然后,拼接通用特征和特有特征,作为线上的实时特征。然后,读取待识别对象的线下日志数据(例如历史上采集的日志数据)进行特征提取,得到线下的离线特征,如对象属性、网络属性及设备属性的特征。然后,可以基于Spark和TensorFlow等计算引擎,基于不同的特征的数据特性对应的信息提取策略进行信息提取处理,生成每个特征对应的特征向量。最后,基于拼接所有线上的实时特征和线下的离线特征对应的特征向量为一个长向量,长向量即待识别对象的特征向量。
采用训练后状态识别模型,基于待识别对象的特征向量进行生成状态识别,得到生活状态识别结果,生活状态识别结果例如已婚概率80%等。进而,可以基于生活状态识别结果确定待识别对象的婚恋状态,例如已婚概率80%大于特定阈值(如70%)确定待识别对象已婚。
以这种方式,基于步骤S410至步骤S440,通过至少一种筛选路径进行筛选处理,然后通过分割测试进行过滤处理以及根据画像特征的数据特性所对应信息提取策略对画像特征进行信息提取处理的整体流程,可以获取高质量的反映生活状态信息的特征向量,进一步利用特征向量对基于深度学习的状态识别模型进行训练,可以获得性能显著的训练后状态识别模型,训练后状态识别模型可以对待识别对象进行准确地婚恋状态识别分类,有效提升对象的生活状态类别(该场景下为婚恋状态类别)的分类效果。
为便于更好的实施本申请实施例提供的对象分类方法,本申请实施例还提供一种基于上述对象分类方法的对象分类装置。其中名词的含义与上述对象分类方法中相同,具体实现细节可以参考方法实施例中的说明。图6示出了根据本申请的一个实施例的对象分类装置的框图。
如图6所示,对象分类装置500中可以包括筛选模块510、过滤模块520、构建模块530、提取模块540及识别模块550。
筛选模块510可以用于将目标对象集中包括的对象样本基于至少一种筛选路径进行筛选处理,得到符合预定质量条件的目标对象样本;过滤模块520可以用于通过分割测试对所述目标对象样本进行过滤处理,得到预定生活状态匹配的测试结果所对应训练对象样本;构建模块530可以用于构建所述训练对象样本的画像特征,并根据所述画像特征的数据特性确定对应的信息提取策略;提取模块540可以根据所述信息提取策略对所述画像特征进行信息提取处理,得到所述训练对象样本对应的特征向量;识别模块550可以用于利用所述特征向量对基于深度学习的状态识别模型进行训练,以获得训练后状态识别模型对待识别对象进行分类处理,得到所述待识别对象的生活状态类别。
在本申请的一些实施例中,所述筛选模块,包括:第一召回单元,用于从所述目标对象集内的对象样本中确定基准对象样本,所述基准对象样本指与业务经验规则匹配的对象样本;第二召回单元,用于根据所述基准对象样本进行对象扩展处理,以从所述目标对象集内确定所述基准对象样本匹配的扩展对象样本;样本确定单元,用于将所述基准对象样本及所述扩展对象样本,确定为符合预定质量条件的目标对象样本。
在本申请的一些实施例中,所述扩展对象样本包括第一对象样本与第二对象样本的并集;所述第二召回单元,包括:分类子单元,用于采用目标分类器对特定对象样本进行分类处理,得到所述特定对象样本中所述基准对象样本匹配的所述第一对象样本,所述特定对象样本包括部分所述基准对象样本及所述目标对象集中所述基准对象样本之外的对象样本,所述目标分类器以部分所述基准对象样本为正样本且所述特定对象样本为负样本训练得到;扩展子单元,用于基于所述基准对象样本进行相似人群扩展处理,得到所述目标对象集内的对象样本中所述基准对象样本匹配的所述第二对象样本。
在本申请的一些实施例中,所述装置还包括第三召回单元,用于:基于深度神经网络对待识别对象样本进行对象识别处理,得到所述待识别对象样本中所述基准对象样本匹配的所述第三对象样本,所述待识别对象样本包括所述目标对象集中所述基准对象样本之外的对象样本;对所述待识别对象样本进行聚类处理,以确定所述待识别对象样本中所述基准对象样本匹配的所述第四对象样本;将所述基准对象样本、所述扩展对象样本、所述第三对象样本及所述第四对象样本的并集,确定为符合预定质量条件的目标对象样本。
在本申请的一些实施例中,所述过滤模块,包括:分组单元,用于将所述目标对象样本进行分组,并对分组得到的每个对象组设定对应的对照组,形成实验组对;分层单元,用于将每个所述实验组对分别作为线上流量按照预定实验层的层数进行流量分层处理,得到每个所述实验组对在预定实验层的分层结果,所述预定实验层之间的分层结果正交;测试单元,用于根据每个所述实验组对在预定实验层的分层结果,将每个所述实验组对分别作为线上流量基于所述预定实验层进行分层对照测试,得到每个实验组对的测试结果;匹配单元,用于确定预定生活状态匹配的测试结果所对应实验组对,并将确定的实验组对中对象组内的目标对象样本作为所述训练对象样本。
在本申请的一些实施例中,所述测试单元,用于:根据每个所述实验组对在预定实验层的分层结果,将每个所述实验组对分别作为线上流量基于所述预定实验层进行分层对照测试,所述分层对照测试的测试持续时长大于预定时长。
在本申请的一些实施例中,所述构建模块,包括:数据获取单元,用于获取所述训练对象样本的历史上参与目标业务产生的日志数据;特征提取单元,用于基于所述日志数据对所述训练对象样本进行特征提取处理,生成由对象属性的特征、设备属性的特征以及网络属性的特征组成的所述画像特征。
在本申请的一些实施例中,所述提取模块,包括:策略确定单元,用于确定所述画像特征中每个子画像特征的数据特性所对应信息提取策略;信息提取单元,用于基于每个所述子画像特征所对应信息提取策略,对每个所述子画像特征进行信息提取处理,得到提取到的子特征向量;向量生成单元,用于基于提取到的所述子特征向量,生成所述训练对象样本对应的特征向量。
在本申请的一些实施例中,提取到的子特征向量包括第一子特征向量及所述第二子特征向量;所述信息提取单元,包括:特征筛选子单元,用于对每个所述子画像特征进行筛选处理,得到符合业务逻辑的子画像特征以及不符合业务逻辑的子画像特征;第一提取子单元,用于将所述符合业务逻辑的子画像特征,基于对应的信息提取策略进行信息提取处理,得到所述符合目标业务逻辑的子画像特征对应的第一子特征向量;第二提取子单元,用于将所述不符合业务逻辑的子画像特征进行缺失值标记处理,得到缺失值标记向量作为所述不符合业务逻辑的子画像特征对应的第二子特征向量。
在本申请的一些实施例中,所述向量生成单元,用于:将提取到的所述子特征向量进行拼接处理,生成所述训练对象样本对应的特征向量。
在本申请的一些实施例中,所述识别模块,包括:模型获取单元,用于获取基于深度交叉网络构建的状态识别模型;模型调用单元,用于采用所述状态识别模型,基于所述特征向量进行生活状态识别,得到所述训练对象样本对应的预测生活状态;模型优化单元,用于根据所述预测生活状态对所述状态识别模型进行参数调整,生成所述训练后状态识别模型。
在本申请的一些实施例中,所述识别模块,包括状态识别单元,用于:获取所述待识别对象的特征向量;采用所述训练后状态识别模型,基于所述待识别对象的特征向量进行生成状态识别,得到生活状态识别结果;根据所述生活状态识别结果确定所述待识别对象的生活状态类别,所述生活状态类别包括婚恋状态类别或育儿状态类别。
以这种方式,基于对象分类装置500,可以实现通过至少一种筛选路径进行筛选处理,然后通过分割测试进行过滤处理以及根据画像特征的数据特性所对应信息提取策略对画像特征进行信息提取处理的整体流程,可以获取高质量的反映生活状态信息的特征向量,进一步利用特征向量对基于深度学习的状态识别模型进行训练,可以获得性能显著的训练后状态识别模型,训练后状态识别模型可以对待识别对象进行准确地婚恋状态识别,有效提升对象的婚恋状态识别效果。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,本申请实施例还提供一种电子设备,该电子设备可以为终端或者服务器,如图7所示,其示出了本申请实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器601、一个或一个以上计算机可读存储介质的存储器602、电源603和输入单元604等部件。本领域技术人员可以理解,图7中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器601是该电子设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器602内的软件程序和/或模块,以及调用存储在存储器602内的数据,执行计算机设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器601可包括一个或多个处理核心;优选的,处理器601可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户页面和应用程序等,调制解调处理器主要处理无线通讯。可以理解的是,上述调制解调处理器也可以不集成到处理器601中。
存储器602可用于存储软件程序以及模块,处理器601通过运行存储在存储器602的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器602还可以包括存储器控制器,以提供处理器601对存储器602的访问。
电子设备还包括给各个部件供电的电源603,优选的,电源603可以通过电源管理系统与处理器601逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源603还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元604,该输入单元604可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器601会按照如下的指令,将一个或一个以上的计算机程序的进程对应的可执行文件加载到存储器602中,并由处理器601来运行存储在存储器602中的计算机程序,从而实现各种功能,如处理器601可以执行:
将目标对象集中包括的对象样本基于至少一种筛选路径进行筛选处理,得到符合预定质量条件的目标对象样本;通过分割测试对所述目标对象样本进行过滤处理,得到预定生活状态匹配的测试结果所对应训练对象样本;构建所述训练对象样本的画像特征,并根据所述画像特征的数据特性确定对应的信息提取策略;根据所述信息提取策略对所述画像特征进行信息提取处理,得到所述训练对象样本对应的特征向量;利用所述特征向量对基于深度学习的状态识别模型进行训练,以获得训练后状态识别模型对待识别对象进行分类处理,得到所述待识别对象的生活状态类别。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成,或通过计算机程序控制相关的硬件来完成,该计算机程序可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例还提供一种计算机可读存储介质,其中存储有计算机程序,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种方法中的步骤。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的计算机程序,可以执行本申请实施例所提供的任一种方法中的步骤,因此,可以实现本申请实施例所提供的方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请上述实施例中各种可选实现方式中提供的方法。
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的实施例,而可以在不脱离其范围的情况下进行各种修改和改变。

Claims (16)

1.一种对象分类方法,其特征在于,包括:
将目标对象集中包括的对象样本基于至少一种筛选路径进行筛选处理,得到符合预定质量条件的目标对象样本;
通过分割测试对所述目标对象样本进行过滤处理,得到预定生活状态匹配的测试结果所对应训练对象样本;
构建所述训练对象样本的画像特征,并根据所述画像特征的数据特性确定对应的信息提取策略;
根据所述信息提取策略对所述画像特征进行信息提取处理,得到所述训练对象样本对应的特征向量;
利用所述特征向量对基于深度学习的状态识别模型进行训练,以获得训练后状态识别模型对待识别对象进行分类处理,得到所述待识别对象的生活状态类别。
2.根据权利要求1所述的方法,其特征在于,所述将目标对象集中对象样本基于至少一种筛选路径进行筛选处理,得到符合预定质量条件的目标对象样本,包括:
从所述目标对象集内的对象样本中确定基准对象样本,所述基准对象样本指与业务经验规则匹配的对象样本;
根据所述基准对象样本进行对象扩展处理,以从所述目标对象集内确定所述基准对象样本匹配的扩展对象样本;
将所述基准对象样本及所述扩展对象样本,确定为符合预定质量条件的目标对象样本。
3.根据权利要求2所述的方法,其特征在于,所述扩展对象样本包括第一对象样本与第二对象样本的并集;所述根据所述基准对象样本进行对象扩展处理,以从所述目标对象集内确定所述基准对象样本匹配的扩展对象样本,包括:
采用目标分类器对特定对象样本进行分类处理,得到所述特定对象样本中所述基准对象样本匹配的所述第一对象样本,所述特定对象样本包括部分所述基准对象样本及所述目标对象集中所述基准对象样本之外的对象样本,所述目标分类器以部分所述基准对象样本为正样本且所述特定对象样本为负样本训练得到;
基于所述基准对象样本进行相似人群扩展处理,得到所述目标对象集内的对象样本中所述基准对象样本匹配的所述第二对象样本。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
基于深度神经网络对待识别对象样本进行对象识别处理,得到所述待识别对象样本中所述基准对象样本匹配的第三对象样本,所述待识别对象样本包括所述目标对象集中所述基准对象样本之外的对象样本;
对所述待识别对象样本进行聚类处理,以确定所述待识别对象样本中所述基准对象样本匹配的第四对象样本;
将所述基准对象样本、所述扩展对象样本、所述第三对象样本及所述第四对象样本的并集,确定为符合预定质量条件的目标对象样本。
5.根据权利要求1所述的方法,其特征在于,所述通过分割测试对所述目标对象样本进行过滤处理,得到预定生活状态匹配的测试结果所对应训练对象样本,包括:
将所述目标对象样本进行分组,并对分组得到的每个对象组设定对应的对照组,形成实验组对;
将每个所述实验组对分别作为线上流量按照预定实验层的层数进行流量分层处理,得到每个所述实验组对在预定实验层的分层结果,所述预定实验层之间的分层结果正交;
根据每个所述实验组对在预定实验层的分层结果,将每个所述实验组对分别作为线上流量基于所述预定实验层进行分层对照测试,得到每个实验组对的测试结果;
确定预定生活状态匹配的测试结果所对应实验组对,并将确定的实验组对中对象组内的目标对象样本作为所述训练对象样本。
6.根据权利要求5所述的方法,其特征在于,所述根据每个所述实验组对在预定实验层的分层结果,将每个所述实验组对分别作为线上流量基于所述预定实验层进行分层对照测试,包括:
根据每个所述实验组对在预定实验层的分层结果,将每个所述实验组对分别作为线上流量基于所述预定实验层进行分层对照测试,所述分层对照测试的测试持续时长大于预定时长。
7.根据权利要求1所述的方法,其特征在于,所述构建所述训练对象样本的画像特征,包括:
获取所述训练对象样本的历史上参与目标业务产生的日志数据;
基于所述日志数据对所述训练对象样本进行特征提取处理,生成由对象属性的特征、设备属性的特征以及网络属性的特征组成的所述画像特征。
8.根据权利要求1所述的方法,其特征在于,所述根据所述信息提取策略对所述画像特征进行信息提取处理,得到所述训练对象样本对应的特征向量,包括:
确定所述画像特征中每个子画像特征的数据特性所对应信息提取策略;
基于每个所述子画像特征所对应信息提取策略,对每个所述子画像特征进行信息提取处理,得到提取到的子特征向量;
基于提取到的所述子特征向量,生成所述训练对象样本对应的特征向量。
9.根据权利要求8所述的方法,其特征在于,提取到的子特征向量包括第一子特征向量及第二子特征向量;所述基于每个所述子画像特征所对应信息提取策略,对每个所述子画像特征进行信息提取处理,得到提取到的子特征向量,包括:
对每个所述子画像特征进行筛选处理,得到符合业务逻辑的子画像特征以及不符合业务逻辑的子画像特征;
将所述符合业务逻辑的子画像特征,基于对应的信息提取策略进行信息提取处理,得到所述符合目标业务逻辑的子画像特征对应的第一子特征向量;
将所述不符合业务逻辑的子画像特征进行缺失值标记处理,得到缺失值标记向量作为所述不符合业务逻辑的子画像特征对应的第二子特征向量。
10.根据权利要求8所述的方法,其特征在于,所述基于提取到的所述子特征向量,生成所述训练对象样本对应的特征向量,包括:
将提取到的所述子特征向量进行拼接处理,生成所述训练对象样本对应的特征向量。
11.根据权利要求1所述的方法,其特征在于,所述利用所述特征向量对基于深度学习的状态识别模型进行训练,包括:
获取基于深度交叉网络构建的状态识别模型;
采用所述状态识别模型,基于所述特征向量进行生活状态识别,得到所述训练对象样本对应的预测生活状态;
根据所述预测生活状态对所述状态识别模型进行参数调整,生成所述训练后状态识别模型。
12.根据权利要求1至11任一项所述的方法,其特征在于,所述获得训练后状态识别模型对待识别对象进行分类处理,包括:
获取所述待识别对象的特征向量;
采用所述训练后状态识别模型,基于所述待识别对象的特征向量进行生成状态识别,得到生活状态识别结果;
根据所述生活状态识别结果确定所述待识别对象的生活状态类别,所述生活状态类别包括婚恋状态类别或育儿状态类别。
13.一种对象分类装置,其特征在于,包括:
筛选模块,用于将目标对象集中包括的对象样本基于至少一种筛选路径进行筛选处理,得到符合预定质量条件的目标对象样本;
过滤模块,用于通过分割测试对所述目标对象样本进行过滤处理,得到预定生活状态匹配的测试结果所对应训练对象样本;
构建模块,用于构建所述训练对象样本的画像特征,并根据所述画像特征的数据特性确定对应的信息提取策略;
提取模块,根据所述信息提取策略对所述画像特征进行信息提取处理,得到所述训练对象样本对应的特征向量;
识别模块,用于利用所述特征向量对基于深度学习的状态识别模型进行训练,以获得训练后状态识别模型对待识别对象进行分类处理,得到所述待识别对象的生活状态类别。
14.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,当所述计算机程序被计算机的处理器执行时,使计算机执行权利要求1至12任一项所述的方法。
15.一种电子设备,其特征在于,包括:存储器,存储有计算机程序;处理器,读取存储器存储的计算机程序,以执行权利要求1至12任一项所述的方法。
16.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现权利要求1至12任一项的方法。
CN202111202431.2A 2021-10-15 2021-10-15 对象分类方法及相关装置 Pending CN115994321A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111202431.2A CN115994321A (zh) 2021-10-15 2021-10-15 对象分类方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111202431.2A CN115994321A (zh) 2021-10-15 2021-10-15 对象分类方法及相关装置

Publications (1)

Publication Number Publication Date
CN115994321A true CN115994321A (zh) 2023-04-21

Family

ID=85988973

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111202431.2A Pending CN115994321A (zh) 2021-10-15 2021-10-15 对象分类方法及相关装置

Country Status (1)

Country Link
CN (1) CN115994321A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117061322A (zh) * 2023-09-27 2023-11-14 广东云百科技有限公司 物联网流量池管理方法及系统
CN117522037A (zh) * 2023-11-14 2024-02-06 苏州云智度科技服务有限公司 多客户多工序数据产品智能感知模型

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117061322A (zh) * 2023-09-27 2023-11-14 广东云百科技有限公司 物联网流量池管理方法及系统
CN117522037A (zh) * 2023-11-14 2024-02-06 苏州云智度科技服务有限公司 多客户多工序数据产品智能感知模型
CN117522037B (zh) * 2023-11-14 2024-06-11 苏州云智度科技服务有限公司 多客户多工序数据产品智能感知模型

Similar Documents

Publication Publication Date Title
Neil et al. Learning to be efficient: Algorithms for training low-latency, low-compute deep spiking neural networks
CN110460605B (zh) 一种基于自动编码的异常网络流量检测方法
CN111339433A (zh) 基于人工智能的信息推荐方法、装置、电子设备
CN115994321A (zh) 对象分类方法及相关装置
CN112221159B (zh) 一种虚拟道具推荐方法、装置及计算机可读存储介质
US11423307B2 (en) Taxonomy construction via graph-based cross-domain knowledge transfer
CN107223260B (zh) 用于动态地更新分类器复杂度的方法
CN114780831A (zh) 基于Transformer的序列推荐方法及系统
Asai et al. Towards stable symbol grounding with zero-suppressed state autoencoder
CN110751191A (zh) 一种图像的分类方法及系统
CN111046655B (zh) 一种数据处理方法、装置及计算机可读存储介质
CN113362852A (zh) 一种用户属性识别方法和装置
CN115168720A (zh) 内容交互预测方法以及相关设备
CN114581702A (zh) 图像分类方法、装置、计算机设备及计算机可读存储介质
Dong et al. Training generative adversarial networks with binary neurons by end-to-end backpropagation
CN117592595A (zh) 一种配电网负荷预测模型建立、预测方法及装置
CN113392867A (zh) 一种图像识别方法、装置、计算机设备及存储介质
CN115293872A (zh) 建立风险识别模型的方法及对应装置
CN115168722A (zh) 内容交互预测方法以及相关设备
CN116091133A (zh) 一种目标对象属性的识别方法、装置及存储介质
CN115937556A (zh) 对象识别方法、装置、设备和存储介质
CN113656927A (zh) 数据处理方法、相关设备及计算机程序产品
CN112950222A (zh) 资源处理异常检测方法、装置、电子设备及存储介质
CN113935393A (zh) 一种用户状态检测方法、装置和计算机可读存储介质
CN117688247B (zh) 推荐方法、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40085621

Country of ref document: HK