CN116091133A - 一种目标对象属性的识别方法、装置及存储介质 - Google Patents

一种目标对象属性的识别方法、装置及存储介质 Download PDF

Info

Publication number
CN116091133A
CN116091133A CN202111277391.8A CN202111277391A CN116091133A CN 116091133 A CN116091133 A CN 116091133A CN 202111277391 A CN202111277391 A CN 202111277391A CN 116091133 A CN116091133 A CN 116091133A
Authority
CN
China
Prior art keywords
feature
attribute
target
sample
historical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111277391.8A
Other languages
English (en)
Inventor
樊鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111277391.8A priority Critical patent/CN116091133A/zh
Publication of CN116091133A publication Critical patent/CN116091133A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0255Targeted advertisements based on user history
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种目标对象属性的识别方法、装置及存储介质,相关实施例可应用于云技术、人工智能、智慧交通等各种场景,用于提高目标对象属性的识别准确率。该方法包括:获取目标行为数据和历史行为数据,对目标行为数据进行特征提取,得到第一对象属性特征、第一设备属性特征、第一网络属性特征以及目标业务操作特征,对历史行为数据进行特征提取,得到第二对象属性特征、第二设备属性特征、第二网络属性特征以及历史业务操作特征,按照时间维度将第二对象属性特征、第二设备属性特征、第二网络属性特征和历史业务操作特征进行聚合,并将各个特征进行拼接,通过对象属性预测模型输出属性预测概率,并根据属性预测概率确定目标对象的群体属性。

Description

一种目标对象属性的识别方法、装置及存储介质
技术领域
本申请实施例涉及安全管理技术领域,尤其涉及目标对象属性的识别方法、装置及存储介质。
背景技术
随着信息时代的飞速发展,越来越多的产品通过广告推广而被人们熟知,但是容易存在所推送的广告内容和接收者不匹配的情况,比如向未成年人推送汽车广告、烟草广告、楼盘销售广告等等,不仅会让未成年人滋长不正确的消费意识,还会严重影响未成年人的健康成长,因此为了避免这种情况,以更好地进行产品的推广,通常是采用基于人工经验确定数据规则的方法从广告接收者中筛选出未成年群体,以减少或不对未成年群体推送汽车广告或烟草广告。
但是,基于人工经验确定数据规则识别未成年群体的方法能够使用规则数量是非常有限的,而且在识别过程中无法捕捉到数据规则之间交互时产生的高维特征信息,以及无法确定每个规则的最优参数,从而导致识别接收者中的未成年群体的准确率不高。
发明内容
本申请实施例提供了一种目标对象属性的识别方法、装置及存储介质,用于通过获取多个参考维度下的特征,以及按照时间维度进行特征聚合,以获取聚合特征,并将获取到的特征进行拼接,能够得到信息量更丰富的目标拼接特征作为模型的输入特征,从而使得对象属性预测模型能够更加容易地学习到和对象属性相关的信息,提高获取属性预测概率的准确性,以提高目标对象属性的识别准确率。
有鉴于此,本申请一方面提供一种目标对象属性的识别方法,包括:
获取目标对象的目标行为数据和历史行为数据,目标行为数据包括目标时段的目标基础信息和目标业务操作信息,历史行为数据包括历史时段的历史基础信息和历史业务操作信息;
对目标基础信息进行特征提取,得到第一对象属性特征、第一设备属性特征以及第一网络属性特征,并,对目标业务操作信息进行特征提取,得到目标业务操作特征,并,对历史基础信息进行特征提取,得到第二对象属性特征、第二设备属性特征以及第二网络属性特征,并,对历史业务操作信息进行特征提取,得到历史业务操作特征;
按照时间维度将第二对象属性特征、第二设备属性特征、第二网络属性特征以及历史业务操作特征进行聚合,得到聚合特征;
将第一对象属性特征、第一设备属性特征、第一网络属性特征、目标业务操作特征、第二对象属性特征、第二设备属性特征、第二网络属性特征、历史业务操作特征以及聚合特征进行拼接,得到目标拼接特征;
将目标拼接特征输入至对象属性预测模型,通过对象属性预测模型输出属性预测概率,并根据属性预测概率确定目标对象的群体属性。
本申请的另一方面提供一种目标对象属性的识别装置,包括:
获取单元,用于获取目标对象的目标行为数据和历史行为数据,目标行为数据包括目标时段的目标基础信息和目标业务操作信息,历史行为数据包括历史时段的历史基础信息和历史业务操作信息;
处理单元,用于对目标基础信息进行特征提取,得到第一对象属性特征、第一设备属性特征以及第一网络属性特征,并,对目标业务操作信息进行特征提取,得到目标业务操作特征,并,对历史基础信息进行特征提取,得到第二对象属性特征、第二设备属性特征以及第二网络属性特征,并,对历史业务操作信息进行特征提取,得到历史业务操作特征;
处理单元,还用于按照时间维度将第二对象属性特征、第二设备属性特征、第二网络属性特征以及历史业务操作特征进行聚合,得到聚合特征;
处理单元,还用于将第一对象属性特征、第一设备属性特征、第一网络属性特征、目标业务操作特征、第二对象属性特征、第二设备属性特征、第二网络属性特征、历史业务操作特征以及聚合特征进行拼接,得到目标拼接特征;
确定单元,用于将目标拼接特征输入至对象属性预测模型,通过对象属性预测模型输出属性预测概率,并根据属性预测概率确定目标对象的群体属性。
在一种可能的设计中,在本申请实施例的另一方面的一种实现方式中,处理单元具体可以用于:
从日志中分别提取第二对象属性特征、第二设备属性特征、第二网络属性特征以及历史业务操作特征对应的日志时间;
根据日志时间,按照第一时间窗口将第二对象属性特征、第二设备属性特征、第二网络属性特征以及历史业务操作特征聚合成第一聚合特征;
根据日志时间,按照第二时间窗口将第二对象属性特征、第二设备属性特征、第二网络属性特征以及历史业务操作特征聚合成第二聚合特征。
在一种可能的设计中,在本申请实施例的另一方面的一种实现方式中,
获取单元,还用于按照数值类型分别对第二对象属性特征、第二设备属性特征、第二网络属性特征、历史业务操作特征以及聚合特征进行分类,得到数值特征以及非数值特征;
处理单元,还用于对数值特征进行归一化,得到归一化特征;
处理单元,还用于对非数值特征进行离散化处理,得到离散化特征;
处理单元具体可以用于:将第一对象属性特征、第一设备属性特征、第一网络属性特征、目标业务操作特征、归一化特征以及离散化特征进行拼接,得到目标拼接特征。
在一种可能的设计中,在本申请实施例的另一方面的一种实现方式中,处理单元具体可以用于:
对非数值特征进行降维处理,得到处理后的嵌入特征;
处理单元具体可以用于:将第一对象属性特征、第一设备属性特征、第一网络属性特征、目标业务操作特征、归一化特征以及嵌入特征进行拼接,得到目标拼接特征。
在一种可能的设计中,在本申请实施例的另一方面的一种实现方式中,
处理单元,还用于若目标对象的群体属性为一级群体,则屏蔽目标业务,或,限制目标业务的推送数量。
在一种可能的设计中,在本申请实施例的另一方面的一种实现方式中,
确定单元,还用于若目标对象的群体属性为二级群体,则确定二级群体的群体活跃时段;
处理单元,还用于在群体活跃时段内增加目标业务的推送量,以使目标对象接收目标业务的推送。
在一种可能的设计中,在本申请实施例的另一方面的一种实现方式中,
获取单元,还用于获取属性样本训练集和属性样本测试集;
处理单元,还用于使用属性样本训练集分别训练多个待选模型,得到多个待选属性训练模型;
处理单元,还用于使用属性样本测试集分别测试多个待选属性训练模型,得到多个属性测试率;
确定单元,还用于将对属性测试率最高对应的待选属性训练模型作为对象属性预测模型。
在一种可能的设计中,在本申请实施例的另一方面的一种实现方式中,对象属性预测模型为神经因子分解机模型NFM,其中,NFM模型包括输入层、嵌入层、双线性交互池化层、隐藏层以及预测层。
在一种可能的设计中,在本申请实施例的另一方面的一种实现方式中,获取单元具体可以用于:
获取M个样本对象的属性样本集,其中,M为大于1的整数;
按照预设时间节点和集合分配比例系数,将属性样本集划分为属性样本训练集以及属性样本测试集。
在一种可能的设计中,在本申请实施例的另一方面的一种实现方式中,获取单元具体可以用于:
获取M个样本对象的历史样本行为数据,其中,历史样本行为数据为历史时段的历史样本基础信息和历史业务样本操作信息;
对历史样本基础信息进行特征提取,得到样本对象属性特征、样本设备属性特征以及样本网络属性特征,并,对历史业务样本操作信息进行特征提取,得到历史业务样本操作特征;
按照时间维度将样本对象属性特征、样本设备属性特征、样本网络属性特征以及历史业务样本操作特征进行聚合,得到聚合样本特征;
将样本对象属性特征、样本设备属性特征、样本网络属性特征以及聚合样本特征进行拼接,得到属性样本集。
在一种可能的设计中,在本申请实施例的另一方面的一种实现方式中,
获取单元,还用于获取N个待选对象的N个基础属性数据,N为大于1的整数;
处理单元,还用于根据N个基础属性数据,从N个待选对象中确定P个异常对象,并过滤P个异常对象,得到M个样本对象,P为大于等于1且小于N的整数。
在一种可能的设计中,在本申请实施例的另一方面的一种实现方式中,处理单元具体可以用于:
根据预设异常检测指标,从基础属性数据中选取待检测业务信息,其中,预设异常检测指标是根据目标业务确定的;
根据待检测业务信息,计算基础属性数据的随机误差;
若随机误差不属于预设误差区间,则确定基础属性数据对应的待选对象为异常对象,以得到P个异常对象。
本申请另一方面提供了一种计算机设备,包括:存储器、收发器、处理器以及总线系统;
其中,存储器用于存储程序;
处理器用于执行存储器中的程序时实现如上述各方面的方法;
总线系统用于连接存储器以及处理器,以使存储器以及处理器进行通信。
本申请的另一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面的方法。
本申请的另一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。网络设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该网络设备执行上述各方面所提供的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
通过获取目标对象的包括目标时段的目标基础信息和目标业务操作信息的目标行为数据,以及包括历史时段的历史基础信息和历史业务操作信息的历史行为数据,并对目标基础信息、目标业务操作信息、历史基础信息以及历史业务操作信息进行特征提取,以获取第一对象属性特征、第一设备属性特征、第一网络属性特征、目标业务操作特征、第二对象属性特征、第二设备属性特征、第二网络属性特征以及历史业务操作特征,进而可以按照时间维度将第二对象属性特征、第二设备属性特征、第二网络属性特征以及历史业务操作特征进行聚合,以获取聚合特征,然后,可以进行特征拼接并将拼接后的目标拼接特征输入至对象属性预测模型,通过对象属性预测模型输出属性预测概率,并根据属性预测概率确定目标对象的群体属性。通过上述方式,能够通过从目标行为数据和历史行为数据中提取出多个参考维度下的对象属性特征、设备属性特征、网络属性特征、目标业务操作特征、对象属性特征、设备属性特征、网络属性特征、历史业务操作特征,同时,还能够按照时间维度进行特征聚合,以获取聚合特征,来进一步丰富在时间参考维度下的提取到的特征,使得目标拼接特征包含的信息量更丰富,从而使得对象属性预测模型能够更加容易地学习到和对象属性相关的信息,提高获取属性预测概率的准确性,以提高目标对象属性的识别准确率。
附图说明
图1是本申请实施例中对象数据控制系统的一个架构示意图;
图2是本申请实施例中目标对象属性的识别方法的一个实施例流程图;
图3是本申请实施例中目标对象属性的识别方法的另一个实施例流程图;
图4是本申请实施例中目标对象属性的识别方法的另一个实施例流程图;
图5是本申请实施例中目标对象属性的识别方法的另一个实施例流程图;
图6是本申请实施例中目标对象属性的识别方法的另一个实施例流程图;
图7是本申请实施例中目标对象属性的识别方法的另一个实施例流程图;
图8是本申请实施例中目标对象属性的识别方法的另一个实施例流程图;
图9是本申请实施例中目标对象属性的识别方法的另一个实施例流程图;
图10是本申请实施例中目标对象属性的识别方法的另一个实施例流程图;
图11是本申请实施例中目标对象属性的识别方法的另一个实施例流程图;
图12是本申请实施例中目标对象属性的识别方法的另一个实施例流程图;
图13是本申请实施例中目标对象属性的识别方法的一个原理流程示意图;
图14是本申请实施例中目标对象属性的识别方法的另一个原理流程示意图;
图15是本申请实施例中目标对象属性的识别方法的一个训练模型原理流程示意图;
图16是本申请实施例中目标对象属性的识别方法的一个模型原理示意图;
图17(a)是本申请实施例中目标对象属性的识别方法的一个模型效果示意图;
图17(b)是本申请实施例中目标对象属性的识别方法的另一个模型效果示意图;
图18是本申请实施例中目标对象属性的识别装置的一个实施例示意图;
图19是本申请实施例中计算机设备的一个实施例示意图。
具体实施方式
本申请实施例提供了一种目标对象属性的识别方法、装置及存储介质,用于通过获取多个参考维度下的特征,以及按照时间维度进行特征聚合,以获取聚合特征,并将获取到的特征进行拼接,能够得到信息量更丰富的目标拼接特征作为模型的输入特征,从而使得对象属性预测模型能够更加容易地学习到和对象属性相关的信息,提高获取属性预测概率的准确性,以提高目标对象属性的识别准确率。
本申请的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应理解,本申请提供的目标对象属性的识别方法可以应用于通过识别对象属性完成业务推送或业务管理的场景中,作为示例,例如通过识别对象的群体属性屏蔽不合适对象的业务推送。作为另一个示例,例如通过识别对象的群体属性来管理业务推送量。作为再一示例,例如通过识别对象的群体属性来管理业务推送时段。
可以理解的是,本申请提出了一种目标对象属性的识别方法,该方法应用于图1所示的对象数据控制系统,请参阅图1,图1为本申请实施例中对象数据控制系统的一个架构示意图,如图1所示,服务器通过获取终端设备提供目标对象的包括目标时段的目标基础信息和目标业务操作信息的目标行为数据,以及包括历史时段的历史基础信息和历史业务操作信息的历史行为数据,并对目标基础信息、目标业务操作信息、历史基础信息以及历史业务操作信息进行特征提取,以获取第一对象属性特征、第一设备属性特征、第一网络属性特征、目标业务操作特征、第二对象属性特征、第二设备属性特征、第二网络属性特征以及历史业务操作特征,进而可以按照时间维度将第二对象属性特征、第二设备属性特征、第二网络属性特征以及历史业务操作特征进行聚合,以获取聚合特征,然后,可以进行特征拼接并将拼接后的目标拼接特征输入至对象属性预测模型,通过对象属性预测模型输出属性预测概率,并根据属性预测概率确定目标对象的群体属性。通过上述方式,能够通过从目标行为数据和历史行为数据中提取出多个参考维度下的对象属性特征、设备属性特征、网络属性特征、目标业务操作特征、对象属性特征、设备属性特征、网络属性特征、历史业务操作特征,同时,还能够按照时间维度进行特征聚合,以获取聚合特征,来进一步丰富在时间参考维度下的提取到的特征,使得目标拼接特征包含的信息量更丰富,从而使得对象属性预测模型能够更加容易地学习到和对象属性相关的信息,提高获取属性预测概率的准确性,以提高目标对象属性的识别准确率。
而随着信息的飞速发展,云技术(Cloud technology)也逐渐走入人们生活的方方面面。云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
其中,云安全(Cloud Security)是指基于云计算商业模式应用的安全软件、硬件、用户、机构、安全云平台的总称。云安全融合了并行处理、网格计算、未知病毒行为判断等新兴技术和概念,通过网状的大量客户端对网络中软件行为的异常监测,获取互联网中木马、恶意程序的最新信息,并发送到服务端进行自动分析和处理,再把病毒和木马的解决方案分发到每一个客户端。
可以理解的是,图1中仅示出了一种终端设备,在实际场景中可以由更多种类的终端设备参与到数据处理的过程中,终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等,具体数量和种类因实际场景而定,具体此处不做限定。另外,图1中示出了一个服务器,但在实际场景中,也可以有多个服务器的参与,特别是在多模型训练交互的场景中,服务器的数量因实际场景而定,具体此处不做限定。
需要注意的是,本实施例中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(contentdelivery network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,终端设备以及服务器可以连接组成区块链网络,本申请在此不做限制。
为了解决上述问题,本申请提出了一种目标对象属性的识别方法,该方法一般由服务器或终端设备执行,相应地,应用于目标对象属性的识别装置一般设置于服务器或终端设备中。
可以理解的是,如本申请所公开的目标对象属性的识别方法、装置以及存储介质,其中多个服务器或终端设备可以组成为一区块链,而服务器或终端设备为区块链上的节点。在实际应用中,可以在区块链中需要进行节点与节点之间的数据共享,每个节点上可以存储有行为数据等。
下面将对本申请中目标对象属性的识别方法进行介绍,请参阅图2,本申请实施例中目标对象属性的识别方法一个实施例包括:
在步骤S101中,获取目标对象的目标行为数据和历史行为数据,目标行为数据包括目标时段的目标基础信息和目标业务操作信息,历史行为数据包括历史时段的历史基础信息和历史业务操作信息;
在本实施例中,如图13以及图14所示,由于用户可以通过客户端执行目标对象属性的识别操作,则客户端可以接收用户对想要识别的目标对象以及对象属性预测模型的选择操作,并根据用户的选择操作生成目标对象的属性识别指令,以使服务器能够根据属性识别指令调用相应的对象属性预测模型,以及获取到目标对象的目标行为数据和历史行为数据。
其中,目标对象的目标行为数据指的是网络日志中记载的目标时段的目标基础信息和目标业务业务信息,其中,目标时段具体可以表现为对目标对象进行目标对象属性的识别当天或当周,还可以是其他时段,此处不作具体限制。目标基础信息具体可以表现为目标时段内的目标对象居住地、目标对象使用的设备型号以及目标对象使用的网络等信息,还可以是其他信息,此处不作具体限制。目标业务操作信息指的是目标时段内的目标对象对在某一业务场景下执行的操作,具体可以表现为目标对象使用某一业务应用程序的时长,或者,目标对象使用某一业务推送广告的点击率等,还可以是其他信息,此处不作具体限制。
其中,目标对象的历史行为数据指的是网络日志或大数据平台中记录或存储的历史时段的历史基础信息和历史业务操作信息,其中,历史时段指的是对目标对象进行目标对象属性的识别当前时刻的过去时间,具体可以表现为当前时刻的过去的一周或者过去的一周,还可以是其他时段,此处不作具体限制。历史基础信息具体可以表现为历史时段内的目标对象居住地、目标对象使用的设备型号以及目标对象使用的网络等信息,还可以是其他信息,此处不作具体限制。历史业务操作信息指的是历史时段内的目标对象对在某一业务场景下执行的操作,具体可以表现为目标对象过去一周使用某一业务应用程序的时长,或者目标对象过去一个月对某一业务的搜索率等,还可以是其他信息,此处不作具体限制。
此外,应当理解,本实施例及后续实施例中,用户均指的是客户端的使用者,在本实施例中,用户也为业务管理者。目标对象指的是业务推送的接收者,也为终端设备的使用者。应当理解,本实施例及后续实施例中,均仅以业务推送为游戏应用的游戏广告,业务操作为使用游戏应用的时长为例进行说明,当然业务推送也可以为教育视频网站广告、新闻等等,均可以可结合本实施例中的描述类推使用,此处不做限定。
具体地,如图13所示,可以基于线上引擎上配置的固定计算逻辑和计算定时器,定时从云端的线上日志中拉取目标对象的目标行为数据,以及定时从数据库或离线日志中搜索目标对象的历史行为数据。
在步骤S102中,对目标基础信息进行特征提取,得到第一对象属性特征、第一设备属性特征以及第一网络属性特征,并,对目标业务操作信息进行特征提取,得到目标业务操作特征,并,对历史基础信息进行特征提取,得到第二对象属性特征、第二设备属性特征以及第二网络属性特征,并,对历史业务操作信息进行特征提取,得到历史业务操作特征;
在本实施例中,如图13以及图14所示,在获取到目标对象的目标行为数据和历史行为数据之后,为了使得后续使用的对象属性预测模型能够更好地学习到目标对象群体属性和关联属性,可以从对象自然属性维度和业务属性维度等多个参考维度下挖掘丰富的属性特征,以提取到目标基础信息对应的第一对象属性特征、第一设备属性特征以及第一网络属性特征,目标业务操作信息对应的目标业务操作特征,历史基础信息对应的第二对象属性特征、第二设备属性特征以及第二网络属性特征,以及历史业务操作信息对应的历史业务操作特征。
其中,第一对象属性特征指的是目标时段内的对象自然基础属性,具体可以表现为目标时段内的居住城市,或者使用设备的地点等,还可以是其他特征,此处不作具体限制。第一设备属性特征指的是目标时段内目标对象所使用的设备的设备基础属性,具体可以表现为电脑分辨率或者CPU核数等,还可以是其他特征,此处不作具体限制。第一网络属性特征指的是目标时段内目标对象所使用的网络的网络连接属性,具体可以表现为连接无线网络通信热点(Wi-Fi)的个数或者当天连接Wi-Fi的时长等,还可以是其他特征,此处不作具体限制。目标业务操作特征指的是目标时段内的基于业务属性提取到的业务垂直类型特征,具体可以表现为目标对象对业务广告的点击率或转化率等,其中,业务广告包括玩具类广告、教育类广告以及游戏类广告等,具体不作限定。
其中,第二对象属性特征是历史时段内的对象自然基础属性,具体可以表现为性别、籍贯、历史时段内居住城市等,还可以是其他特征,此处不作具体限制。第二设备属性特征指的是历史时段内目标对象曾使用的设备的设备基础属性,具体可以表现为手机分辨率或者API_Level等,还可以是其他特征,此处不作具体限制。第二网络属性特征指的是历史时段内目标对象所使用的网络的网络连接属性,具体可以表现为每天连接Wi-Fi的次数或者每天连接Wi-Fi的最早时间等,还可以是其他特征,此处不作具体限制。历史业务操作特征指的是历史时段内的基于业务属性提取到的业务垂直类型特征,具体可以表现为目标对象过去一周对游戏类广告的点击率或转化率等,还可以是其他特征,此处不作具体限制。
具体地,如图13所示,在获取到目标对象的目标行为数据和历史行为数据之后,可以基于线上引擎上配置的固定计算对象基础属性逻辑对目标基础信息进行特征提取,得到目标对象的通用特征,即第一对象属性特征如目标对象的性别等、第一设备属性特征如目标对象当天使用的设备品牌等,以及第一网络属性特征如目标对象当天连接Wi-Fi的次数等。
进一步地,可以基于线上引擎上配置的业务强相关特征逻辑,如当天目标对象使用Wi-Fi管理器的总时长,或者当天首次打开游戏应用的时间等,来对目标业务操作信息进行特征提取,得到目标业务操作特征,如目标对象当天在游戏应用内产生的实时行为等,其中,产生的实时行为的粒度一般是小时级。
进一步地,可以将提取到的第一对象属性特征、第一设备属性特征、第一网络属性特征以及目标业务操作特征,分别进行向量处理,然后,将处理得到向量进行拼接,可以得到一个线上的整体特征,即线上实时特征,其中,拼接后的整体特征是一个高维度的向量,具体可以表现为一个(1,0,2,…,3,1,14)形式的向量。
进一步地,可以基于计算引擎如Spark和TensorFlow等对历史基础信息进行特征提取,具体可以是通过对历史属性标签进行统计,或者是与对目标基础信息进行特征提取的方式相似,以获取第二对象属性特征如目标对象过去一年的居住城市等、第二设备属性特征如目标对象过去一月的手机分辨率等,以及第二网络属性特征如目标对象过去一月的每天连接Wi-Fi的最早时间等。
进一步地,对历史业务操作信息进行特征提取,具体可以是与对目标业务操作信息进行特征提取的方式相似,此处不再赘述,以获取历史业务操作特征如目标对象过去一周在游戏应用内产生的行为等。
在步骤S103中,按照时间维度将第二对象属性特征、第二设备属性特征、第二网络属性特征以及历史业务操作特征进行聚合,得到聚合特征;
在本实施例中,如图13以及图14所示,在获取到第二对象属性特征、第二设备属性特征、第二网络属性特征以及历史业务操作特征后,可以结合时间维度,分别聚合不同时间跨度的第二对象属性特征、第二设备属性特征、第二网络属性特征以及历史业务操作特征,以获取到不同时间跨度对应的聚合特征。
具体地,如图13所示,在获取到第二对象属性特征、第二设备属性特征、第二网络属性特征以及历史业务操作特征后,可以按照时间维度,分别对第二对象属性特征、第二设备属性特征、第二网络属性特征以及历史业务操作特征进行特征划分,然后,将划分到不同的时间跨度下的特征进行聚合,具体可以是采用求和、中位数、标准差三种中的任一种进行特征聚合,以获取到得到每个时间跨度下的聚合特征,不仅能够通过每个时间跨度下的聚合特征来反映目标对象在每个时间跨度下对业务产生的兴趣稳定度,如近期的兴趣稳定度或者长期的兴趣稳定度等,还能够基于时间维度,实现第二对象属性特征、第二设备属性特征、第二网络属性特征以及历史业务操作特征之间的特征交叉,以获取信息更加丰富的聚合特征。
例如,假设第二对象属性特征为对象A,第二设备属性特征为B品牌手机,第二网络属性特征为过去一周连接Wi-Fi的最早时间为早上6点,历史业务操作特征为使用游戏应用S1的时长为2小时,那么聚合一个时间跨度如近一周的聚合特征可以为“近一个周对象A每天最早6点使用B品牌手机连接Wi-Fi登录游戏应用S1的时长为2小时”,可以通过该聚合特征来反映目标对象在近一个周对游戏应用S1产生的兴趣稳定度。
在步骤S104中,将第一对象属性特征、第一设备属性特征、第一网络属性特征、目标业务操作特征、第二对象属性特征、第二设备属性特征、第二网络属性特征、历史业务操作特征以及聚合特征进行拼接,得到目标拼接特征;
在本实施例中,如图13以及图14所示,在获取到聚合特征之后,可以按照拼接的方式进行特征拼接,能够得到信息量更丰富的目标拼接特征,以使后续可以将目标拼接特征作为模型的输入特征,从而使得对象属性预测模型能够更加容易地学习到和目标对象属性相关的信息,提高获取属性预测概率的准确性,以提高目标对象属性的识别准确率。
具体地,如图13所示,在获取到聚合特征之后,可以将第一对象属性特征、第一设备属性特征、第一网络属性特征、目标业务操作特征、第二对象属性特征、第二设备属性特征、第二网络属性特征、历史业务操作特征以及聚合特征分别进行向量转换,然后,将转换后得到向量进行拼接为一个丰富的长向量,即目标拼接特征,其中,目标拼接特征具体可以表现为一个(1,0,2,1.1,41,…,3,1,14)形式的向量,还可以是其他形式的向量,此处不作具体限制。
在步骤S105中,将目标拼接特征输入至对象属性预测模型,通过对象属性预测模型输出属性预测概率,并根据属性预测概率确定目标对象的群体属性。
在本实施例中,在获取到目标拼接特征之后,可以将目标拼接特征作为模型的输入特征输入至对象属性预测模型中,使得对象属性预测模型能够更加容易地学习到和目标对象的群体属性相关的信息,以准确获取到属性预测概率,然后,可以根据准确的属性预测概率确定目标对象的群体属性,能够在一定程度上提高对象属性的识别准确率。
其中,对象属性预测模型具体可以表现为逻辑回归(Logistic Regression,LR)模型、分类与回归树(Classification And Regression Tree,CART)模型、随机森林(RandomForests)模型或者卷积神经网络(Convolutional Neural Networks,CNN)模型等,还可以是其他模型,此处不作具体限制。
其中,目标对象的群体属性具体可以表现年龄层群体,或者兴趣偏好群体,还可以是其他群体属性,此处不作具体限制,其中,年龄层群体具体可以表现为7至16岁的一级群体,或者高于16岁的二级群体等,还可以是其他群体,此处不作具体限制。
具体地,如图13所示,在获取到目标拼接特征之后,将目标拼接特征输入至对象属性预测模型,通过对象属性预测模型输出属性预测概率,然后,根据属性预测概率确定目标对象的群体属性,具体可以是将获取到的属性预测概率与预设的群体概率如一级群体正例概率和二级群体正例概率等进行比较,可以理解的是,当属性预测概率为一级群体预测概率时,可以将一级群体预测概率与一级群体正例概率进行比较,如果一级群体预测概率大于一级群体概率,则表示目标对象的群体属性为一级群体,同理,当属性预测概率为二级群体预测概率时,可以将二级群体预测概率与一级群体正例概率进行比较,如果二级群体预测概率大于二级群体概率,则表示目标对象的群体属性为二级群体。
例如,假设将目标拼接特征输入至对象属性预测模型,通过对象属性预测模型输出的属性预测概率为一级群体预测概率时,可以将一级群体预测概率如0.75与一级群体正例概率如0.6进行比较,如果一级群体预测概率如0.75大于一级群体概率如0.6,则表示目标对象的群体属性为一级群体。
在本申请实施例中,提供了一种目标对象属性的识别方法,通过上述方式,能够通过从目标行为数据和历史行为数据中提取出多个参考维度下的对象属性特征、设备属性特征、网络属性特征、目标业务操作特征、对象属性特征、设备属性特征、网络属性特征、历史业务操作特征,同时,还能够按照时间维度进行特征聚合,以获取聚合特征,来进一步丰富在时间参考维度下的提取到的特征,使得目标拼接特征包含的信息量更丰富,从而使得对象属性预测模型能够更加容易地学习到和目标对象的群体属性相关的信息,提高获取属性预测概率的准确性,以提高目标对象属性的识别准确率。
可选地,在上述图2对应的实施例的基础上,本申请实施例提供的目标对象属性的识别方法另一个可选实施例中,如图3所示,聚合特征包括第一聚合特征和第二聚合特征,按照时间维度将第二对象属性特征、第二设备属性特征、第二网络属性特征以及历史业务操作特征进行聚合,得到聚合特征,包括:
在步骤S301中,从日志中分别提取第二对象属性特征、第二设备属性特征、第二网络属性特征以及历史业务操作特征对应的日志时间;
在步骤S302中,根据日志时间,按照第一时间窗口将第二对象属性特征、第二设备属性特征、第二网络属性特征以及历史业务操作特征聚合成第一聚合特征;
在步骤S303中,根据日志时间,按照第二时间窗口将第二对象属性特征、第二设备属性特征、第二网络属性特征以及历史业务操作特征聚合成第二聚合特征。
在本实施例中,在第二对象属性特征、第二设备属性特征、第二网络属性特征以及历史业务操作特征之后,可以从日志中分别提取各个特征对应的日志时间,然后,可以根据日志时间,按照第一时间窗口将各个特征聚合成第一聚合特征,以及根据日志时间,按照第二时间窗口将各个特征聚合成第二聚合特征,不仅能够通过日志时间实现第一时间窗口以及第二时间窗口内各个特征的交叉,以获取到信息量丰富的第一聚合特征以及第二聚合特征,还能够通过第一聚合特征和第二聚合特征,来反映目标对象在第一时间窗口下对业务产生的兴趣稳定度,以及目标对象在第二时间窗口下对业务产生的兴趣稳定度。
具体地,日志具体可以表现为目标对象的云端网络日志,或者本地网络日志,还可以是其他日志,此处不作具体限制。日志时间是日志中每个特征对应的记载时间,第一时间窗口与第二时间窗口均是将当前日志时间对应的过去时间段按照不同的时间长度来划分得到的时间窗口,其中,第一时间窗口与第二时间窗口的时间长度不一致。
例如,假设当前日志时间为2020.02.12 13:01:01,第一时间窗口为当前日志时间的过去一周,那么根据各个特征对应的日志时间,假设属于第一时间窗口的第二对象属性特征为对象A,第二设备属性特征为B品牌手机,第二网络属性特征为过去一周连接Wi-Fi的最早时间为早上6点,历史业务操作特征为使用游戏应用S2的时长为2小时,那么第一聚合特征可以为“近一个周对象A每天最早6点使用B品牌手机连接Wi-Fi登录游戏应用S2的时长为2小时”,该第一聚合特征可以用于反映对象A在近一个周对游戏应用S2产生的兴趣稳定度。
例如,假设当前日志时间为2020.02.12 13:01:01,第二时间窗口为当前日志时间的过去一月,那么根据各个特征对应的日志时间,假设属于第二时间窗口的第二对象属性特征为对象A,第二设备属性特征为B品牌手机,第二网络属性特征为过去一月连接Wi-Fi的最早时间为早上7点,历史业务操作特征为使用游戏应用S2的时长为4小时,那么第一聚合特征可以为“近一个月对象A每天最早7点使用B品牌手机连接Wi-Fi登录游戏应用S2的时长为4小时”,该第一聚合特征可以用于反映对象A在近一个月对游戏应用S2产生的兴趣稳定度。
可选地,在上述图2对应的实施例的基础上,本申请实施例提供的目标对象属性的识别方法另一个可选实施例中,如图4所示,按照时间维度将第二对象属性特征、第二设备属性特征、第二网络属性特征以及历史业务操作特征进行聚合,得到聚合特征之后,该方法还包括:
在步骤S401中,按照数值类型分别对第二对象属性特征、第二设备属性特征、第二网络属性特征、历史业务操作特征以及聚合特征进行分类,得到数值特征以及非数值特征;
在步骤S402中,对数值特征进行归一化,得到归一化特征;
在步骤S403中,对非数值特征进行离散化处理,得到离散化特征;
在步骤S404中,将第一对象属性特征、第一设备属性特征、第一网络属性特征、目标业务操作特征、归一化特征以及离散化特征进行拼接,得到目标拼接特征。
在本实施例中,如图13以及图14所示,在获取到第二对象属性特征、第二设备属性特征、第二网络属性特征、历史业务操作特征以及聚合特征之后,可以按照数值类型分别将获取到各个特征进行特征分类,然后,按照数值类型对应的特征处理方式,对分类后的特征进行处理,即对数值特征进行归一化,以及对非数值特征进行离散化处理,以获取到能够更好地方便计算机识别的归一化特征,以及离散化特征,从而在一定程度上提高目标对象属性的识别效率以及准确率。
具体地,按照数值类型分别对第二对象属性特征、第二设备属性特征、第二网络属性特征、历史业务操作特征以及聚合特征进行分类,以获取数值特征以及非数值特征,进而,对数值特征进行归一化,具体可以是采用高斯归一化算法,还可以是其他归一化算法,此处不作具体限制,同时,对非数值特征进行离散化处理,具体可以是根据非数值特征对应的特征属性类型确定特征处理方式,还可以是其他确定特征处理的方式,此处不作具体限制,然后,根据确定的特征处理方式对特征属性类型对应的非数值特征进行特征处理,以获取到离散化特征。
例如,对于属于对象基础属性类型的非数值特征如性别等特征,可以采用的特征处理方式为独热编码(One-Hot Encoding)算法,可以得到离散化特征为男:(1,0),女:(0,1);或者,对于属于对象网络属性类型的非数值特征如WiFi POI兴趣程度特征,可以采用的特征处理方式为计数编码(Count Encoding)算法,可以得到离散化特征如用户当周去了“美食-中国菜-粤菜”这个POI共3次。
进一步地,对非数值特征进行离散化处理,具体还可以是进行特征的缺失值处理,如“剔除”、“平均值填充”和“缺失标记”等缺失值处理方式,来获取缺失值,然后将缺失值转为Embedding表达的方式,以获取到特征质量更好的离散化特征,从而使得模型可以学习到与对象属性相关的信息具有正向收益。
进一步地,对非数值特征进行离散化处理,具体还可以是对属于相同类型的特征采用的特征处理方式为合并编码(Consolidation Encoding)算法,可以得到离散化特征,即某些类目变量下的多个取值,可以将其归纳成同一个信息,例如B品牌手机的系统版本特征的多个取值里包括“4.2”、“4.4”和“5.0”三个,则可以将这三个值归纳为“低版本B品牌系统”,其中,对于多个属于“B品牌系统版本”的特征,采用合并编码处理方式比直接将通过独热编码的处理方式能带来更大的正向收益。
可以理解的是,在获取到归一化特征以及离散化特征后,本实施例还可以分别对归一化特征以及离散化特征进行清洗、过滤或验证等处理,以获取高品质特征。
其中,分别对归一化特征以及离散化特征进行清洗、过滤或验证等处理具体可以是基于业务经验来制定特征质量标准实现对特征的清洗、过滤或验证,特征质量标准具体可以表现为每天使用游戏应用的时长低于1小时等。或者,按照预设策略确定无效、异常特征,并对无效、异常特征进行剔除,其中,预设策略具体可以表现为目标对象使用某个应用的时长不能大于24小时等。或者,对不符合业务要求的特征进行缺失标记,并拼接符合业务要求的特征,拼接后的特征可以表示为(0.2,0.1,1,…,-1,…,0),其中,业务要求具体可以表现为每天使用游戏应用的时长不低于2小时等。
进一步地,如图13所示,本实施例还可以将处理后的特征进行合并、并离线存储在分布式文件系统(The Hadoop Distributed File System,HDFS)中,便于后续能够对处理后的特征进行快速访问。
进一步地,如图13所示,本实施例还可以将特征处理逻辑固化,具体可以是通过定时离线自动化进行离线特征计算,将离线计算得到的结果添加(Push)到线上存储引擎中保存。
可选地,在上述图4对应的实施例的基础上,本申请实施例提供的目标对象属性的识别方法另一个可选实施例中,如图5所示,对非数值特征进行离散化处理,得到离散化特征,包括:
在步骤S501中,对非数值特征进行降维处理,得到处理后的嵌入特征;
在步骤S502中,将第一对象属性特征、第一设备属性特征、第一网络属性特征、目标业务操作特征、归一化特征以及嵌入特征进行拼接,得到目标拼接特征。
在本实施例中,如图13所示,在获取到非数值特征之后,由于许多特征都存在较强的稀疏性,因此,本实施例可以对非数值特征进行降维处理,以获取到嵌入特征,能够提高特征的稳定性,从而能够在一定程度上避免模型过拟合和提高模型稳定性。
具体地,当获取到非数值特征时,具体可以是引入神经网络,将高维稀疏分类变量即高维稀疏的非数值特征转换为低维稠密的嵌入变量,即嵌入特征。
例如,基于深度学习网络MST-CNN,对目标对象的非数值特征如Wi-Fi连接轨迹数据进行降维处理,可以获取到包含有目标对象使用Wi-Fi行为模式(Pattern)信息的嵌入特征。
例如,基于序列嵌入List-Embedding方式,对目标对象使用不同类目应用的流量使用行为序列进行嵌入提取,可以获得低维稠密的目标对象的行为特征,即嵌入特征。
可选地,在上述图2对应的实施例的基础上,本申请实施例提供的目标对象属性的识别方法另一个可选实施例中,如图6所示,将目标拼接特征输入至对象属性预测模型,通过对象属性预测模型输出属性预测概率,并根据属性预测概率确定目标对象的群体属性之后,该方法还包括:
在步骤S601中,若目标对象的群体属性为一级群体,则屏蔽目标业务,或,限制目标业务的推送数量。
在本实施例中,如图13所示,在确定目标对象的群体属性后,如果当目标对象的群体属性为一级群体时,可以理解为目标业务不适合该目标对象,则可以屏蔽目标业务,或,限制目标业务的推送数量,以减少目标对象接收目标业务的推送,能够更加精细地进行业务推送。
具体地,一级群体具体可以表现为未成年,或者7至16周岁的群体等,具体不作限定。目标业务具体可以表现为网游、手游或者汽车等业务,还可以是其他业务,此处不作具体限制。
例如,目标对象的群体属性为未满16周岁的群体,目标业务为C手游,则减少向该目标对象推送关于的C手游的消息量或广告量。
可选地,在上述图2对应的实施例的基础上,本申请实施例提供的目标对象属性的识别方法另一个可选实施例中,如图7所示,将目标拼接特征输入至对象属性预测模型,通过对象属性预测模型输出属性预测概率,并根据属性预测概率确定目标对象的群体属性之后,该方法还包括:
在步骤S701中,若目标对象的群体属性为二级群体,则确定二级群体的群体活跃时段;
在步骤S702中,在群体活跃时段内增加目标业务的推送量,以使目标对象接收目标业务的推送。
在本实施例中,如图13所示,在确定目标对象的群体属性后,如果当目标对象的群体属性为二级群体时,可以理解为目标业务适合该目标对象,则为了是目标对象能够更好以及更加充分地接触到目标业务,可以通过确定二级群体的群体活跃时段,并在群体活跃时段内增加目标业务的推送量,能够在一定程度上提高目标业务的曝光率,使得目标业务能够更好地进行推广。
具体地,二级群体具体可以表现为成年群体,或者已满16周岁的群体等,具体不作限定。群体活跃时段指的是某一群体的长时间的稳定活动或使用时间,群体活跃时段具体可以表现为周末、法定节假日或者下班时间等,此处不作具体限制。
例如,目标对象的群体属性为成年的群体,目标业务为B网游,则在周末增加向该目标对象推送关于的B网游的消息量或广告量。
可选地,在上述图2对应的实施例的基础上,本申请实施例提供的目标对象属性的识别方法另一个可选实施例中,如图8所示,该方法还包括:
在步骤S801中,获取属性样本训练集和属性样本测试集;
在步骤S802中,使用属性样本训练集分别训练多个待选模型,得到多个待选属性训练模型;
在步骤S803中,使用属性样本测试集分别测试多个待选属性训练模型,得到多个属性测试率;
在步骤S804中,将对属性测试率最高对应的待选属性训练模型作为对象属性预测模型。
在本实施例中,如图13所示意的离线模型训练部分,本实施例可以通过获取属性样本训练集和属性样本测试集,进而可以使用属性样本训练集并行训练多个待选模型,以获取多个待选属性训练模型,并使用属性样本测试集并行测试多个待选属性训练模型,以获取多个属性测试率,然后,通过比较属性测试率选取效果最佳的对象属性预测模型。
具体地,如图15所示,由于线上存储引擎中存储有经过特征处理的样本对象的样本集,因此,为了获取到属性预测效果更好的模型,本实施例可以先获取与样本对象的对象属性相关的属性样本训练集以及属性样本测试集,进而基于多个待选模型的默认参数,分别使用属性样本训练集并行训练多个待选模型,以获取多个待选训练模型,其中,待选模型具体可以表现为逻辑回归模型、分类与回归树模型、随机森林模型或者卷积神经网络模型等,还可以是其他模型,此处不作具体限制。
进一步地,可以分别使用属性样本测试集并行测试多个待选模型,以获取多个属性测试率,其中,属性测试率具体可以表现为曲线下面积(Area under Curve,AUC),还可以是其他指标,此处不作具体限制,其中,AUC指标本身和模型预测分值的绝对值无关,关注排序效果,更加贴近实际业务的需要,AUC的计算方法还同时考虑了学习器对于正例和负例的分类能力,在样本不平衡的情况下,依然能够对分类器做出合理的评价,因此,本实施例可以通过观测ACU的变化来获取效果最好的模型,可以理解的是AUC的值越高,表示模型的测试效果越好,因此,可以通过比较属性测试率,将最大属性测试率对应的待选训练模型确定为预测效果最好的模型,即对象属性预测模型。
进一步地,由于属性测试率AUC的值越高,模型的测试效果越好,因此,为了使对象属性预测模型能够更加准确地获取到属性预测概率,本实施例可以将对象属性预测模型进行参数调优,具体可以是通过选择对象属性预测模型的超参数进行网格寻优,并使用属性样本训练集重新训练对象属性预测模型,进而使用属性样本测试集重新测试模型效果的稳定性,以获取到优化后的对象属性预测模型,其中,参数调优是指对选择对象属性预测模型的超参数进行网格寻优,以期待AUC能获得提升。
进一步地,可以对优化后的对象属性预测模型进行固化,具体可以是基于TensorFlow的Saver()方法固化优化后的对象属性预测模型,模型固化后通常会产生四种文件,如文本文件checkpoint,用于记录模型文件的路径信息列表,模型数据model.ckpt.data用于记录网络权重信息,二进制文件model.ckpt.index.data和二进制文件.index,均可用于保存模型中的变量权重信息。
进一步地,可以对优化后的对象属性预测模型进行定时离线训练、验证、告警以及固化等处理,以维护优化后的对象属性预测模型的稳定性。
可选地,在上述图8对应的实施例的基础上,本申请实施例提供的目标对象属性的识别方法另一个可选实施例中,对象属性预测模型为神经因子分解机模型NFM,其中,NFM模型包括输入层、嵌入层、双线性交互池化层、隐藏层以及预测层。
在本实施例中,由于神经因子分解机(Neural Factorization Machines,NFM)模型是在因子分解机(Factorization Machines,FM)模型的基础上引入神经网络,并在神经网络中引入了Bilinear-Interaction Pooling操作,使得NFM模型可以在低能级阶段(LowLevel)就学习到包含更多信息的组合特征,另外,NFM模型还能够用于学习高阶的非线性的组合特征,能够实现对特征的深层次抽取,且相比于其它深度学习的排序模型,NFM模型的模型结构更浅、更简单,但是性能更好,训练和调整参数更加容易,因此,本实施例的对象属性预测模型可以选用NFM模型。
具体地,如图16所示,NFM模型包括输入层、嵌入层、双线性交互池化层、隐藏层以及预测层,从输入层输入特征,经过全连接得到嵌入层,可以分别得到不同特征对应的相同维数的嵌入向量,进而,将获取到的嵌入向量两两做对应元素逐个相乘(Element-Wise)的相乘运算,并将运算结果传递至双线性交互池化层,在双线性交互池化层可以得到的一个和嵌入向量维数相同的向量,然后,NFM模型在双线性交互池化层后面可以接几个隐藏层输出结果,能够相当于做了更高阶的FM,更加增强了非线性表达能力。
其中,嵌入层(Embedding layer)和其他的DNN模型处理稀疏输入特征一样,嵌入层将输入特征转换到低维度的稠密的嵌入空间中进行处理,但是NFM模型嵌入层的使用原始的特征值乘以嵌入向量(Embedding vector),使得NFM模型也可以处理实值特征(realvalued feature)。
其中,双线性交互池化层(Bi-Interaction Layer)中Bi是Bi-linear的缩写,这一层是把很多个向量转换成一个向量。
其中,隐藏层(Hidden Layer)通过堆积隐藏层以期来学习高阶组合特征。
其中,预测层(Prediction Layer)是将向量从最后一层隐藏层到输出层,以预测结果形式显示。
可以理解的是,在NFM模型训练的过程中,还可以使用线性修正单元(RectifiedLinear Units,ReLu)作为激活函数,以及增加去掉Dropout算法,通过丢掉或删除一些神经元,以增强NFM模型鲁棒性。
进一步地,如图17(a)所示的模型效果对比分析示意图,可知从线下AUC效果来看,使用NFM模型相比其它技术有所提高,以及从线上AUC效果来看,使用NFM模型相比其它技术也是有所提高的。
进一步地,如图17(b)所示的业务效果对比分析示意图,可知从广告点击率来看,使用NFM模型相比其它技术有所提高,以及从广告转化率来看,使用NFM模型相比其它技术也是有所提高的。
可选地,在上述图8对应的实施例的基础上,本申请实施例提供的目标对象属性的识别方法另一个可选实施例中,如图9所示,获取属性样本训练集和属性样本测试集,包括:
在步骤S901中,获取M个样本对象的属性样本集,其中,M为大于1的整数;
在步骤S902中,按照预设时间节点和集合分配比例系数,将属性样本集划分为属性样本训练集以及属性样本测试集。
在本实施例中,如图13所示意的离线模型训练部分,本实施例可以通过获取M个样本对象的属性样本集,进而可以按照预设时间节点先对属性样本集进行初步的样本集合划分,然后,可以按照集合分配比例系数获取对应的分配比例,并按照获取到的分配比例进一步划分样本集合,以实现将属性样本集划分为属性样本训练集以及属性样本测试集,以使后续可以通过属性样本训练集以及属性样本测试集获取到属性预测效果更好的对象属性预测模型。
其中,预设时间节点可以根据属性样本集中的每个特征对应的时间窗口来确定,预设时间节点具体可以表现为2月1日等,也可以是其他时间节点,此处不作具体限制。集合分配比例系数与预设的集合分配比例具有对应关系,通常设置为0.2,对应的集合分配比例通常为5:1,能够用于更好更准确地划分属性样本集。
具体地,如图15所示,可以获取M个样本对象的属性样本集,随机划分经过特征处理的样本集,作为训练集和测试集,具体可以是按照样本集所属的时间窗口进行划分,即可以将时间较早特征集合的作为训练集(比如5月份的样本属性特征集合作为样本属性训练集),将时间较晚特征集合的作为测试集(比如6月份的样本属性特征集合作为样本属性测试集),并按照集合分配比例系数获取对应的比例进行进一步划分,如集合分配比例系数0.2对应的比例为5:1,以使得训练集和测试集的比例保证为5:1。
可选地,在上述图9对应的实施例的基础上,本申请实施例提供的目标对象属性的识别方法另一个可选实施例中,如图10所示,获取M个样本对象的属性样本集,包括:
在步骤S1001中,获取M个样本对象的历史样本行为数据,其中,历史样本行为数据为历史时段的历史样本基础信息和历史业务样本操作信息;
在步骤S1002中,对历史样本基础信息进行特征提取,得到样本对象属性特征、样本设备属性特征以及样本网络属性特征,并,对历史业务样本操作信息进行特征提取,得到历史业务样本操作特征;
在步骤S1003中,按照时间维度将样本对象属性特征、样本设备属性特征、样本网络属性特征以及历史业务样本操作特征进行聚合,得到聚合样本特征;
在步骤S1004中,将样本对象属性特征、样本设备属性特征、样本网络属性特征以及聚合样本特征进行拼接,得到属性样本集。
在本实施例中,如图13所示的离线特征处理部分,在获取到M个样本对象后,可以进一步获取M个样本对象的包含有历史时段的历史样本基础信息和历史业务样本操作信息的历史样本行为数据,并分别对获取到的历史样本基础信息以及历史业务样本操作信息进行特征提取,以获取样本对象属性特征、样本设备属性特征、样本网络属性特征以及历史业务样本操作特征,然后,可以按照时间维度将样本对象属性特征、样本设备属性特征、样本网络属性特征以及历史业务样本操作特征进行聚合,以获取到聚合样本特征,能够丰富样本特征,并对获取到的各个特征进行特征处理,如采用归一化或离散化等特征处理方式,以获取高品质特征向量,再将处理后得到的样本对象属性特征、样本设备属性特征、样本网络属性特征以及聚合样本特征进行拼接,可以获取到高品质信息含量大属性样本集,以使后续可以根据属性样本集,寻找分类效果佳且稳定的对象属性预测模型。
具体地,样本对象的历史样本行为数据指的是网络日志或大数据平台中记录或存储的样本对象在历史时段的历史样本基础信息和历史业务样本操作信息,其中,历史样本基础信息与历史基础信息相似,具体可以表现为历史时段内的样本对象居住地、样本对象使用的设备型号以及样本对象使用的网络等信息,还可以是其他信息,此处不作具体限制。历史业务样本操作信息与历史业务操作信息相似,指的是历史时段内的样本对象对在某一业务场景下执行的操作,具体可以表现为样本对象过去一周使用某一业务应用程序的时长,或者样本对象过去一个月对某一业务的搜索率等,还可以是其他信息,此处不作具体限制。此外,应当理解,本实施例及后续实施例中,样本对象指的是样本业务推送的接收者。
进一步地,如图15所示,在获取到历史样本基础信息和历史业务样本操作信息后,可以分别对历史样本基础信息以及历史业务样本操作信息进行特征提取,以获取到样本对象属性特征、样本设备属性特征、样本网络属性特征以及历史业务样本操作特征,其中,特征提取方式与步骤S102中对历史基础信息进行特征提取以及对历史业务操作信息进行特征提取的方式相似,从此不再赘述。
进一步地,如图15所示,在获取到样本对象属性特征、样本设备属性特征、样本网络属性特征以及历史业务样本操作特征之后,可以按照时间维度进行特征聚合,以获取到聚合样本特征,其中,特征聚合的方式与步骤S103按照时间维度将第二对象属性特征、第二设备属性特征、第二网络属性特征以及历史业务操作特征进行聚合的方式相似,从此不再赘述。
进一步地,可以将获取到的样本对象属性特征、样本设备属性特征、样本网络属性特征以及聚合样本特征进行拼接,以获取到属性样本集,具体可以是如图15所示,先对按照数值类型,分别对获取到的样本对象属性特征、样本设备属性特征、样本网络属性特征以及聚合样本特征进行分类,以获取到数值样本特征和非数值样本特征,进而,对数值样本特征进行归一化的方式与步骤S402中对数值特征进行归一化的方式相似,从此不再赘述,以获取到归一化样本特征,同时,可以对非数值样本特征进行离散化处理,处理方式与步骤S403中对非数值特征进行离散化处理的方式相似,从此不再赘述,以获取到离散化样本特征,然后,可以分别对归一化样本特征以及离散化样本特征进行清洗、过滤或验证等处理,以获取高品质样本属性特征,并将获取到的高品质样本属性特征进行合并和离线存储在HDFS中,得到属性样本集合,便于后续能够对属性样本集合进行快速访问,进一步地,本实施例还可以将属性样本集合中的特征处理逻辑固化,以维护特征的稳定性。
可选地,在上述图9对应的实施例的基础上,本申请实施例提供的目标对象属性的识别方法另一个可选实施例中,如图11所示,获取样本对象的历史样本行为数据之前,该方法还包括:
在步骤S1101中,获取N个待选对象的N个基础属性数据,N为大于1的整数;
在步骤S1102中,根据N个基础属性数据,从N个待选对象中确定P个异常对象,并过滤P个异常对象,得到M个样本对象,P为大于等于1且小于N的整数。
在本实施例中,如图13所示意的离线数据准备部分,由于召回的N个待选对象中可能存在非真实对象,容易影响后续的建模分析的准确性,因此,本实施例通过获取N个待选对象的N个基础属性数据,然后,根据N个基础属性数据,从N个待选对象中确定P个异常对象,并过滤或剔除P个异常对象,以获取到M个正常对象,即M个样本对象。
其中,待选对象是指的是基于标注标签或业务逻辑,召回的带有标签信息的对象。基础属性数据具体可以表现为是否安装手机应用管家、是否使用手机应用管家骚扰拦截功能或接听助理功能等,还可以是其他数据,此处不作具体限制。
具体地,如图15所示,可以基于与群体属性相关的标注标签或业务逻辑,召回的带有与群体属性相关标签信息的N个待选对象,进而,可以从云端线上日志中爬取到每个待选对象对应的基础属性数据如是否安装手机应用管家,然后,可以根据基础属性数据判断待选对象是否为正常对象,如果待选对象对应的基础属性数据为安装手机应用管家则可以确定为正常对象,即样本对象,如果待选对象对应的基础属性数据为未安装手机应用管家则可以确定为异常对象,则可以对该异常对象进行过滤,以获取到安全正常的样本对象。
可选地,在上述图11对应的实施例的基础上,本申请实施例提供的目标对象属性的识别方法另一个可选实施例中,如图12所示,根据N个基础属性数据,从N个待选对象中确定P个异常对象,包括:
在步骤S1201中,根据预设异常检测指标,从基础属性数据中选取待检测业务信息,其中,预设异常检测指标是根据目标业务确定的;
在步骤S1202中,根据待检测业务信息,计算基础属性数据的随机误差;
在步骤S1203中,若随机误差不属于预设误差区间,则确定基础属性数据对应的待选对象为异常对象,以得到P个异常对象。
在本实施例中,如图13所示意的离线数据准备部分以及如图15所示,在获取到待选对象的基础属性数据之后,由于在实际应用业务场景中,通常会存在虚假对象或电脑操控手机的情况,为了避免非真实对象对建模分析准确率造成的影响,本实施例可以基于业务经验设置异常检测指标,例如待选对象在A系列产品的流量使用情况、流量产生的时间分布等,具体不做限定,进而,可以从基础属性数据中获取符合异常检测指标的一组待检测数据。
进一步地,可以基于分布异常定理对待检测数据进行异常检测,以获取到异常对象,并过滤异常对象,其中,基于分布异常定理对待检测数据进行异常检测,可以使用“拉依达准则”进行异常值检测,具体可以是通过假设待检测数据只含有随机误差,并对待检测数据进行计算处理得到标准误差,然后,可以按一定概率确定一个区间,并将超过这个区间的标准误差,就不属于随机误差而是粗大误差,含有粗大误差的待检测数据应予以剔除,并将含有该粗大误差的待检测数据对应的待选对象确定为异常对象。
进一步地,可以将过滤后得到的M个样本对象,并离线存储在HDFS,能够将过滤后的干净数据存储在HFDS中,以便于后续流程的快速访问。
下面对本申请中的目标对象属性的识别装置进行详细描述,请参阅图18,图18为本申请实施例中目标对象属性的识别装置的一个实施例示意图,目标对象属性的识别装置20包括:
获取单元201,用于获取目标对象的目标行为数据和历史行为数据,目标行为数据包括目标时段的目标基础信息和目标业务操作信息,历史行为数据包括历史时段的历史基础信息和历史业务操作信息;
处理单元202,用于对目标基础信息进行特征提取,得到第一对象属性特征、第一设备属性特征以及第一网络属性特征,并,对目标业务操作信息进行特征提取,得到目标业务操作特征,并,对历史基础信息进行特征提取,得到第二对象属性特征、第二设备属性特征以及第二网络属性特征,并,对历史业务操作信息进行特征提取,得到历史业务操作特征;
处理单元202,还用于按照时间维度将第二对象属性特征、第二设备属性特征、第二网络属性特征以及历史业务操作特征进行聚合,得到聚合特征;
处理单元202,还用于将第一对象属性特征、第一设备属性特征、第一网络属性特征、目标业务操作特征、第二对象属性特征、第二设备属性特征、第二网络属性特征、历史业务操作特征以及聚合特征进行拼接,得到目标拼接特征;
确定单元203,用于将目标拼接特征输入至对象属性预测模型,通过对象属性预测模型输出属性预测概率,并根据属性预测概率确定目标对象的群体属性。
可选地,在上述图18对应的实施例的基础上,本申请实施例提供的目标对象属性的识别装置的另一实施例中,处理单元202具体可以用于:
从日志中分别提取第二对象属性特征、第二设备属性特征、第二网络属性特征以及历史业务操作特征对应的日志时间;
根据日志时间,按照第一时间窗口将第二对象属性特征、第二设备属性特征、第二网络属性特征以及历史业务操作特征聚合成第一聚合特征;
根据日志时间,按照第二时间窗口将第二对象属性特征、第二设备属性特征、第二网络属性特征以及历史业务操作特征聚合成第二聚合特征。
可选地,在上述图18对应的实施例的基础上,本申请实施例提供的目标对象属性的识别装置的另一实施例中,
获取单元201,还用于按照数值类型分别对第二对象属性特征、第二设备属性特征、第二网络属性特征、历史业务操作特征以及聚合特征进行分类,得到数值特征以及非数值特征;
处理单元202,还用于对数值特征进行归一化,得到归一化特征;
处理单元202,还用于对非数值特征进行离散化处理,得到离散化特征;
处理单元202具体可以用于:将第一对象属性特征、第一设备属性特征、第一网络属性特征、目标业务操作特征、归一化特征以及离散化特征进行拼接,得到目标拼接特征。
可选地,在上述图18对应的实施例的基础上,本申请实施例提供的目标对象属性的识别装置的另一实施例中,处理单元202具体可以用于:
对非数值特征进行降维处理,得到处理后的嵌入特征;
处理单元202具体可以用于:将第一对象属性特征、第一设备属性特征、第一网络属性特征、目标业务操作特征、归一化特征以及嵌入特征进行拼接,得到目标拼接特征。
可选地,在上述图18对应的实施例的基础上,本申请实施例提供的目标对象属性的识别装置的另一实施例中,
处理单元202,还用于若目标对象的群体属性为一级群体,则屏蔽目标业务,或,限制目标业务的推送数量。
可选地,在上述图18对应的实施例的基础上,本申请实施例提供的目标对象属性的识别装置的另一实施例中,
确定单元203,还用于若目标对象的群体属性为二级群体,则确定二级群体的群体活跃时段;
处理单元202,还用于在群体活跃时段内增加目标业务的推送量,以使目标对象接收目标业务的推送。
可选地,在上述图18对应的实施例的基础上,本申请实施例提供的目标对象属性的识别装置的另一实施例中,
获取单元201,还用于获取属性样本训练集和属性样本测试集;
处理单元202,还用于使用属性样本训练集分别训练多个待选模型,得到多个待选属性训练模型;
处理单元202,还用于使用属性样本测试集分别测试多个待选属性训练模型,得到多个属性测试率;
确定单元203,还用于将对属性测试率最高对应的待选属性训练模型作为对象属性预测模型。
可选地,在上述图18对应的实施例的基础上,本申请实施例提供的目标对象属性的识别装置的另一实施例中,对象属性预测模型为神经因子分解机模型NFM,其中,NFM模型包括输入层、嵌入层、双线性交互池化层、隐藏层以及预测层。
可选地,在上述图18对应的实施例的基础上,本申请实施例提供的目标对象属性的识别装置的另一实施例中,获取单元201具体可以用于:
获取M个样本对象的属性样本集,其中,M为大于1的整数;
按照预设时间节点和集合分配比例系数,将属性样本集划分为属性样本训练集以及属性样本测试集。
可选地,在上述图18对应的实施例的基础上,本申请实施例提供的目标对象属性的识别装置的另一实施例中,获取单元201具体可以用于:
获取M个样本对象的历史样本行为数据,其中,历史样本行为数据为历史时段的历史样本基础信息和历史业务样本操作信息;
对历史样本基础信息进行特征提取,得到样本对象属性特征、样本设备属性特征以及样本网络属性特征,并,对历史业务样本操作信息进行特征提取,得到历史业务样本操作特征;
按照时间维度将样本对象属性特征、样本设备属性特征、样本网络属性特征以及历史业务样本操作特征进行聚合,得到聚合样本特征;
将样本对象属性特征、样本设备属性特征、样本网络属性特征以及聚合样本特征进行拼接,得到属性样本集。
可选地,在上述图18对应的实施例的基础上,本申请实施例提供的目标对象属性的识别装置的另一实施例中,
获取单元201,还用于获取N个待选对象的N个基础属性数据,N为大于1的整数;
处理单元202,还用于根据N个基础属性数据,从N个待选对象中确定P个异常对象,并过滤P个异常对象,得到M个样本对象,P为大于等于1且小于N的整数。
可选地,在上述图18对应的实施例的基础上,本申请实施例提供的目标对象属性的识别装置的另一实施例中,处理单元202具体可以用于:
根据预设异常检测指标,从基础属性数据中选取待检测业务信息,其中,预设异常检测指标是根据目标业务确定的;
根据待检测业务信息,计算基础属性数据的随机误差;
若随机误差不属于预设误差区间,则确定基础属性数据对应的待选对象为异常对象,以得到P个异常对象。
本申请另一方面提供了另一种计算机设备示意图,如图19所示,图19是本申请实施例提供的一种计算机设备结构示意图,该计算机设备300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)310(例如,一个或一个以上处理器)和存储器320,一个或一个以上存储应用程序331或数据332的存储介质330(例如一个或一个以上海量存储设备)。其中,存储器320和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对计算机设备300中的一系列指令操作。更进一步地,中央处理器310可以设置为与存储介质330通信,在计算机设备300上执行存储介质330中的一系列指令操作。
计算机设备300还可以包括一个或一个以上电源340,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口360,和/或,一个或一个以上操作系统333,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述计算机设备300还用于执行如图2至图12对应的实施例中的步骤。
本申请的另一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行如图2至图12所示实施例描述的方法中的步骤。
本申请的另一方面提供了一种包含指令的计算机程序产品当其在计算机或处理器上运行时,使得所述计算机或处理器执行如图2至图12所示实施例描述的方法中的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (16)

1.一种目标对象属性的识别方法,其特征在于,包括:
获取目标对象的目标行为数据和历史行为数据,所述目标行为数据包括目标时段的目标基础信息和目标业务操作信息,所述历史行为数据包括历史时段的历史基础信息和历史业务操作信息;
对所述目标基础信息进行特征提取,得到第一对象属性特征、第一设备属性特征以及第一网络属性特征,并,对所述目标业务操作信息进行特征提取,得到目标业务操作特征,并,对所述历史基础信息进行特征提取,得到第二对象属性特征、第二设备属性特征以及第二网络属性特征,并,对所述历史业务操作信息进行特征提取,得到历史业务操作特征;
按照时间维度将所述第二对象属性特征、所述第二设备属性特征、所述第二网络属性特征以及所述历史业务操作特征进行聚合,得到聚合特征;
将所述第一对象属性特征、所述第一设备属性特征、所述第一网络属性特征、所述目标业务操作特征、所述第二对象属性特征、所述第二设备属性特征、所述第二网络属性特征、所述历史业务操作特征以及所述聚合特征进行拼接,得到目标拼接特征;
将所述目标拼接特征输入至对象属性预测模型,通过所述对象属性预测模型输出属性预测概率,并根据所述属性预测概率确定所述目标对象的群体属性。
2.根据权利要求1所述的方法,其特征在于,所述聚合特征包括第一聚合特征和第二聚合特征,所述按照时间维度将所述第二对象属性特征、所述第二设备属性特征、所述第二网络属性特征以及所述历史业务操作特征进行聚合,得到聚合特征,包括:
从日志中分别提取所述第二对象属性特征、所述第二设备属性特征、所述第二网络属性特征以及所述历史业务操作特征对应的日志时间;
根据所述日志时间,按照第一时间窗口将所述第二对象属性特征、所述第二设备属性特征、所述第二网络属性特征以及所述历史业务操作特征聚合成所述第一聚合特征;
根据所述日志时间,按照第二时间窗口将所述第二对象属性特征、所述第二设备属性特征、所述第二网络属性特征以及所述历史业务操作特征聚合成所述第二聚合特征。
3.根据权利要求1所述的方法,其特征在于,所述按照时间维度将所述第二对象属性特征、所述第二设备属性特征、所述第二网络属性特征以及所述历史业务操作特征进行聚合,得到聚合特征之后,所述方法还包括:
按照数值类型分别对所述第二对象属性特征、所述第二设备属性特征、所述第二网络属性特征、所述历史业务操作特征以及所述聚合特征进行分类,得到数值特征以及非数值特征;
对所述数值特征进行归一化,得到归一化特征;
对所述非数值特征进行离散化处理,得到离散化特征;
所述将所述第一对象属性特征、所述第一设备属性特征、所述第一网络属性特征、所述目标业务操作特征、所述第二对象属性特征、所述第二设备属性特征、所述第二网络属性特征、所述历史业务操作特征以及所述聚合特征进行拼接,得到目标拼接特征,包括:
将所述第一对象属性特征、所述第一设备属性特征、所述第一网络属性特征、所述目标业务操作特征、所述归一化特征以及所述离散化特征进行拼接,得到目标拼接特征。
4.根据权利要求3所述的方法,其特征在于,所述对所述非数值特征进行离散化处理,得到离散化特征,包括:
对所述非数值特征进行降维处理,得到处理后的嵌入特征;
所述将所述第一对象属性特征、所述第一设备属性特征、所述第一网络属性特征、所述目标业务操作特征、所述归一化特征以及所述离散化特征进行拼接,得到目标拼接特征,包括:
将所述第一对象属性特征、所述第一设备属性特征、所述第一网络属性特征、所述目标业务操作特征、所述归一化特征以及所述嵌入特征进行拼接,得到目标拼接特征。
5.根据权利要求1所述的方法,其特征在于,所述将所述目标拼接特征输入至对象属性预测模型,通过所述对象属性预测模型输出属性预测概率,并根据所述属性预测概率确定所述目标对象的群体属性之后,所述方法还包括:
若所述目标对象的群体属性为一级群体,则屏蔽目标业务,或,限制所述目标业务的推送数量。
6.根据权利要求1所述的方法,其特征在于,所述将所述目标拼接特征输入至对象属性预测模型,通过所述对象属性预测模型输出属性预测概率,并根据所述属性预测概率确定所述目标对象的群体属性之后,所述方法还包括:
若所述目标对象的群体属性为二级群体,则确定所述二级群体的群体活跃时段;
在所述群体活跃时段内增加所述目标业务的推送量,以使所述目标对象接收所述目标业务的推送。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取属性样本训练集和属性样本测试集;
使用所述属性样本训练集分别训练多个待选模型,得到多个待选属性训练模型;
使用所述属性样本测试集分别测试所述多个待选属性训练模型,得到多个属性测试率;
将对所述属性测试率最高对应的待选属性训练模型作为所述对象属性预测模型。
8.根据权利要求7所述的方法,其特征在于,所述对象属性预测模型为神经因子分解机模型NFM,所述NFM模型包括输入层、嵌入层、双线性交互池化层、隐藏层以及预测层。
9.根据权利要求7所述的方法,其特征在于,所述获取属性样本训练集和属性样本测试集,包括:
获取M个样本对象的属性样本集,其中,所述M为大于1的整数;
按照预设时间节点和集合分配比例系数,将所述属性样本集划分为所述属性样本训练集以及所述属性样本测试集。
10.根据权利要求9所述的方法,其特征在于,所述获取M个样本对象的属性样本集,包括:
获取所述M个样本对象的历史样本行为数据,其中,所述历史样本行为数据为历史时段的历史样本基础信息和历史业务样本操作信息;
对所述历史样本基础信息进行特征提取,得到样本对象属性特征、样本设备属性特征以及样本网络属性特征,并,对所述历史业务样本操作信息进行特征提取,得到历史业务样本操作特征;
按照时间维度将所述样本对象属性特征、所述样本设备属性特征、所述样本网络属性特征以及历史业务样本操作特征进行聚合,得到聚合样本特征;
将所述样本对象属性特征、所述样本设备属性特征、所述样本网络属性特征以及所述聚合样本特征进行拼接,得到所述属性样本集。
11.根据权利要求9所述的方法,其特征在于,所述获取样本对象的历史样本行为数据之前,所述方法还包括:
获取N个待选对象的N个基础属性数据,所述N为大于1的整数;
根据所述N个基础属性数据,从所述N个待选对象中确定P个异常对象,并过滤所述P个异常对象,得到所述M个样本对象,所述P为大于等于1且小于N的整数。
12.根据权利要求11所述的方法,其特征在于,所述根据所述N个基础属性数据,从所述N个待选对象中确定P个异常对象,包括:
根据预设异常检测指标,从所述基础属性数据中选取待检测业务信息,其中,所述预设异常检测指标是根据目标业务确定的;
根据所述待检测业务信息,计算所述基础属性数据的随机误差;
若所述随机误差不属于预设误差区间,则确定所述基础属性数据对应的待选对象为异常对象,以得到所述P个异常对象。
13.一种目标对象属性的识别装置,其特征在于,包括:
获取单元,用于获取目标对象的目标行为数据和历史行为数据,所述目标行为数据包括目标时段的目标基础信息和目标业务操作信息,所述历史行为数据包括历史时段的历史基础信息和历史业务操作信息;
处理单元,用于对所述目标基础信息进行特征提取,得到第一对象属性特征、第一设备属性特征以及第一网络属性特征,并,对所述目标业务操作信息进行特征提取,得到目标业务操作特征,并,对所述历史基础信息进行特征提取,得到第二对象属性特征、第二设备属性特征以及第二网络属性特征,并,对所述历史业务操作信息进行特征提取,得到历史业务操作特征;
所述处理单元,还用于按照时间维度将所述第二对象属性特征、所述第二设备属性特征、所述第二网络属性特征以及所述历史业务操作特征进行聚合,得到聚合特征;
所述处理单元,还用于将所述第一对象属性特征、所述第一设备属性特征、所述第一网络属性特征、所述目标业务操作特征、所述第二对象属性特征、所述第二设备属性特征、所述第二网络属性特征、所述历史业务操作特征以及所述聚合特征进行拼接,得到目标拼接特征;
确定单元,用于将所述目标拼接特征输入至对象属性预测模型,通过所述对象属性预测模型输出属性预测概率,并根据所述属性预测概率确定所述目标对象的群体属性。
14.一种计算机设备,其特征在于,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序时实现如权利要求1至12中任一项所述的方法;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
15.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至12中任一项所述的方法。
16.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至12中任一项所述方法的步骤。
CN202111277391.8A 2021-10-29 2021-10-29 一种目标对象属性的识别方法、装置及存储介质 Pending CN116091133A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111277391.8A CN116091133A (zh) 2021-10-29 2021-10-29 一种目标对象属性的识别方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111277391.8A CN116091133A (zh) 2021-10-29 2021-10-29 一种目标对象属性的识别方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN116091133A true CN116091133A (zh) 2023-05-09

Family

ID=86212491

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111277391.8A Pending CN116091133A (zh) 2021-10-29 2021-10-29 一种目标对象属性的识别方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN116091133A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117876015A (zh) * 2024-03-11 2024-04-12 南京数策信息科技有限公司 一种用户行为数据分析方法、装置及相关设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117876015A (zh) * 2024-03-11 2024-04-12 南京数策信息科技有限公司 一种用户行为数据分析方法、装置及相关设备
CN117876015B (zh) * 2024-03-11 2024-05-07 南京数策信息科技有限公司 一种用户行为数据分析方法、装置及相关设备

Similar Documents

Publication Publication Date Title
CN108763319B (zh) 融合用户行为和文本信息的社交机器人检测方法和系统
Pinto et al. Using early view patterns to predict the popularity of youtube videos
CN111614690B (zh) 一种异常行为检测方法及装置
US9183293B2 (en) Systems and methods for scalable topic detection in social media
TWI772287B (zh) 問題推薦方法及設備
CN111885399A (zh) 内容分发方法、装置、电子设备以及存储介质
CN111460294A (zh) 消息推送方法、装置、计算机设备及存储介质
CN108304432A (zh) 信息推送处理方法、信息推送处理装置及存储介质
CN115221396A (zh) 基于人工智能的信息推荐方法、装置及电子设备
CN114329455B (zh) 基于异构图嵌入的用户异常行为检测方法及装置
CN110598126B (zh) 基于行为习惯的跨社交网络用户身份识别方法
CN114692007A (zh) 表示信息的确定方法、装置、设备及存储介质
CN115130542A (zh) 模型训练方法、文本处理方法、装置及电子设备
CN116091133A (zh) 一种目标对象属性的识别方法、装置及存储介质
CN113656699A (zh) 用户特征向量确定方法、相关设备及介质
US20230326185A1 (en) Object recognition method and apparatus, device, and storage medium
CN111209105A (zh) 扩容处理方法、装置、设备及可读存储介质
CN115510318A (zh) 用户表征模型的训练方法、用户表征方法及装置
Idrais et al. Characterizing user behavior in Online Social Networks: Study of seasonal changes in the Moroccan community on Facebook
Liu et al. Detection of false Weibo repost based on XGBoost
CN113469819A (zh) 基金产品的推荐方法、相关装置及计算机存储介质
CN112463964A (zh) 文本分类及模型训练方法、装置、设备及存储介质
CN113761272A (zh) 一种数据处理方法、设备以及计算机可读存储介质
CN114596108A (zh) 一种对象推荐方法、装置、电子设备及存储介质
CN111309706A (zh) 模型训练方法、装置、可读存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40086083

Country of ref document: HK