CN113409096A - 目标对象识别方法、装置、计算机设备及存储介质 - Google Patents

目标对象识别方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113409096A
CN113409096A CN202110957849.8A CN202110957849A CN113409096A CN 113409096 A CN113409096 A CN 113409096A CN 202110957849 A CN202110957849 A CN 202110957849A CN 113409096 A CN113409096 A CN 113409096A
Authority
CN
China
Prior art keywords
feature
interestingness
feature set
target
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110957849.8A
Other languages
English (en)
Other versions
CN113409096B (zh
Inventor
樊鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110957849.8A priority Critical patent/CN113409096B/zh
Publication of CN113409096A publication Critical patent/CN113409096A/zh
Application granted granted Critical
Publication of CN113409096B publication Critical patent/CN113409096B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute
    • G06Q30/0271Personalized advertisement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种目标对象识别方法、装置、计算机设备及存储介质,应用于互联网技术领域,包括:获取针对于目标业务的目标对象;对目标对象进行特征化处理,得到目标对象特征;基于目标对象特征,进行特征处理后确定第一兴趣度特征以及第二兴趣度特征;对第一兴趣度特征进行加噪处理,得到第一加噪特征;基于第二兴趣度特征和第一加噪特征,通过目标分类模型获取目标对象对应的兴趣点分类结果;根据目标对象对应的兴趣点分类结果确定目标对象的兴趣度标签。通过上述方法,在保留重要特征的前提下保证模型输出兴趣点分类结果的准确度,由此提升对目标对象识别的准确度,并通过对目标对象的特征进行加扰能够提升对任一属性信息的保护。

Description

目标对象识别方法、装置、计算机设备及存储介质
技术领域
本申请涉及互联网技术领域,尤其涉及一种目标对象识别方法、装置、计算机设备及存储介质。
背景技术
随着互联网技术的发展,通过互联网能够为越来越多的需求提供服务。以互联网在线教育培训为例,人们在教育场景下有着较多的服务需求,因此可能存在用户对于互联网在线教育广告有着更高的兴趣度,更高的兴趣度的具体表现但不限于为高广告点击率、高教育产品付费率,如何识别高兴趣的对象变得越来越重要。目前,业界主要通过构建多维特征和模型训练的方法,来预测当前对象为高兴趣度对象或普通兴趣度对象的概率。然而机器学习模型往往能高度拟合样本数据,使得模型参数与详细的预测结果能保留较多的原始数据特征,从而导致原始数据泄漏,因此,有必要提供一种目标对象识别的方法,在完成目标对象识别的基础上,还能够保护对象的原始数据成为亟需解决的问题。
发明内容
本申请实施例提供了一种目标对象识别方法、装置、计算机设备及存储介质,通过保留重要特征的前提下保证模型输出兴趣点分类结果的准确度,由此提升对目标对象识别的准确度,并通过对目标对象的特征进行加扰能够提升对任一属性信息的保护。
有鉴于此,本申请第一方面提供了一种目标对象识别方法,包括:
获取针对于目标业务的目标对象,其中,目标对象包括目标对象基础属性信息、目标设备基础属性信息以及目标网络连接属性信息中的至少一种;
对目标对象进行特征化处理,得到目标对象特征,其中,目标对象特征与目标对象具有对应关系;
基于目标对象特征,进行特征处理后确定第一兴趣度特征以及第二兴趣度特征,其中,第一兴趣度特征的特征点得分小于第一阈值,第二兴趣度特征的特征点得分大于第一阈值,特征点得分指示特征的重要程度;
对第一兴趣度特征进行加噪处理,得到第一加噪特征;
基于第二兴趣度特征和第一加噪特征,通过目标分类模型获取目标对象对应的兴趣点分类结果;
根据目标对象对应的兴趣点分类结果确定目标对象的兴趣度标签。
本申请第二方面提供了一种对象识别装置,包括:
获取模块,用于获取针对于目标业务的目标对象,其中,目标对象包括目标对象基础属性信息、目标设备基础属性信息以及目标网络连接属性信息中的至少一种;
处理模块,用于对目标对象进行特征化处理,得到目标对象特征,其中,目标对象特征与目标对象具有对应关系;
确定模块,还用于基于目标对象特征,进行特征处理后确定第一兴趣度特征以及第二兴趣度特征,其中,第一兴趣度特征的特征点得分小于第一阈值,第二兴趣度特征的特征点得分大于第一阈值,特征点得分指示特征的重要程度;
处理模块,还用于对第一兴趣度特征进行加噪处理,得到第一加噪特征;
获取模块,还用于基于第二兴趣度特征和第一加噪特征,通过目标分类模型获取目标对象对应的兴趣点分类结果;
确定模块,还用于根据目标对象对应的兴趣点分类结果确定目标对象的兴趣度标签。
在一个可能的实施方式中,获取模块,还用于获取针对于目标业务的业务样本集合;
处理模块,还用于对业务样本集合进行特征化处理,得到业务样本特征集合;
确定模块,具体用于基于目标对象特征以及业务样本特征集合,进行特征处理后确定第一兴趣度特征以及第二兴趣度特征。
在一个可能的实施方式中,获取模块,具体用于基于第二兴趣度特征和第一加噪特征,进行特征处理后确定第三兴趣度特征以及第四兴趣度特征,其中,第三兴趣度特征与另一特征之间的关联度小于第二阈值,第四兴趣度特征与另一特征之间的关联度大于第二阈值;
对第三兴趣度特征进行加噪处理,得到第二加噪特征;
基于第四兴趣度特征和第二加噪特征,通过目标分类模型获取目标对象对应的兴趣点分类结果。
在一个可能的实施方式中,对象识别装置还包括训练模块;
获取模块,还用于获取针对于目标业务的对象样本集合,其中,对象样本集合包括N个对象样本,每个对象样本对应于一个兴趣度标签,每个对象样本包括对象基础属性信息、设备基础属性信息以及网络连接属性信息中的至少一种;
处理模块,还用于对对象样本集合进行特征化处理,得到对象样本特征集合,其中,对象样本特征集合包括N个对象样本特征,对象样本特征与对象样本具有对应关系;
确定模块,还用于基于对象样本特征集合,确定第一兴趣度特征集合以及第二兴趣度特征集合,其中,第一兴趣度特征集合包括特征点得分小于第一阈值的P组对象样本特征,第二兴趣度特征集合包括特征点得分大于第一阈值的Q组对象样本特征,特征点得分指示特征的重要程度,P和Q为大于或等于1的整数;
处理模块,还用于对第一兴趣度特征集合进行加噪处理,得到第一加噪特征集合;
获取模块,还用于基于第二兴趣度特征集合和第一加噪特征集合,通过待训练分类模型获取N个对象样本对应的兴趣点分类结果;
训练模块,用于根据N个对象样本对应的兴趣点分类结果以及N个对象样本对应的兴趣度标签,对待训练分类模型进行训练。
在一个可能的实施方式中,获取模块,还用于获取针对于目标业务的业务样本集合;
处理模块,还用于对业务样本集合进行特征化处理,得到业务样本特征集合;
确定模块,具体用于基于对象样本特征集合以及业务样本特征集合,确定第一兴趣度特征集合以及第二兴趣度特征集合。
在一个可能的实施方式中,获取模块,具体用于基于第二兴趣度特征集合和第一加噪特征集合,确定第三兴趣度特征集合以及第四兴趣度特征集合,其中,第三兴趣度特征集合中对象样本特征之间的关联度小于第二阈值,第四兴趣度特征集合中对象样本特征之间的关联度大于第二阈值;
对第三兴趣度特征集合进行加噪处理,得到第二加噪特征集合;
基于第四兴趣度特征集合和第二加噪特征集合,通过待训练分类模型获取N个对象样本对应的兴趣点分类结果。
在一个可能的实施方式中,获取模块,具体用于获取针对于目标业务的初始对象样本集合;
基于目标业务确定预设阈值范围;
基于预设阈值范围,从目标业务的初始对象样本集合中确定N个对象样本。
在一个可能的实施方式中,确定模块,具体用于基于多个预设时间周期,对对象样本特征集合以及业务样本特征集合进行聚合处理,获取第五兴趣度特征集合;
对第五兴趣度特征集合进行特征处理,得到第六兴趣度特征,其中,特征处理包括归一化特征处理以及离散化特征处理中至少一种;
基于第六兴趣度特征确定第一兴趣度特征集合以及第二兴趣度特征集合。
在一个可能的实施方式中,确定模块,具体用于对第六兴趣度特征进行降维处理,得到第一对象行为特征;
对第六兴趣度特征进行排序处理,得到第二对象行为特征;
对第一对象行为特征以及第二对象行为特征进行聚合处理,得到第七兴趣度特征集合;
基于业务样本,对第七兴趣度特征集合进行处理,确定第一兴趣度特征集合以及第二兴趣度特征集合。
在一个可能的实施方式中,确定模块,具体用于基于业务样本确定预设策略;
基于预设策略,对第七兴趣度特征集合进行筛选,得到满足预设策略的特征以及不满足预设策略的特征;
对满足预设策略的特征进行平均值计算,得到特征平均值;
对不满足预设策略的特征进行缺失标记处理,得到缺失标记后的特征集合;
对特征平均值以及缺失标记后的特征集合进行拼接处理,确定第一兴趣度特征集合以及第二兴趣度特征集合。
在一个可能的实施方式中,确定模块,具体用于对特征平均值以及缺失标记后的特征集合进行拼接处理,得到拼接处理后的特征集合;
基于预设策略从拼接处理后的特征集合中确定第一兴趣度特征集合以及第二兴趣度特征集合。
在一个可能的实施方式中,获取模块,还用于基于拼接处理后的特征集合通过多个待选择分类模型获取每个待选择分类模型的N个对象样本对应的兴趣点分类结果,其中,多个待选择分类模型分别为不同类型的模型;
训练模块,还用于基于每个待选择分类模型的N个对象样本对应的兴趣点分类结果与N个对象样本对应的兴趣度标签,分别对多个待选择分类模型进行训练,以得到多个分类模型;
确定模块,还用于从多个分类模型中确定待训练分类模型;
训练模块,还用于基于N个对象样本对应的兴趣点分类结果与N个对象样本对应的兴趣度标签,根据目标损失函数更新待训练分类模型的模型参数,得到目标分类模型。
本申请的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例中,提供了一种目标对象识别方法,先获取针对于目标业务的目标对象,目标对象包括目标对象基础属性信息、目标设备基础属性信息以及目标网络连接属性信息中的至少一种,然后对目标对象进行特征化处理,得到目标对象特征,此时目标对象特征与目标对象具有对应关系,再基于目标对象特征,进行特征处理后确定第一兴趣度特征以及第二兴趣度特征,第一兴趣度特征的特征点得分小于第一阈值,第二兴趣度特征的特征点得分大于第一阈值,特征点得分指示特征的重要程度,进而对第一兴趣度特征进行加噪处理,得到第一加噪特征,并基于第二兴趣度特征和第一加噪特征,通过目标分类模型获取目标对象对应的兴趣点分类结果,最后根据目标对象对应的兴趣点分类结果确定目标对象的兴趣度标签。通过上述方法,在目标对象识别的过程中,通过对特征点得分较小的兴趣度特征进行加扰,但不对特征点得分较大的兴趣度特征加扰,由于特征点得分越大指示该兴趣度特征更重要,因此在保留重要兴趣度特征的前提下保证模型输出兴趣点分类结果的准确度,由此提升对目标对象识别的准确度。其次,由于目标对象包括对象基础属性信息、设备基础属性信息以及网络连接属性信息中至少一种,因此通过对特征进行加扰能够提升对任一属性信息的保护。
附图说明
图1为本申请实施例中对象识别系统的一个架构示意图;
图2为本申请实施例提供的一种目标对象识别方法的流程示意图;
图3为本申请实施例中目标对象识别方法一个实施例示意图;
图4为本申请实施例中目标对象识别方法另一实施例示意图;
图5为本申请实施例中对待训练分类模型进行训练的一个实施例示意图;
图6为本申请实施例中特征处理的一个实施例示意图;
图7为本申请实施例中特征处理的另一实施例示意图;
图8为本申请实施例中确定待训练分类模型的一个实施例示意图;
图9为本申请实施例中深度特征交叉网络的一个结构示意图;
图10为本申请实施例中对象识别装置一个实施例示意图;
图11为本申请实施例中服务器一个实施例示意图;
图12为本申请实施例中终端设备一个实施例示意图。
具体实施方式
本申请实施例提供了一种目标对象识别方法、装置、计算机设备及存储介质,通过保留重要特征的前提下保证模型输出兴趣点分类结果的准确度,由此提升对目标对象识别的准确度,并通过对目标对象的特征进行加扰能够提升对任一属性信息的保护。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
随着互联网技术的发展,通过互联网能够为越来越多的需求提供服务。以互联网在线教育培训为例,人们在教育场景下有着较多的服务需求,因此可能存在用户对于互联网在线教育广告有着更高的兴趣度,更高的兴趣度的具体表现但不限于为高广告点击率、高教育产品付费率,如何识别高兴趣的对象变得越来越重要。目前,业界主要通过构建多维特征和模型训练的方法,来预测当前对象为高兴趣度对象或普通兴趣度对象的概率。然而机器学习模型往往能高度拟合样本数据,使得模型参数与详细的预测结果能保留较多的原始数据特征,从而导致原始数据泄漏,因此,有必要提供一种目标对象识别的方法,在完成目标对象识别的基础上,还能够保护对象的原始数据成为亟需解决的问题。基于此,本申请实施例提供了一种目标对象识别方法,通过保留重要特征的前提下保证模型输出兴趣点分类结果的准确度,由此提升对目标对象识别的准确度,并通过对目标对象的特征进行加扰能够提升对任一属性信息的保护。
为了便于理解,先对本申请实施例涉及到的一些术语或概念进行解释。
一、隐私泄漏
由于机器学习模型往往能高度拟合样本数据,使得模型参数与详细的预测结果能保留较多的原始隐私数据特征,这正是当前隐私威胁的来源。
二、差分隐私保护
差分隐私保护是密码学中的一种手段,目的为提供一种当从统计数据库查询时,最大化数据查询的准确性,同时最大限度减少识别其记录的机会。简单地说,就是在保留统计学特征的前提下去除个体特征以保护对象隐私。
三、教育培训付费
教育培训付费是指对互联网在线教育培训的商品,愿意支付费用享受服务。
四、教育培训付费高意愿
教育培训付费高意愿为对于互联网在线教育广告有着更高的兴趣度,高兴趣度的表现包括但不限于高广告点击率以及高教育产品付费率等。
前面对本申请实施例涉及到的一些术语或概念进行解释,下面对本申请实施例的应用场景进行介绍。可以理解的,该目标对象识别方法可以由终端设备来执行,也可以由服务器来执行。本申请提供的目标对象识别方法应用于如图1所示的对象识别系统,请参阅图1,图1为本申请实施例中对象识别系统的一个架构示意图,如图1所示,对象识别系统包括终端设备以及服务器。具体地,服务器能够通过本申请实施例所提供的方法,根据目标损失函数更新待训练分类模型的模型参数,以得到目标分类模型,因此服务器在获取针对于目标业务的目标对象之后,能够基于目标分类模型输出目标对象对应的兴趣点分类结果,并确定目标对象的兴趣度标签,基于此,服务器还能够将目标对象的兴趣度标签保存于区块链上。或者,终端设备在获取到针对于目标业务的目标对象之后,可以选择将针对于目标业务的目标对象向服务器发送,服务器通过本申请实施例所提供的方法根据目标损失函数更新待训练分类模型的模型参数,以得到目标分类模型,并基于目标分类模型输出目标对象对应的兴趣点分类结果,并确定目标对象的兴趣度标签,然后将目标对象的兴趣度标签发送给终端设备,基于此,服务器还能够将目标对象的兴趣度标签保存于区块链上。
进一步地,本申请实施例所提供的目标对象识别方法,不仅适用于确定对象的教育培训付费的高意愿标签的场景,若调整输入其它场景的样本,就能识别出对应场景的识别概率,例如,在游戏付费的场景中,基于本申请实施例所提供的目标对象识别方法确定对象的游戏付费的高意愿标签等;又例如,通过调整不同的参数、调用不同的训练模型用于识别青少年等特定对象群体,此处不对本申请实施例的应用场景进行限定以及穷举。
本申请涉及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、智能电视等,但不局限于此。且终端设备和服务器之间可以通过无线网络、有线网络或可移动存储介质进行通信。其中,上述的无线网络使用标准通信技术和/或协议。无线网络通常为因特网、但也可以是任何网络,包括但不限于蓝牙、局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、专用网络或者虚拟专用网络的任何组合)。在一些实施例中,可以使用定制或专用数据通信技术取代或者补充上述数据通信技术。可移动存储介质可以为通用串行总线(Universal Serial Bus,USB)闪存盘、移动硬盘或其他可移动存储介质等。
虽然图1中仅示出了五个终端设备和一个服务器,但应当理解,图1中的示例仅用于理解本方案,具体终端设备和服务器的数量均应当结合实际情况灵活确定。
由于本申请实施例中所介绍的目标分类模型,需要基于人工智能领域来实现,在对本申请实施例提供的目标对象识别方法开始介绍之前,先对人工智能领域的一些基础概念进行介绍。人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
随着人工智能技术研究和进步,人工智能技术在多种方向展开研究,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。其次,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
图2为本申请实施例提供的一种目标对象识别方法的流程示意图,如图2所示,目标对象识别方法流程包括为对象样本集合准备、特征处理、多类模型选择、差分隐私保护以及调用目标分类模型确定目标对象的兴趣度标签。下面将针对各个部分的功能和流程进行介绍,具体地:
在步骤A1中,基于人工标注和业务经验,获取携带有兴趣度标签的初始对象样本集合,兴趣度标签指示对象样本是否具有付费高意愿,例如,兴趣度标签为“1”指示对象样本具有付费高意愿,而兴趣度标签为“0”指示对象样本不具有付费高意愿。基于此,再获取初始对象样本的基础画像,基础画像包括对象的非隐私行为数据,例如,是否安装目标业务的相关软件以及是否使用目标业务等。为了剔除非真实对象对建模分析的影响,基于目标业务的业务经验设置预设阈值范围,并且将不属于预设阈值范围内的初始对象样本过滤筛选掉,然后将过滤后的对象样本集合,离线存储于Hadoop分布式文件系统(the Hadoopdistributed file system,HDFS),便于后续流程对对象样本集合进行获取。
在步骤A2中,从HDFS中获取步骤A1中存储的过滤后的对象样本集合,并基于过滤后的对象样本集合构建对象样本特征集合,对象样本特征包括户基础属性信息特征、设备基础属性信息特征以及网络连接属性信息特征中的至少一种。并获取针对于目标业务的业务样本集合,再对业务样本集合进行特征化处理,得到业务样本特征集合。并基于多个预设时间周期,对对象样本特征集合以及业务样本特征集合进行聚合处理,获取不同预设时间周期内的特征集合,例如,基于近半年/近3个月/近1个月/近1周对对象样本特征集合以及业务样本特征集合进行聚合处理,且本申请实施例中聚合处理的方法包括但不限于求和、中位数以及标准差。
基于此,对不同预设时间周期内的特征集合进行特征处理,得到特征处理后的特征集合,本申请实施例中特征处理包括但不限于归一化特征处理以及离散化特征处理。进而对特征处理后的特征集合进行降维处理,得到第一对象行为特征,再对特征处理后的特征集合进行排序处理,得到第二对象行为特征,对第一对象行为特征以及第二对象行为特征进行聚合处理,得到聚合处理后的特征集合。最后基于业务样本确定预设策略,基于预设策略,对聚合处理后的特征集合进行筛选以及处理确定第一兴趣度特征集合以及第二兴趣度特征集合。第一兴趣度特征集合包括特征点得分小于第一阈值的对象样本特征,第二兴趣度特征集合包括特征点得分大于第一阈值的对象样本特征,特征点得分指示特征的重要程度。
步骤A3中,在步骤A2完成特征处理后,随机划分特征处理的样本集,作为训练集和测试集。具体按照样本所属的时间窗口进行划分,时间较早的作为训练集,时间较晚的作为验证集,本申请实施例中训练集和验证集的比例为5:1。然后基于默认参数,并行训练多类模型,模型评价指标ROC曲线下方的面积(area under the curve of ROC,AUC)从多类模型中选出效果最好的模型,并且将效果最好的模型确定为待训练分类模型。本申请实施例中多类模型包括但不限于支持向量机(support vector machines,SVM)、卷积神经网络(convolutional neural network,CNN)、精选推荐算法 (real-time attention basedlook-alike model,RALM)以及深度特征交叉网络(deep&cross network,DCN)等。应理解,在待训练分类模型后,还需要验证集上进行验证,测试待训练分类模型效果的稳定性,本实施例中将深度特征交叉网络确定为待训练分类模型。
步骤A4中,通过步骤A2获取的第一兴趣度特征集合以及第二兴趣度特征集合,先对第一兴趣度特征集合进行加噪处理,得到第一加噪特征集合,完成第一层差分保护。进而基于第二兴趣度特征集合和第一加噪特征集合,确定第三兴趣度特征集合以及第四兴趣度特征集合,第三兴趣度特征集合中对象样本特征之间的关联度小于第二阈值,第四兴趣度特征集合中对象样本特征之间的关联度大于第二阈值,再对第三兴趣度特征集合进行加噪处理,得到第二加噪特征集合,完成第二层差分保护。再基于第四兴趣度特征集合和第二加噪特征集合,通过待训练分类模型获取对象样本对应的兴趣点分类结果,并基于对象样本对应的兴趣点分类结果与对象样本对应的兴趣度标签,根据目标损失函数更新待训练分类模型的模型参数,得到目标分类模型,此时目标损失函数是进行加噪处理后得到的,以完成第三层差分保护。基于此,能固化模型训练流程,定时进行离线训练、验证、告警以及固化。
步骤A5中,对象针对于目标业务的每一次服务请求,均能够确定针对于目标业务的目标对象,由此获取针对于目标业务的业务样本集合。然后基于线上计算引擎,完成特征计算,以得到第四兴趣度特征和第二加噪特征,具体地,对目标对象进行特征化处理,得到目标对象特征。再基于目标对象特征以及业务样本特征集合,进行特征处理后确定第一兴趣度特征以及第二兴趣度特征,对第一兴趣度特征进行加噪处理,得到第一加噪特征,基于第二兴趣度特征和第一加噪特征,进行特征处理后确定第三兴趣度特征以及第四兴趣度特征,再对第三兴趣度特征进行加噪处理,得到第二加噪特征,基于第四兴趣度特征和第二加噪特征,通过目标分类模型获取目标对象对应的兴趣点分类结果,最终根据目标对象对应的兴趣点分类结果确定目标对象的兴趣度标签。
结合上述介绍,本申请实施例提供的方案涉及人工智能的机器学习技术,下面对本申请中目标对象识别方法进行介绍,请参阅图3,图3为本申请实施例中目标对象识别方法一个实施例示意图,如图3所示,本申请实施例中目标对象识别方法一个实施例包括:
101、获取针对于目标业务的目标对象。
本实施例中,对象识别装置基于预设周期从线上存储引擎,拉取最新的针对于目标业务的目标对象,此时目标对象的每一次服务请求,会从线上拉取目标对象的实时行为数据,因此目标业务的目标对象具体包括目标对象的实时行为数据。
具体地,目标对象包括目标对象基础属性信息、目标设备基础属性信息以及目标网络连接属性信息中的至少一种。其中,目标对象基础属性信息包括但不限于目标对象的性别、目标对象籍贯以及目标对象的居住城市等。其次,目标设备基础属性信息包括但不限于目标对象终端设备的系统版本,目标对象终端设备的分辨率、目标对象终端设备的应用程序编程接口等级(application programming interface level,API_Level)以及目标对象终端设备的中央处理器(central processing unit,CPU)核数等。而目标网络连接属性信息包括但不限于目标对象终端设备连接无线保真网络(wireless-fidelity,Wi-Fi)的个数、目标对象终端设备每天连接Wi-Fi的最早时间等。
102、对目标对象进行特征化处理,得到目标对象特征。
本实施例中,对象识别装置对步骤101所获取的目标对象进行特征化处理,得到目标对象特征,目标对象特征与目标对象样本具有对应关系,即目标对象特征包括对象基础属性信息特征、设备基础属性信息特征以及网络连接属性信息特征中的至少一种。
103、基于目标对象特征,进行特征处理后确定第一兴趣度特征以及第二兴趣度特征。
本实施例中,对象识别装置基于步骤102得到的目标对象特征,进行特征处理的多个步骤确定第一兴趣度特征以及第二兴趣度特征,应理解,此时第一兴趣度特征以及第二兴趣度特征同属于一个特征向量或一个特征矩阵,但所得到的第一兴趣度特征的特征点得分小于第一阈值,而第二兴趣度特征的特征点得分大于第一阈值。
具体地,前述特征点得分指示特征的重要程度,而特征点得分具体通过深度提升(DeepLIFT)算法得到,DeepLIFT算法是一种基于反向传播的特征打分算法,通过DeepLIFT算法可以得到目标对象特征中,对后续兴趣点分类结果影响较大的重要特征,特征的重要性由特征点得分决定,特征点得分越高重要程度越大,而特征点得分越低重要程度就较低,因此将特征点得分小于第一阈值的目标对象特征确定为第一兴趣度特征,即第一兴趣度特征所包括的目标对象特征的重要程度较低,而将特征点得分大于第一阈值的目标对象特征确定为第二兴趣度特征,即第二兴趣度特征所包括的目标对象特征的重要程度较高。
示例性地,以第一阈值为60作为示例进行说明,若目标对象特征1的特征点得分为50,目标对象特征2的特征点得分为80,目标对象特征3的特征点得分为30,以及目标对象特征4的特征点得分为75,基于第一阈值(60),可以将目标对象特征1以及目标对象特征3确定为第一兴趣度特征,将目标对象特征2以及目标对象特征4确定为第二兴趣度特征,由此说明将目标对象特征1以及目标对象特征3重要程度较低,而目标对象特征2以及目标对象特征4重要程度较高。应理解,前述第一阈值的取值是通过实验和/或基于大量数据的统计所确定的,此处不对第一阈值的取值进行具体限定。
104、对第一兴趣度特征进行加噪处理,得到第一加噪特征。
本实施例中,对象识别装置对步骤103中的第一兴趣度特征进行加噪处理,得到第一加噪特征。由于特征点得分越高重要程度越大,而特征点得分越低重要程度就较低,通过步骤103可知,第一兴趣度特征包括的为特征点得分小于第一阈值的对象样本特征,即第一兴趣度特征中的对象样本特征的重要程度较低,因此选择将更多的噪声添加在对象样本特征的重要程度较低的第一兴趣度特征中,从而保留对象样本特征的重要程度较高的对象样本特征完整性。并且实际应用中,基于DeepLIFT算法得到特征点得分,并基于此进行加噪处理能够充分考虑了样本先验知识,从而保留特征中的重要特征。
105、基于第二兴趣度特征和第一加噪特征,通过目标分类模型获取目标对象对应的兴趣点分类结果。
本实施例中,对象识别装置将步骤103中未进行加噪处理的第二兴趣度特征,以及通过步骤104进行加噪处理后得到的第一加噪特征,输入至目标分类模型,并通过目标分类模型输出目标对象对应的兴趣点分类结果。具体地,该兴趣点分类结果指示对象样本具有付费高意愿的预测概率。具体地,本实施例以目标分类模型为深度特征交叉网络(deep&cross network,DCN)作为示例,而在实际应用中,目标分类模型可以为支持向量机(support vector machines,SVM)、卷积神经网络(convolutional neural network,CNN)、精选推荐算法 (real-time attention based look-alike model,RALM)或其他深度学习模型中任一种,此处不对目标分类模型进行限定。
106、根据目标对象对应的兴趣点分类结果确定目标对象的兴趣度标签。
本实施例中,由于兴趣点分类结果指示对象样本具有付费高意愿的预测概率,因此对象识别装置根据步骤105所得到的目标对象对应的兴趣点分类结果确定目标对象的兴趣度标签,也就将大于预设阈值的兴趣点分类结果确定为具有付费高意愿,即该对象样本对应的预测兴趣度标签为“1”,反之,将小于预设阈值的兴趣点分类结果确定为不具有付费高意愿,即该对象样本对应的预测兴趣度标签为“0”。本实施例中以预设阈值为60%作为示例进行说明,而在实际应用中,预设阈值的取值是通过实验和/或基于大量数据的统计所确定的,此处不对预设阈值进行具体限定。
本申请实施例中,提供了一种目标对象识别方法,在对象识别的过程中,通过对特征点得分较小的特征进行加扰,但不对特征点得分较大的特征加扰,由于特征点得分越大指示该特征更重要,因此在保留重要特征的前提下保证模型输出兴趣点分类结果的准确度,由此提升对目标对象识别的准确度。其次,由于目标对象包括对象基础属性信息、设备基础属性信息以及网络连接属性信息中至少一种,因此通过对特征进行加扰能够提升对任一属性信息的保护,降低对象隐私泄露的可能性,从而保护目标对象的隐私。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的目标对象识别方法一个可选实施例中,目标对象识别方法还包括:
获取针对于目标业务的业务样本集合;
对业务样本集合进行特征化处理,得到业务样本特征集合;
基于目标对象特征,进行特征处理后确定第一兴趣度特征以及第二兴趣度特征,具体包括:
基于目标对象特征以及业务样本特征集合,进行特征处理后确定第一兴趣度特征以及第二兴趣度特征。
本实施例中,对象识别装置还可以获取针对于目标业务的业务样本集合,业务样本集合可以包括目标业务对应的广告,目标业务对应的商品等。基于此,对业务样本集合进行特征化处理,得到业务样本特征集合,业务样本特征集合可以包括对象样本对目标业务对应的广告的点击率或对目标业务对应的广告的转化率等,前述业务样本集合以及业务样本特征集合需要根据目标业务的业务特性以及需求确定,此处不做限定。
进一步地,为了避免目标对象特征的向量表示以及业务样本特征集合的向量表示之间无关联关系,以避免后续模型处理过程中特征提取不完全。因此需要进行特征交叉处理。即对象识别装置对目标对象特征以及业务样本特征集合特征交叉处理以及后续特征处理,以确定第一兴趣度特征以及第二兴趣度特征。应理解,由于特征交叉能够反映特征之间的相关性,此时将业务样本特征集合以及目标对象特征进行特征交叉处理,后续特征处理过程中还需要考虑到特征之间的相关性,并且第一兴趣度特征以及第二兴趣度特征为特征矩阵,而非特征向量。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的目标对象识别方法一个可选实施例中,基于第二兴趣度特征和第一加噪特征,通过目标分类模型获取目标对象对应的兴趣点分类结果,具体包括:
基于第二兴趣度特征和第一加噪特征,进行特征处理后确定第三兴趣度特征以及第四兴趣度特征,其中,第三兴趣度特征与另一特征之间的关联度小于第二阈值,第四兴趣度特征与另一特征之间的关联度大于第二阈值;
对第三兴趣度特征进行加噪处理,得到第二加噪特征;
基于第四兴趣度特征和第二加噪特征,通过目标分类模型获取目标对象对应的兴趣点分类结果。
本实施例中,对象识别装置具体基于第二兴趣度特征和第一加噪特征,进行特征处理后确定第三兴趣度特征以及第四兴趣度特征,此时第三兴趣度特征与另一特征之间的关联度小于第二阈值,说明第三兴趣度特征与其他对象样本特征的关联度较小。反之,第四兴趣度特征与另一特征之间的关联度大于第二阈值,说明第四兴趣度特征与其他对象样本特征的关联度较大,第四兴趣度特征能够反映更多的关联特征信息。应理解,前述第二阈值的取值是通过实验和/或基于大量数据的统计所确定的,此处不对第二阈值的取值进行具体限定。
因此,对象识别装置选择将更多的噪声添加在特征之间关联度较小的第三兴趣度特征中,得到第二加噪特征。但不对对象样本特征之间关联度较高的第四兴趣度特征进行加噪,从而保留目标对象特征以及业务样本特征集合之间的关联特征信息,然后对象识别装置将未进行加噪处理的第四兴趣度特征以及进行加噪处理后得到的第二加噪特征,输入至目标分类模型,并通过目标分类模型输出目标对象对应的兴趣点分类结果。具体地,与步骤105类似,该兴趣点分类结果指示对象样本具有付费高意愿的预测概率,此处不再赘述。应理解,由于第一兴趣度特征以及第二兴趣度特征是进一步地基于对象样本特征以及业务样本特征得到的,而第一兴趣度特征以及第二兴趣度特征为特征矩阵,因此第四兴趣度特征以及第二加噪特征也为特征矩阵。
前面描述了进行两层差分保护的方法,为了进一步理解本方案,请参阅图4,图4为本申请实施例中目标对象识别方法另一实施例示意图,如图4所示,对针对于目标业务的目标对象F1进行特征化处理得到目标对象特征F2,并对业务样本集合F3进行特征化处理,得到业务样本特征集合F4,然后基于目标对象特征F2以及业务样本特征集合F4,确定第一兴趣度特征以及第二兴趣度特征F5,并对第一兴趣度特征以及第二兴趣度特征F5中的第一兴趣度特征进行加噪处理,得到第一加噪特征,从而得到第一加噪特征以及第二兴趣度特征F6。
进一步地,基于第一加噪特征以及第二兴趣度特征F6,确定第三兴趣度特征以及第四兴趣度特征F7,并且对第三兴趣度特征以及第四兴趣度特征F7中的第三兴趣度特征进行加噪处理,得到第二加噪特征,从而得到第二加噪特征以及第四兴趣度特征F8,将第二加噪特征以及第四兴趣度特征F8作为目标分类模型F9的输入,目标分类模型F9输出目标对象对应的兴趣点分类结果,然后基于步骤106所介绍的方法,根据目标对象对应的兴趣点分类结果确定目标对象的兴趣度标签F10。应理解,图4仅用于进一步地理解如何在对象识别过程中对特征加扰的过程,也不应理解为本方案的具体限定。
本申请实施例中,具体提供了另一种目标对象识别方法,首先通过交叉目标对象特征和业务对象样本集合,使得所得到的特征集合中能包括更多特征之间的相关信息,进而保证目标分类模型输出结果的准确度。其次,在确定兴趣度标签的过程中,对特征点得分较小的特征进行加扰,但不对特征点得分较大的特征加扰,由于特征点得分越大指示该特征更重要,因此在保留重要特征的前提下保证模型输出概率的准确度。再次,对特征之间关联度较小的特征进行加扰,但不对特征之间关联度较大的特征加扰,从而保留对象样本特征之间的关联特征信息,进一步地保证目标分类模型输出结果的准确度,由此提升对目标对象识别的准确度。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的目标对象识别方法一个可选实施例中,目标分类模型是基于N个对象样本对应的兴趣点分类结果与N个对象样本对应的兴趣度标签,根据目标损失函数更新待训练分类模型的模型参数得到的,N为大于1的整数;
目标损失函数是进行加噪处理后得到的。
本实施例中,对象识别模块还能够基于N个对象样本对应的兴趣点分类结果与N个对象样本对应的兴趣度标签,根据目标损失函数更新待训练分类模型的模型参数,得到目标分类模型,此时目标损失函数是进行加噪处理后得到的,N为大于1的整数。具体地,在模型训练过程中进行第三次差分保护,具体针对目标损失函数而非预测结果进行加噪,然后利用待训练分类模型在前向和反馈传播中的参数自适应,尽量矫正由噪声添加带来的最优解或次优解的偏差。
具体地,对象识别装置将N个对象样本对应的兴趣点分类结果作为目标进行迭代训练,即根据N个对象样本对应的兴趣点分类结果以及N个对象样本对应的兴趣度标签之间的差异确定目标损失函数的损失值,根据目标损失函数的损失值判断损失函数是否达到收敛条件,若未达到收敛条件,则利用目标损失函数的损失值更新待训练分类模型的模型参数。
其次,前述目标损失函数的收敛条件可以为损失函数的值小于或等于第一损失函数预设阈值,作为示例,例如第一损失函数预设阈值的取值可以为0.005、0.01、0.02或其它趋近于0的数值。也可以为目标损失函数的相邻两次的值的差值小于或等于第二损失函数预设阈值,第二损失函数预设阈值的取值可以与第一损失函数预设阈值的取值相同或不同,作为示例,例如第二损失函数预设阈值的取值可以为0.005、0.01、0.02或其它趋近于0的数值等,还可以采用其它收敛条件等,此处不做限定。应理解,在实际应用中,目标损失函数还可以为均方差损失函数、排序损失(ranking loss)函数以及焦点损失(focal loss)函数等,具体此处不做限定。
本申请实施例中,提供了一种对目标损失函数加扰的方法,针对目标损失函数而非预测结果进行加噪,然后利用待训练分类模型在前向和反馈传播中的参数自适应,矫正由噪声添加带来的最优解或次优解的偏差,由此提升所得到的目标分类模型的可靠性,以及提升该目标分类模型输出结果的准确性,从而进一步提升对目标对象识别的准确度。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的目标对象识别方法一个可选实施例中,目标对象识别方法还包括:
获取针对于目标业务的对象样本集合,其中,对象样本集合包括N个对象样本,每个对象样本对应于一个兴趣度标签,每个对象样本包括对象基础属性信息、设备基础属性信息以及网络连接属性信息中的至少一种;
对对象样本集合进行特征化处理,得到对象样本特征集合,其中,对象样本特征集合包括N个对象样本特征,对象样本特征与对象样本具有对应关系;
基于对象样本特征集合,确定第一兴趣度特征集合以及第二兴趣度特征集合,其中,第一兴趣度特征集合包括特征点得分小于第一阈值的P个对象样本特征,第二兴趣度特征集合包括特征点得分大于第一阈值的Q个对象样本特征,P和Q为大于或等于1的整数;
对第一兴趣度特征集合进行加噪处理,得到第一加噪特征集合;
基于第二兴趣度特征集合和第一加噪特征集合,通过待训练分类模型获取N个对象样本对应的兴趣点分类结果;
根据N个对象样本对应的兴趣点分类结果以及N个对象样本对应的兴趣度标签,对待训练分类模型进行训练。
本实施例中,基于图2所示的流程图可知,对象识别装置在HDFS的存储空间中获取针对于目标业务的对象样本集合,此时每个对象样本对应于一个兴趣度标签,本申请实施例中目的在于确定对象是否具有付费高意愿,因此兴趣度标签指示对象样本是否具有付费高意愿,例如,兴趣度标签为“1”指示对象样本具有付费高意愿,而兴趣度标签为“0”指示对象样本不具有付费高意愿。具体地,每个对象样本包括对象基础属性信息、设备基础属性信息以及网络连接属性信息中的至少一种。对象样本所包括的信息与前述目标对象所包括的信息类似,此处不再赘述。
进一步地,对象识别装置对前述所获取的对象样本集合进行特征化处理,得到对象样本特征集合,对象样本特征集合包括N个对象样本特征,对象样本特征与对象样本具有对应关系,即对象样本特征包括对象基础属性信息特征、设备基础属性信息特征以及网络连接属性信息特征中的至少一种。
然后,对象识别装置基于得到的对象样本特征集合,进行特征处理等步骤确定第一兴趣度特征集合以及第二兴趣度特征集合,应理解,此时第一兴趣度特征集合以及第二兴趣度特征集合同属于一个特征向量或一个特征矩阵,但所得到的第一兴趣度特征集合包括特征点得分小于第一阈值的P个对象样本特征,而第二兴趣度特征集合包括特征点得分大于第一阈值的Q个对象样本特征,P和Q为大于或等于1的整数。具体地,前述特征点得分指示特征的重要程度,具体特征点得分在步骤103中已进行详细介绍,此处不再赘述。由此可知,将特征点得分小于第一阈值的对象样本特征确定为第一兴趣度特征集合,即第一兴趣度特征集合中的对象样本特征的重要程度较低,而将特征点得分大于第一阈值的对象样本特征确定为第二兴趣度特征集合,即第二兴趣度特征集合中的对象样本特征的重要程度较高。
为了对对象的隐私信息进行包括,需要进行前述实施例中所描述的差分包括,因此对象识别装置对第一兴趣度特征集合进行加噪处理,得到第一加噪特征集合。由于特征点得分越高重要程度越大,而特征点得分越低重要程度就较低,第一兴趣度特征集合包括的为特征点得分小于第一阈值的对象样本特征,即第一兴趣度特征集合中的对象样本特征的重要程度较低,因此选择将更多的噪声添加在对象样本特征的重要程度较低的第一兴趣度特征集合中,从而保留对象样本特征的重要程度较高的对象样本特征完整性。并且实际应用中,基于DeepLIFT算法得到特征点得分,并基于此进行加噪处理能够充分考虑了样本先验知识,从而保留特征集合中的重要特征。
再进一步地,对象识别装置将未进行加噪处理的第二兴趣度特征集合,以及通过步骤104进行加噪处理后得到的第一加噪特征集合,输入至待训练分类模型,并通过待训练分类模型输出N个对象样本对应的兴趣点分类结果。具体地,该兴趣点分类结果指示对象样本具有付费高意愿的预测概率,并且将大于预设阈值的兴趣点分类结果确定为具有付费高意愿,即该对象样本对应的预测兴趣度标签为“1”,反之,将小于预设阈值的兴趣点分类结果确定为不具有付费高意愿,即该对象样本对应的预测兴趣度标签为“0”。本实施例中以预设阈值为60%作为示例进行说明,而在实际应用中,预设阈值的取值是通过实验和/或基于大量数据的统计所确定的,此处不对预设阈值进行具体限定。
具体地,此时待训练分类模型可以为支持向量机(support vector machines,SVM)、卷积神经网络(convolutional neural network,CNN)、精选推荐算法 (real-timeattention based look-alike model,RALM)以及深度特征交叉网络(deep&crossnetwork,DCN)或其他深度学习模型中任一种。
最后,对象识别装置根据N个对象样本对应的兴趣点分类结果以及N个对象样本对应的兴趣度标签,对待训练分类模型进行训练。具体地,对象识别装置将N个对象样本对应的兴趣点分类结果作为目标进行迭代训练,即根据N个对象样本对应的兴趣点分类结果以及N个对象样本对应的兴趣度标签之间的差异确定目标损失函数的损失值,根据目标损失函数的损失值判断损失函数是否达到收敛条件,若未达到收敛条件,则利用目标损失函数的损失值更新待训练分类模型的模型参数。
为进一步理解本方案,请参阅图5,图5为本申请实施例中对待训练分类模型进行训练的一个实施例示意图,如图5所示,B1指的是针对于目标业务的对象样本集合(包括N个对象样本对应的兴趣度标签),B2指的是对象样本特征集合,B3指的是第一兴趣度特征集合,B4指的是第二兴趣度特征集合,B5指的是通过前述实施例介绍的方式,对第一兴趣度特征集合B3进行加噪处理所得到的第一加噪特征集合,B6指的是待训练分类模型,B7指的是待训练分类模型B6基于第二兴趣度特征集合B4以及第一加噪特征集合B5输出的N个对象样本对应的兴趣点分类结果。基于此,包括N个对象样本对应的兴趣度标签的对象样本集合B1、N个对象样本对应的兴趣点分类结果B6以及目标损失函数,对待训练分类模型进行迭代训练,应当理解,图5中的示例仅为方便理解本方案,不用于限定本方案。
本申请实施例中,提供了一种对目标分类模型进行训练的方法,通过上述方法,在模型训练中,对特征点得分较小的特征进行加扰,但不对特征点得分较大的特征加扰,由于特征点得分越大指示该特征更重要,因此在保留重要特征的前提下保证模型输出概率的准确度,其次,由于每个对象样本包括对象基础属性信息、设备基础属性信息以及网络连接属性信息中至少一种,因此通过对特征进行加扰能够提升对任一属性信息的保护,降低对象隐私泄露的可能性,从而保护对象隐私。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的目标对象识别方法一个可选实施例中,目标对象识别方法还包括:
获取针对于目标业务的业务样本集合;
对业务样本集合进行特征化处理,得到业务样本特征集合;
基于对象样本特征集合,确定第一兴趣度特征集合以及第二兴趣度特征集合,包括:
基于对象样本特征集合以及业务样本特征集合,确定第一兴趣度特征集合以及第二兴趣度特征集合。
本实施例中,对象识别装置还可以获取针对于目标业务的业务样本集合,业务样本集合可以包括目标业务对应的广告,目标业务对应的商品等。基于此,对业务样本集合进行特征化处理,得到业务样本特征集合,业务样本特征集合可以包括对象样本对目标业务对应的广告的点击率或对目标业务对应的广告的转化率等,前述业务样本集合以及业务样本特征集合需要根据目标业务的业务特性以及需求确定,此处不做限定。
进一步地,为了避免对象样本特征集合的向量表示以及业务样本特征集合的向量表示之间完全没有联系,因此进行特征交叉处理。即对象识别装置对对象样本特征集合以及业务样本特征集合特征交叉处理以及后续特征处理,以确定第一兴趣度特征集合以及第二兴趣度特征集合。此时所得到的第一兴趣度特征集合包括特征点得分小于第一阈值的P个对象样本特征以及业务样本特征,而第二兴趣度特征集合包括特征点得分大于第一阈值的Q个对象样本特征以及业务样本特征。应理解,由于特征交叉能够反映特征之间的相关性,此时将业务样本特征集合以及对象样本特征集合进行特征交叉处理,后续特征处理过程中还需要考虑到特征之间的相关性,并且第一兴趣度特征集合以及第二兴趣度特征集合为特征矩阵,而非特征向量。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的目标对象识别方法一个可选实施例中,基于第二兴趣度特征集合和第一加噪特征集合,通过待训练分类模型获取N个对象样本对应的兴趣点分类结果,具体包括:
基于第二兴趣度特征集合和第一加噪特征集合,确定第三兴趣度特征集合以及第四兴趣度特征集合,其中,第三兴趣度特征集合中对象样本特征之间的关联度小于第二阈值,第四兴趣度特征集合中对象样本特征之间的关联度大于第二阈值;
对第三兴趣度特征集合进行加噪处理,得到第二加噪特征集合;
基于第四兴趣度特征集合和第二加噪特征集合,通过待训练分类模型获取N个对象样本对应的兴趣点分类结果。
本实施例中,对象识别装置需要进一步地考虑第二兴趣度特征集合以及第一加噪特征集合中对象样本特征之间的关联度,因此对对象样本特征进行第二次噪声的自适应添加。对象识别装置具体基于第二兴趣度特征集合和第一加噪特征集合,确定第三兴趣度特征集合以及第四兴趣度特征集合,此时第三兴趣度特征集合中对象样本特征之间的关联度小于第二阈值,第四兴趣度特征集合中对象样本特征之间的关联度大于第二阈值。
具体地,第三兴趣度特征集合中对象样本特征之间的关联度小于第二阈值,说明第三兴趣度特征集合中的对象样本特征与其他对象样本特征的关联度较小。反之,第四兴趣度特征集合中对象样本特征之间的关联度大于第二阈值,说明第四兴趣度特征集合中的对象样本特征与其他对象样本特征的关联度较大,第四兴趣度特征集合中的对象样本特征能够反映更多的关联特征信息。应理解,前述第二阈值的取值是通过实验和/或基于大量数据的统计所确定的,此处不对第二阈值的取值进行具体限定。
基于此,对象识别装置选择将更多的噪声添加在特征之间关联度较小的特征中,即选择将更多的噪声添加在对象样本特征之间关联度较低的第三兴趣度特征集合中,得到第二加噪特征集合。但不对对象样本特征之间关联度较高的第四兴趣度特征集合进行加噪,从而保留对象样本特征之间的关联特征信息。
然后对象识别装置将未进行加噪处理的第四兴趣度特征集合以及进行加噪处理后得到的第二加噪特征集合,输入至待训练分类模型,并通过待训练分类模型输出N个对象样本对应的兴趣点分类结果。具体地,该兴趣点分类结果指示对象样本具有付费高意愿的预测概率,此处不再赘述。应理解,由于第一兴趣度特征集合以及第二兴趣度特征集合是进一步地基于对象样本特征集合以及业务样本特征集合得到的,而第一兴趣度特征集合以及第二兴趣度特征集合为特征矩阵,因此第四兴趣度特征集合以及第二加噪特征集合也为特征矩阵,且本实施例中将深度特征交叉网络(deep&cross network,DCN)确定为待训练分类模型。
通过图2可知,在对象识别过程中包括特征处理的步骤,基于前述实施例,下面将通过图6对特征处理中进行加扰的步骤进行详细介绍。请参阅图6,图6为本申请实施例中特征处理的一个实施例示意图,如图6所示,对针对于目标业务的对象样本集合G1进行特征集合化处理得到对象样本特征集合G2,并对业务样本集合G3进行特征集合化处理,得到业务样本特征集合G4,然后基于对象样本特征集合G2以及业务样本特征集合G4,确定第一兴趣度特征集合以及第二兴趣度特征集合G5,并对第一兴趣度特征集合以及第二兴趣度特征集合G5中的第一兴趣度特征集合进行加噪处理,得到第一加噪特征集合,从而得到第一加噪特征集合以及第二兴趣度特征集合G6。
进一步地,基于第一加噪特征集合以及第二兴趣度特征集合G6,确定第三兴趣度特征集合以及第四兴趣度特征集合G7,并且对第三兴趣度特征集合以及第四兴趣度特征集合G7中的第三兴趣度特征集合进行加噪处理,得到第二加噪特征集合,从而得到第二加噪特征集合以及第四兴趣度特征集合G8,将第二加噪特征集合以及第四兴趣度特征集合G8作为待训练分类模型G9的输入,待训练分类模型G9输出N个对象样本对应的兴趣点分类结果。应理解,图9仅用于进一步地理解如何在模型训练过程中对特征集合加扰的过程,也不应理解为本方案的具体限定。
本申请实施例中,提供了一种模型训练前对输入特征进行处理的方法,通过交叉对象样本特征集合和业务对象样本集合,使得所得到的特征集合中能包括更多特征之间的相关信息,进而保证模型输出结果的准确度。其次,并且对特征之间关联度较小的特征进行加扰,但不对特征之间关联度较大的特征加扰,从而保留对象样本特征之间的关联特征信息,进一步地保证模型输出结果的准确度。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的目标对象识别方法一个可选实施例中,获取针对于目标业务的对象样本集合,具体包括:
获取针对于目标业务的初始对象样本集合;
基于目标业务确定预设阈值范围;
基于预设阈值范围,从目标业务的初始对象样本集合中确定N个对象样本。
本实施例中,对象识别装置具体获取针对于目标业务的初始对象样本集合,此时初始对象样本集合为基于人工筛查的方式后得到的,然后基于预设规则获取到的携带兴趣度标签的对象样本,兴趣度标签指示对象样本是否具有付费高意愿,例如,兴趣度标签为“1”指示对象样本具有付费高意愿,而兴趣度标签为“0”指示对象样本不具有付费高意愿。其次,在应用于教育培训付费高意愿的场景下,预设规则可以为对象样本的终端设备安装过教育类应用软件的个数超过3个,或,对象样本消费过教育培训对应业务超过2个等。而在应用于游戏付费高意愿的场景下,预设规则可以为对象样本的终端设备安装过游戏类应用软件的个数超过5个,或,对象样本消费过游戏中服务业务超过3次等,具体此处不做限定。
基于此,对象识别装置再获取初始对象样本的基础画像,基础画像包括对象的非隐私行为数据,例如,是否安装目标业务的相关软件以及是否使用目标业务等。且在实际应用场景中,会存在虚假对象或电脑操控手机的情况,因此为了剔除非真实对象对建模分析的影响,对象识别装置还需要基于目标业务的业务经验设置预设阈值范围,例如,预设阈值范围为对象样本在使用目标业务对应软件产品的流量使用情况,或者,预设阈值范围为对象样本在使用目标业务对应软件产品的流量产生的时间分布等。
进一步地,对象识别装置基于预设阈值范围,从目标业务的初始对象样本集合中确定N个对象样本。具体使用“拉依达准则”进行异常值判断标准,具体为,假设一组初始对象样本集合只含有随机误差,对初始对象样本集合进行计算处理得到标准偏差,基于所确定的预设阈值范围,认为超过预设阈值范围的误差,就不属于随机误差而是粗大误差,而含有该粗大误差的初始对象样本集合应予以剔除。即对象识别装置将不属于预设阈值范围内的初始对象样本过滤筛选掉,然后基于过滤后得到的N个对象样本生成对象样本集合,并且将对象样本集合存储于HDFS,在需要使用该对象样本集合是,直接从HDFS获取所存储的对象样本集合。
本申请实施例中,提供了一种对象识别中进行对象样本筛选的方法,从初始对象样本集合筛选出异常对象样本,将异常对象样本过滤提出,即不使用异常对象样本对模型进行训练,从而避免异常对象样本对后续模型训练造成影响,即避免降低所得到模型的准确度,提升模型训练的可靠性。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的目标对象识别方法一个可选实施例中,基于对象样本特征集合以及业务样本特征集合,确定第一兴趣度特征集合以及第二兴趣度特征集合,具体包括:
基于多个预设时间周期,对对象样本特征集合以及业务样本特征集合进行聚合处理,获取第五兴趣度特征集合;
对第五兴趣度特征集合进行特征处理,得到第六兴趣度特征,其中,特征处理包括归一化特征处理以及离散化特征处理中至少一种;
基于第六兴趣度特征确定第一兴趣度特征集合以及第二兴趣度特征集合。
本实施例中,考虑到本方案中“付费意愿”属于对象的长期稳定需求,因此此时需要计算对象样本以及业务样本在多个预设时间周期的内的特征,即对象识别装置具体基于多个预设时间周期,对对象样本特征集合以及业务样本特征集合进行聚合处理,获取第五兴趣度特征集合。具体地,结合多个预设时间周期,聚合不同预设时间周期下对象样本特征集合以及业务样本特征集合,以获取不同预设时间周期内的特征集合(即第五兴趣度特征集合),例如,聚合近半年的对象样本特征集合以及业务样本特征集合,或,聚合近3个月的对象样本特征集合以及业务样本特征集合,应理解,预设时间周期可以包括近半年、近3个月、近1个月以及近1周等。其次,且本实施例中进行聚合处理的方法包括但不限于求和、中位数以及标准差等,前述示例均不应理解为本方案的限定。
基于此,对象识别装置再对不同预设时间周期内的特征集合(即第五兴趣度特征集合)进行特征处理,得到第六兴趣度特征,对象识别装置再基于前述特征处理后的第六兴趣度特征确定第一兴趣度特征集合以及第二兴趣度特征集合。
具体地,本实施例中特征处理包括归一化特征处理以及离散化特征处理中至少一种,本实施例中归一化特征处理选择高斯归一化,此处不做赘述。下面主要对如何进行散化特征处理的过程进行介绍。
(1)独热编码(One-Hot Encoding)
One-Hot Encoding主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。而在实际的机器学习的应用任务中,特征有时候并不总是连续值,有可能是一些分类值,如性别可分为“男”和“女”。在机器学习任务中,对于这样的特征,通常我们需要对其进行特征数字化,例如,对于第五兴趣度特征集合中对象基础属性信息特征所包括的对象样本的性别进行One-Hot Encoding,所得到的结果为:男:(1,0),女:(0,1)。
(2)计数编码(Count Encoding)
Count Encoding可用于离散变量或较少取值的连续变量。例如,对于对象样本的WiFi 兴趣点(point of Interest,POI)特征,对象的POI可以是一栋房子、一个商铺、一个邮筒或者一个公交站等。基于Count Encoding标识对象样本对POI的兴趣程度,比如对象当周样本去了“美食-中国菜-粤菜”这个POI 共3次。
(3)合并编码(Consolidation Encoding)
Consolidation Encoding同过对一个类型特征变量下的多个取值,将多个取值归纳成同一个信息。例如,对于第五兴趣度特征集合中设备基础属性信息特征所包括的对象终端设备的系统版本,对象终端设备的系统版本的取值中包括“4.2”、“4.4”以及“5.0”,Consolidation Encoding可以将“4.2”、“4.4”以及“5.0”这三个值归纳为“低版本系统”。基于实验证明,Consolidation Encoding,比直接同归One-Hot Encoding分别对“4.2”、“4.4”以及“5.0”单个特征进行编码带来更大的正向收益。
(4)词嵌入(Category Embedding)
通过前面所描述的One-Hot Encoding,Count Encoding或ConsolidationEncoding完成对第五兴趣度特征集合中不同特征进行编码处理后,由于本方案中特征均集合中包括许多不同类型的特征,而特征既有离散型特征又有连续特征,不同类型的特征都存在较强的稀疏性。基于此,对于类别型的离散特征,一般进行One-Hot Encoding处理,但是One-Hot Encoding处理之后输入特征维度非常高非常系数,为了减少维数,以及避免后续模型训练过拟合,以及提高所得到的模型稳定性,采用Category Embedding将这些离散特征转换成实数值的低维稠密的Embedding变量。
(5)缺失值嵌入(NaN Embedding)
在前述特征处理的过程中,可能出现特征缺失,那么对于特征的缺失值嵌入(NaNEmbedding)处理可以包括“剔除法”、“平均值填充法”以及“缺失标记法”等方法。通过将特征的缺失值转为Embedding表达,进一步地对模型训练的效果带来更大的正向收益。应理解,Category Embedding以及NaN Embedding操作其实就是用一个特征矩阵和进行Encoding之后的输入相乘,也可以看成是一次查询(look up),这个Embedding矩阵跟网络中的其他参数是一样的,是需要随着网络一起学习的。
其中,剔除法具体包括简单删除法以及权重删除法,简单删除法是在第五兴趣度特征集合达到目标的情况下,将存在缺失值的第五兴趣度特征删除,其次,权重删除法是当第五兴趣度特征的缺失值的类型为非完全随机缺失的时候,可以通过对完整的数据加权来减小偏差,即把数据不完全的第五兴趣度特征标记后,对第五兴趣度特征集合中每个第五兴趣度特征赋予不同的权重,完整的第五兴趣度特征的权重可以通过逻辑(logistic)回归或概率单元(probit)回归求得,然后根据权重删除部分第五兴趣度特征。
其次,可能值插补缺失值能够以最可能的值来插补缺失值比全部删除不完全对象样本以及业务样本所产生的信息丢失要少。在数据挖掘中,因为一个属性值的缺失而放弃大量的其他属性值,这种删除是对信息的极大浪费,所以产生了以可能值对缺失值进行插补的思想与方法,常用的有如下几种方法:
1、均值插补。将数据的属性分为定距型和非定距型,如果特征的缺失值是定距型的,就以该特征的属性存在值的平均值来插补缺失的值;如果特征的缺失值是非定距型的,就根据统计学中的众数原理,用该特征的属性的众数(即出现频率最高的值)来补齐缺失的值。
2、利用同类均值插补。同均值插补的方法都属于单值插补,不同的是,利用同类均值插补用层次聚类模型预测缺失变量的类型,再以该类型的均值插补。
3、多重插补(multiple imputation,MI)。多重插补的思想来源于贝叶斯估计,在多重插补中认为待插补的值是随机的,它的值来多重插补已观测到的值。
本申请实施例中,提供了另一种对象识别前对输入特征进行处理的方法,通过基于多个预设时间周期,对对象样本特征集合以及业务样本特征集合进行聚合处理,以得到对象样本以及业务样本在多个预设时间周期的内的特征,引入时间维度对特征进行处理,能够得到对象对于目标业务的长期稳定需求特征,使得特征包括更多维度的信息。其次,通过特征处理能够对不同类型的特征进一步地进行编码提取,并且通过词嵌入对编码后的特征进一步地处理,以避免后续模型训练过拟合,从而提高所得到的模型稳定性。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的目标对象识别方法一个可选实施例中,基于第六兴趣度特征确定第一兴趣度特征集合以及第二兴趣度特征集合,具体包括:
对第六兴趣度特征进行降维处理,得到第一对象行为特征;
对第六兴趣度特征进行排序处理,得到第二对象行为特征;
对第一对象行为特征以及第二对象行为特征进行聚合处理,得到第七兴趣度特征集合;
基于业务样本,对第七兴趣度特征集合进行处理,确定第一兴趣度特征集合以及第二兴趣度特征集合。
本实施例中,对象识别装置具体对第六兴趣度特征进行降维处理,得到第一对象行为特征。具体地,对象识别装置将第六兴趣度特征输入到深入神经网络模型,对对象的WiFi 连接轨迹数据进行Embedding,在完成深入神经网络模型训练后,将Embedding层作为对象样本的Wi-Fi行为信息(即第一对象行为特征)。例如,对象样本A每天都固定连接2个Wi-Fi,对象样本B每天连接不同的Wi-Fi,从物理意义上解释对象样本A是出行规律稳定的对象群,对象样本B则是出行规律飘忽不定的对象群,由此能够通过前述方式得到对象样本A以及对象样本B所对应的不同的对象行为特征。
其次,对象识别装置还需要对第六兴趣度特征进行排序处理,得到第二对象行为特征。具体地,对象识别装置基于排序嵌入(List-Embedding)方式,对对象样本使用目标业务对应的不同软件的的流量使用行为序列进行Embedding提取,以获得低维稠密的对象行为特征(第二对象行为特征)。
基于此,对第一对象行为特征以及第二对象行为特征进行聚合处理,得到第七兴趣度特征集合。对象识别装置能够将第七兴趣度特征集合存储于HDFS,便于后续处理流程的快速访问。进一步地,由于第七兴趣度特征集合通过多个前述多次处理产生,特征的数据质量难以保证,故需要进行特征数据质量监控,因此还需要对第七兴趣度特征集合进行特征清洗、特征过滤以特征验证,即对象识别装置通过基于业务样本,对第七兴趣度特征集合进行处理,确定第一兴趣度特征集合以及第二兴趣度特征集合。
本申请实施例中,提供了另一种对象识别前对输入特征进行处理的方法,通过对第六兴趣度特征进行降维处理以及排序处理,得到更符合对象真实行为的对象行为特征,能够进一步地提升模型训练的准确度。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的目标对象识别方法一个可选实施例中,基于业务样本,对第七兴趣度特征集合进行处理,确定第一兴趣度特征集合以及第二兴趣度特征集合,具体包括:
基于业务样本确定预设策略;
基于预设策略,对第七兴趣度特征集合进行筛选,得到满足预设策略的特征以及不满足预设策略的特征;
对满足预设策略的特征进行平均值计算,得到特征平均值;
对不满足预设策略的特征进行缺失标记处理,得到缺失标记后的特征集合;
对特征平均值以及缺失标记后的特征集合进行拼接处理,确定第一兴趣度特征集合以及第二兴趣度特征集合。
本实施例中,通过前述实施例可知,由于第七兴趣度特征集合通过多个前述多次处理产生,特征的数据质量难以保证,故需要进行特征数据质量监控,因此还需要对第七兴趣度特征集合进行特征清洗、特征过滤以特征验证。对象识别装置具体基于业务样本确定预设策略,并且基于预设策略,对第七兴趣度特征集合进行筛选,得到满足预设策略的特征以及不满足预设策略的特征。具体地,对象识别装置基于业务样本的业务经验,确定预设策略,对第七兴趣度特征集合进行清洗、过滤以及验证,前述预设策略包括但不限于每天使用目标业务对应的应用软件的时长低于16小时等,以及,对象样本使用应用软件的时长大于24小时即为异常特征,基于此,再按照预设策略验证第七兴趣度特征集合,从第七兴趣度特征集合确定满足预设策略的特征以及不满足预设策略的特征,例如,每天使用目标业务对应的应用软件的时长低于16小时的特征为满足预设策略的特征,每天使用目标业务对应的应用软件的时长高于16小时的特征为不满足预设策略的特征,而对象样本使用应用软件的时长大于24小时的特征也为不满足预设策略的特征(具体为异常特征)。
进一步地,通过前述处理,拼接符合业务要求的特征,对不符合要求的特征进行缺失标记,最后实现入模特征拼接,即得到能够输入至待训练分类模型的第一兴趣度特征集合以及第二兴趣度特征集合。具体地,对象识别装置对满足预设策略的特征进行平均值计算,得到特征平均值,然后对不满足预设策略的特征进行缺失标记处理,得到缺失标记后的特征集合,最后对特征平均值以及缺失标记后的特征集合进行拼接处理,确定第一兴趣度特征集合以及第二兴趣度特征集合。
示例性地,若第七兴趣度特征集合中所包括的一组特征为(0.2,0.1,0.9,4,0),其中“4”为不满足预设策略的特征,而“0.2”、“0.1”、“0.9”以及“0”为满足预设策略的特征,先对满足预设策略的特征取平均值,即取“0.2”、“0.1”、“0.9”以及“0”的平均值,可以得到特征平均值为“0.4”。再对不满足预设策略的特征进行缺失标记处理,即对“4”进行缺失标记,也就是将“4”标记为“-1”,此时所得到一组特征为(0.2,0.1,0.9,-1,0),最后将“0.4填入进行标记“-1”的位置,从而得到(0.2,0.1,0.9,0.4,0)。对第七兴趣度特征集合中所包括的多组特征均进行前述处理,即可确定第一兴趣度特征集合以及第二兴趣度特征集合。
本申请实施例中,提供了另一种对象识别前对输入特征进行处理的方法,由于第七兴趣度特征集合是通过多次特征处理产生的,因此第七兴趣度特征集合中的特征的数据质量难以保证,基于业务样本对第七兴趣度特征集合中的特征的数据质量进行监控筛选,实现入模特征拼接,包括最后入模特征是无异常且可用的,由此提升模型训练的可靠性。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的目标对象识别方法一个可选实施例中,对特征平均值以及缺失标记后的特征集合进行拼接处理,确定第一兴趣度特征集合以及第二兴趣度特征集合,具体包括:
对特征平均值以及缺失标记后的特征集合进行拼接处理,得到拼接处理后的特征集合;
基于预设策略从拼接处理后的特征集合中确定第一兴趣度特征集合以及第二兴趣度特征集合。
本实施例中,对象识别装置具体对特征平均值以及缺失标记后的特征集合进行拼接处理,得到拼接处理后的特征集合,此时所得到拼接处理后的特征集合包括前述实施例所示例的(0.2,0.1,0.9,0.4,0)。此时所得到拼接处理后的特征集合并非入模特征,本方案还需要具体基于预设策略从拼接处理后的特征集合中确定第一兴趣度特征集合以及第二兴趣度特征集合。应理解,第一兴趣度特征集合以及第二兴趣度特征集合均属于拼接处理后的特征集合,而拼接处理后的特征集合为一个特征矩阵,因此本方案中的第一兴趣度特征集合以及第二兴趣度特征集合并不为两个独立的特征矩阵,而是将一个特征矩阵中特征点得分不同的特征进行区分。
具体地,通过前述实施例可知,特征点得分指示特征的重要程度,而特征点得分具体通过DeepLIFT算法得到,DeepLIFT算法是一种基于反向传播的特征打分算法,通过DeepLIFT算法可以得到拼接处理后的特征集合中,对后续兴趣点分类结果影响较大的重要特征,特征点得分越高重要程度越大,而特征点得分越低重要程度就较低,因此将拼接处理后的特征集合中特征点得分小于第一阈值的特征确定为第一兴趣度特征集合,即第一兴趣度特征集合中的特征的重要程度较低,而将拼接处理后的特征集合中特征点得分大于第一阈值的对象样本特征确定为第二兴趣度特征集合,即第二兴趣度特征集合中的特征的重要程度较高。应理解,前述第一阈值的取值是通过实验和/或基于大量数据的统计所确定的,此处不对第一阈值的取值进行具体限定。
本申请实施例中,提供了一种对象识别前对输入特征进行处理的方法,通过DeepLIFT算法对拼接处理后的特征集合中每个特征进行特征打分,以指示每个特征的重要程度,从而筛选出对后续兴趣点分类结果影响较大以及较小的特征,以便于对第一兴趣度特征集合进行加噪处理,从而提升本方案的可行性。
具体地,前述实施例对模型训练前如何进行特征处理的方式进行介绍,为进一步理解本方案,请参阅图7,图7为本申请实施例中特征处理的另一实施例示意图,如图7所示,对象识别装置先对针对于目标业务的对象样本集合C1进行特征化处理,得到对象样本特征集合C2,并且对针对于目标业务的业务样本集合C3进行特征化处理,得到业务样本特征集合C4。基于此,对象识别装置再基于多个预设时间周期,对对象样本特征集合C2以及业务样本特征集合C4进行聚合处理,获取第五兴趣度特征集合C5,再对第五兴趣度特征集合C5进行包括归一化特征处理以及离散化特征处理中至少一种的特征处理,以得到第六兴趣度特征C6。
进一步地,对象识别装置对第六兴趣度特征C6进行降维处理,得到第一对象行为特征C7,并且对第六兴趣度特征C6进行排序处理,得到第二对象行为特征C8,然后再对第一对象行为特征C7以及第二对象行为特征C8进行聚合处理,得到第七兴趣度特征集合C9。进而,对象识别装置基于业务样本确定预设策略,并基于预设策略,对第七兴趣度特征集合C9进行筛选,得到满足预设策略的特征以及不满足预设策略的特征,对第七兴趣度特征集合C9中满足预设策略的特征进行平均值计算,得到特征平均值C10,对第七兴趣度特征集合C9中不满足预设策略的特征进行缺失标记处理,得到缺失标记后的特征集合C11。
最后,对特征平均值C10以及缺失标记后的特征集合C11进行拼接处理,得到拼接处理后的特征集合C12,此时对象识别装置根据前述实施例所介绍的方法,在拼接处理后的特征集合C12中第一兴趣度特征集合以及第二兴趣度特征集合,并且对包括特征点得分小于第一阈值的P个对象样本特征的第一兴趣度特征集合进行加噪处理,得到第一加噪特征集合,此时特征集合中包括第一加噪特征集合以及包括特征点得分大于第一阈值的Q个对象样本特征的第二兴趣度特征集合。进一步地,在第二兴趣度特征集合和第一加噪特征集合组成的特征集合中确定第三兴趣度特征集合以及第四兴趣度特征集合,且第三兴趣度特征集合中对象样本特征之间的关联度小于第二阈值,第四兴趣度特征集合中对象样本特征之间的关联度大于第二阈值。再进一步地对第三兴趣度特征集合进行加噪处理,得到第二加噪特征集合,最后将经过前述两次加噪处理后得到的特征集合输入至待训练分类模型C13。应理解,图7为便于理解本方案如何在具体在模型训练前进行输入特征的处理,而不应理解为本方案的限定。
应理解,通过图2可知,在对象识别过程中包括特征处理的步骤,具体特征处理的方法包括图6所示出的在模型中对特征进行加扰的方法,以及图7所示出的在模型训练前进行特征处理的方法,本实施例中未将图6以及图7一起进行介绍,但不应该理解为本方案的限定。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的目标对象识别方法一个可选实施例中,目标对象识别方法还包括:
基于拼接处理后的特征集合通过多个待选择分类模型获取每个待选择分类模型的N个对象样本对应的兴趣点分类结果,其中,多个待选择分类模型分别为不同类型的模型;
基于每个待选择分类模型的N个对象样本对应的兴趣点分类结果与N个对象样本对应的兴趣度标签,分别对多个待选择分类模型进行训练,以得到多个分类模型;
从多个分类模型中确定待训练分类模型。
本实施例中,对象识别模块还能够基于拼接处理后的特征集合通过多个待选择分类模型获取每个待选择分类模型的N个对象样本对应的兴趣点分类结果,此时多个待选择分类模型分别为不同类型的模型,然后基于每个待选择分类模型的N个对象样本对应的兴趣点分类结果与N个对象样本对应的兴趣度标签,分别对多个待选择分类模型进行训练,以得到多个分类模型,最后从多个分类模型中确定待训练分类模型。具体地,本申请实施例中训练集和验证集的比例为5:1,训练集和验证集的比例不应理解为本申请的限定。然后基于默认参数,并行训练多个待选择分类模型,以得到多个分类模型,模型评价指标AUC从多个分类模型中选出效果最好的模型,并且将效果最好的分类模型确定为待训练分类模型。即分类模型所对应的模型评价指标AUC值越大,当前分类模型越有可能将正样本排在负样本前面,得到更好的分类结果,应理解,由于模型评价指标AUC本身和模型预测的绝对值无关,只关注排序效果,更加贴近实际业务的需要,且模型评价指标AUC的计算方法同时考虑了分类模型对于正例和负例的分类能力,在样本不平衡的情况下,依然能够对分类模型做出合理的评价。其次,本申请实施例中多类模型包括但不限于SVM、CNN、RALM以及DCN等,且以待训练分类模型为DCN作为示例进行后续介绍。
为了便于理解,以多个待选择分类模型的类型包括SVM、CNN以及DCN作为示例进行说明,请参阅图8,图8为本申请实施例中确定待训练分类模型的一个实施例示意图,如图8所示,D1指的是拼接处理后的特征集合,D2指的是待选择支持向量机,D3指的是待选择卷积神经网络,D4指的是待选择深度特征交叉网络。基于此,图8中(A)图,将拼接处理后的特征集合D1输入至待选择支持向量机D2,能够得到待选择支持向量机D2输出的N个对象样本对应的兴趣点分类结果A,然后基于N个对象样本对应的兴趣点分类结果A与N个对象样本对应的兴趣度标签对待选择支持向量机D2进行训练,以得到图8中(B)图所示出的支持向量机D5。
同理可得,图8中(A)图,将拼接处理后的特征集合D1输入至待选择卷积神经网络D3,能够得到待选择卷积神经网络D3输出的N个对象样本对应的兴趣点分类结果B,然后基于N个对象样本对应的兴趣点分类结果B与N个对象样本对应的兴趣度标签对待选择卷积神经网络D3进行训练,以得到图8中(B)图所示出的卷积神经网络D6。其次,图8中(A)图,将拼接处理后的特征集合D1输入至待选择深度特征交叉网络D4,能够得到待选择深度特征交叉网络D4输出的N个对象样本对应的兴趣点分类结果C,然后基于N个对象样本对应的兴趣点分类结果C与N个对象样本对应的兴趣度标签对待选择深度特征交叉网络D4进行训练,以得到图8中(B)图所示出的深度特征交叉网络D7。
在图8中(B)图中,对支持向量机D5,卷积神经网络D6以及深度特征交叉网络D7进行模型评价指标AUC值的计算,并且将所得到的模型评价指标AUC值分数最大的分类模型确定为本申请实施例中所介绍的待训练分类模型D8。
进一步地,下面对DCN进行详细介绍,请参阅图9,图9为本申请实施例中深度特征交叉网络的一个结构示意图,如图9所示,将对象样本集合以及业务样本集合作为嵌入和堆叠层E1的输入,为嵌入和堆叠层E1通过前述实施例所介绍的方法输出加噪后得到的第四兴趣度特征集合以及第二加噪特征集合,并且将第四兴趣度特征集合以及第二加噪特征集合作为交叉网络(Cross Network)E2以及深度网络(Deep Network)E3的共同输入。
其中,交叉网络E2的核心思想是以有效的方式应用显式特征交叉,交叉网络E2由多个交叉层组成(即交叉层E21、交叉层E22、交叉层E23以及更多交叉层),每个交叉层具有如以下公式:
Figure 552410DEST_PATH_IMAGE001
;(1)
其中, XL+1为第L+1个交叉层的输出,XL为第L个交叉层的输出,bL以及WL为第L个交叉层与第L+1个交叉层之间的连接参数。
应理解,公式(1)中所有的变量均是列向量,并非矩阵。每一个交叉层的输出,都是上一个交叉层的输出加上
Figure 709DEST_PATH_IMAGE002
。而
Figure 62337DEST_PATH_IMAGE003
就是在拟合该层输出和上一层输出的残差。而交叉网络E2的的总参数量非常少,因此交叉网络E2引入的复杂度微不足道,每一层的维度也都保持一致,最后的输出依然与输入维度相等,因此交叉网络的少数参数限制了模型容量,在为了捕捉高度非线性的相互作用,DCN并行地引入了深度网络E3。
其次,深度网络E3就是一个全连接的前馈神经网络,深度网络E3由多个深度层组成(即深度层E31、深度层E32、深度层E33以及更多深度层),每个深度层具有如以下公式:
Figure 723126DEST_PATH_IMAGE004
;(2)
其中,HL+1为第L+1个深度层的输出,HL为第L个深度层的输出,bL以及WL为第L个深度层与第L+1个深度层之间的连接参数。
组合层(Combination Layer)E4将交叉网络E2以及深度网络E3的共同输入的输出拼接起来,然后经过一个加权求和后得到初始预测概率(logits),初始预测概率经过sigmoid函数得到N个对象样本对应的兴趣点分类结果(即预测概率)。
本申请实施例中,提供了一种对象识别中进行模型筛选的方法,通过对多种类型的待选择分类模型所得到分类模型进行筛选,由于模型评价指标AUC本身和模型预测的绝对值无关,只关注排序效果,更加贴近目标业务的叶修,且模型评价指标AUC的计算方法同时考虑了分类模型对于正例和负例的分类能力,在样本不平衡的情况下,依然能够对分类模型做出合理的评价,从而使得所选择的待训练分类模型能够得到更好的训练结果,从而提升本方案模型训练的可靠性以及准确性。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的目标对象识别方法一个可选实施例中,目标对象识别方法还包括:
基于N个对象样本对应的兴趣点分类结果与N个对象样本对应的兴趣度标签,根据目标损失函数更新待训练分类模型的模型参数,得到目标分类模型,其中,目标损失函数是进行加噪处理后得到的。
本实施例中,对象识别模块还能够基于N个对象样本对应的兴趣点分类结果与N个对象样本对应的兴趣度标签,根据目标损失函数更新待训练分类模型的模型参数,得到目标分类模型,此时目标损失函数是进行加噪处理后得到的。具体地,在模型训练过程中进行第三次差分保护,具体针对目标损失函数而非预测结果进行加噪,然后利用待训练分类模型在前向和反馈传播中的参数自适应,尽量矫正由噪声添加带来的最优解或次优解的偏差。
具体地,对象识别装置将N个对象样本对应的兴趣点分类结果作为目标进行迭代训练,即根据N个对象样本对应的兴趣点分类结果以及N个对象样本对应的兴趣度标签之间的差异确定目标损失函数的损失值,根据目标损失函数的损失值判断损失函数是否达到收敛条件,若未达到收敛条件,则利用目标损失函数的损失值更新待训练分类模型的模型参数。
其次,前述目标损失函数的收敛条件可以为损失函数的值小于或等于第一损失函数预设阈值,作为示例,例如第一损失函数预设阈值的取值可以为0.005、0.01、0.02或其它趋近于0的数值。也可以为目标损失函数的相邻两次的值的差值小于或等于第二损失函数预设阈值,第二损失函数预设阈值的取值可以与第一损失函数预设阈值的取值相同或不同,作为示例,例如第二损失函数预设阈值的取值可以为0.005、0.01、0.02或其它趋近于0的数值等,还可以采用其它收敛条件等,此处不做限定。应理解,在实际应用中,目标损失函数还可以为均方差损失函数、排序损失(ranking loss)函数以及焦点损失(focal loss)函数等,具体此处不做限定。
本申请实施例中,提供了另一种目标对象识别方法,针对目标损失函数而非预测结果进行加噪,然后利用待训练分类模型在前向和反馈传播中的参数自适应,矫正由噪声添加带来的最优解或次优解的偏差,由此提升所得到的目标分类模型的可靠性,以及提升该目标分类模型输出结果的准确性。
下面对本申请中的对象识别装置进行详细描述,请参阅图10,图10为本申请实施例中对象识别装置一个实施例示意图,如图所示,对象识别装置900包括:
获取模块901,用于获取针对于目标业务的目标对象,其中,目标对象包括目标对象基础属性信息、目标设备基础属性信息以及目标网络连接属性信息中的至少一种;
处理模块902,用于对目标对象进行特征化处理,得到目标对象特征,其中,目标对象特征与目标对象具有对应关系;
确定模块903,还用于基于目标对象特征,进行特征处理后确定第一兴趣度特征以及第二兴趣度特征,其中,第一兴趣度特征的特征点得分小于第一阈值,第二兴趣度特征的特征点得分大于第一阈值,特征点得分指示特征的重要程度;
处理模块902,还用于对第一兴趣度特征进行加噪处理,得到第一加噪特征;
获取模块901,还用于基于第二兴趣度特征和第一加噪特征,通过目标分类模型获取目标对象对应的兴趣点分类结果;
确定模块903,还用于根据目标对象对应的兴趣点分类结果确定目标对象的兴趣度标签。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的对象识别装置900的另一实施例中,获取模块901,还用于获取针对于目标业务的业务样本集合;
处理模块902,还用于对业务样本集合进行特征化处理,得到业务样本特征集合;
确定模块903,具体用于基于目标对象特征以及业务样本特征集合,进行特征处理后确定第一兴趣度特征以及第二兴趣度特征。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的对象识别装置900的另一实施例中,获取模块901,具体用于基于第二兴趣度特征和第一加噪特征,进行特征处理后确定第三兴趣度特征以及第四兴趣度特征,其中,第三兴趣度特征与另一特征之间的关联度小于第二阈值,第四兴趣度特征与另一特征之间的关联度大于第二阈值;
对第三兴趣度特征进行加噪处理,得到第二加噪特征;
基于第四兴趣度特征和第二加噪特征,通过目标分类模型获取目标对象对应的兴趣点分类结果。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的对象识别装置900的另一实施例中,对象识别装置900还包括训练模块904;
获取模块901,还用于获取针对于目标业务的对象样本集合,其中,对象样本集合包括N个对象样本,每个对象样本对应于一个兴趣度标签,每个对象样本包括对象基础属性信息、设备基础属性信息以及网络连接属性信息中的至少一种;
处理模块902,还用于对对象样本集合进行特征化处理,得到对象样本特征集合,其中,对象样本特征集合包括N个对象样本特征,对象样本特征与对象样本具有对应关系;
确定模块903,还用于基于对象样本特征集合,确定第一兴趣度特征集合以及第二兴趣度特征集合,其中,第一兴趣度特征集合包括特征点得分小于第一阈值的P组对象样本特征,第二兴趣度特征集合包括特征点得分大于第一阈值的Q组对象样本特征,特征点得分指示特征的重要程度,P和Q为大于或等于1的整数;
处理模块903,还用于对第一兴趣度特征集合进行加噪处理,得到第一加噪特征集合;
获取模块901,还用于基于第二兴趣度特征集合和第一加噪特征集合,通过待训练分类模型获取N个对象样本对应的兴趣点分类结果;
训练模块904,用于根据N个对象样本对应的兴趣点分类结果以及N个对象样本对应的兴趣度标签,对待训练分类模型进行训练。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的对象识别装置900的另一实施例中,获取模块901,还用于获取针对于目标业务的业务样本集合;
处理模块902,还用于对业务样本集合进行特征化处理,得到业务样本特征集合;
确定模块903,具体用于基于对象样本特征集合以及业务样本特征集合,确定第一兴趣度特征集合以及第二兴趣度特征集合。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的对象识别装置900的另一实施例中,获取模块901,具体用于基于第二兴趣度特征集合和第一加噪特征集合,确定第三兴趣度特征集合以及第四兴趣度特征集合,其中,第三兴趣度特征集合中对象样本特征之间的关联度小于第二阈值,第四兴趣度特征集合中对象样本特征之间的关联度大于第二阈值;
对第三兴趣度特征集合进行加噪处理,得到第二加噪特征集合;
基于第四兴趣度特征集合和第二加噪特征集合,通过待训练分类模型获取N个对象样本对应的兴趣点分类结果。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的对象识别装置900的另一实施例中,获取模块901,具体用于获取针对于目标业务的初始对象样本集合;
基于目标业务确定预设阈值范围;
基于预设阈值范围,从目标业务的初始对象样本集合中确定N个对象样本。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的对象识别装置900的另一实施例中,确定模块903,具体用于基于多个预设时间周期,对对象样本特征集合以及业务样本特征集合进行聚合处理,获取第五兴趣度特征集合;
对第五兴趣度特征集合进行特征处理,得到第六兴趣度特征,其中,特征处理包括归一化特征处理以及离散化特征处理中至少一种;
基于第六兴趣度特征确定第一兴趣度特征集合以及第二兴趣度特征集合。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的对象识别装置900的另一实施例中,确定模块903,具体用于对第六兴趣度特征进行降维处理,得到第一对象行为特征;
对第六兴趣度特征进行排序处理,得到第二对象行为特征;
对第一对象行为特征以及第二对象行为特征进行聚合处理,得到第七兴趣度特征集合;
基于业务样本,对第七兴趣度特征集合进行处理,确定第一兴趣度特征集合以及第二兴趣度特征集合。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的对象识别装置900的另一实施例中,确定模块903,具体用于基于业务样本确定预设策略;
基于预设策略,对第七兴趣度特征集合进行筛选,得到满足预设策略的特征以及不满足预设策略的特征;
对满足预设策略的特征进行平均值计算,得到特征平均值;
对不满足预设策略的特征进行缺失标记处理,得到缺失标记后的特征集合;
对特征平均值以及缺失标记后的特征集合进行拼接处理,确定第一兴趣度特征集合以及第二兴趣度特征集合。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的对象识别装置900的另一实施例中,确定模块903,具体用于对特征平均值以及缺失标记后的特征集合进行拼接处理,得到拼接处理后的特征集合;
基于预设策略从拼接处理后的特征集合中确定第一兴趣度特征集合以及第二兴趣度特征集合。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的对象识别装置900的另一实施例中,获取模块901,还用于基于拼接处理后的特征集合通过多个待选择分类模型获取每个待选择分类模型的N个对象样本对应的兴趣点分类结果,其中,多个待选择分类模型分别为不同类型的模型;
训练模块904,还用于基于每个待选择分类模型的N个对象样本对应的兴趣点分类结果与N个对象样本对应的兴趣度标签,分别对多个待选择分类模型进行训练,以得到多个分类模型;
确定模块903,还用于从多个分类模型中确定待训练分类模型;
训练模块904,还用于基于N个对象样本对应的兴趣点分类结果与N个对象样本对应的兴趣度标签,根据目标损失函数更新待训练分类模型的模型参数,得到目标分类模型。
本申请实施例还提供了另一种对象识别装置,对象识别装置都可以部署于服务器,也可以部署于终端设备,本申请中以对象识别装置部署于服务器为例进行说明,请参阅图11,图11为本申请实施例中服务器一个实施例示意图,如图所示,该服务器1000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)1022(例如,一个或一个以上处理器)和存储器1032,一个或一个以上存储应用程序1042或数据1044的存储介质1030(例如一个或一个以上海量存储设备)。其中,存储器1032和存储介质1030可以是短暂存储或持久存储。存储在存储介质1030的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1022可以设置为与存储介质1030通信,在服务器1000上执行存储介质1030中的一系列指令操作。
服务器1000还可以包括一个或一个以上电源1026,一个或一个以上有线或无线网络接口1050,一个或一个以上输入输出接口1058,和/或,一个或一个以上操作系统1041,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图11所示的服务器结构。
该服务器所包括的CPU 1022用于执行如图3所示实施例以及图3对应的各个实施例。
本申请还提供了一种终端设备,用于执行图3所示实施例以及图3对应的各个实施例中对象识别装置执行的步骤。如图11所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。以终端设备为手机为例进行说明:
图12示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图12,手机包括:射频(Radio Frequency,RF)电路1110、存储器1120、输入单元1130、显示单元1140、传感器1150、音频电路1160、无线保真(wireless fidelity,WiFi)模块1170、处理器1180、以及电源1190等部件。本领域技术人员可以理解,图12中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图12对手机的各个构成部件进行具体的介绍:
RF电路1110可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1180处理;另外,将设计上行的数据发送给基站。通常,RF电路1110包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,LNA)、双工器等。此外,RF电路1110还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(Global System of Mobile communication,GSM)、通用分组无线服务(General PacketRadio Service,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进 (Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
存储器1120可用于存储软件程序以及模块,处理器1180通过运行存储在存储器1120的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1120可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1130可用于接收输入的数字或字符信息,以及产生与手机的对象设置以及功能控制有关的键信号输入。具体地,输入单元1130可包括触控面板1131以及其他输入设备1132。触控面板1131,也称为触摸屏,可收集对象在其上或附近的触摸操作(比如对象使用手指、触笔等任何适合的物体或附件在触控面板1131上或在触控面板1131附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1131可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测对象的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1180,并能接收处理器1180发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1131。除了触控面板1131,输入单元1130还可以包括其他输入设备1132。具体地,其他输入设备1132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1140可用于显示由对象输入的信息或提供给对象的信息以及手机的各种菜单。显示单元1140可包括显示面板1141,可选的,可以采用液晶显示器(LiquidCrystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1141。进一步的,触控面板1131可覆盖显示面板1141,当触控面板1131检测到在其上或附近的触摸操作后,传送给处理器1180以确定触摸事件的类型,随后处理器1180根据触摸事件的类型在显示面板1141上提供相应的视觉输出。虽然在图12中,触控面板1131与显示面板1141是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1131与显示面板1141集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1150,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1141的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1141和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,此处不做赘述。
音频电路1160、扬声器1161,传声器1162可提供对象与手机之间的音频接口。音频电路1160可将接收到的音频数据转换后的电信号,传输到扬声器1161,由扬声器1161转换为声音信号输出;另一方面,传声器1162将收集的声音信号转换为电信号,由音频电路1160接收后转换为音频数据,再将音频数据输出处理器1180处理后,经RF电路1110以发送给比如另一手机,或者将音频数据输出至存储器1120以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1170可以帮助对象收发电子邮件、浏览网页和访问流式媒体等,它为对象提供了无线的宽带互联网访问。虽然图12示出了WiFi模块1170,但是可以理解的是,其并不属于手机的必须构成。
处理器1180是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1120内的软件程序和/或模块,以及调用存储在存储器1120内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1180可包括一个或多个处理单元;优选的,处理器1180可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、对象界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1180中。
手机还包括给各个部件供电的电源1190(比如电池),优选的,电源可以通过电源管理系统与处理器1180逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,此处不做赘述。
在本申请实施例中,该终端所包括的处理器1180用于执行如图3所示实施例以及图3对应的各个实施例。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如前述图3所示实施例描述的方法以及图3对应的各个描述的方法中对象识别装置所执行的步骤。
本申请实施例中还提供一种包括程序的计算机程序产品,当其在计算机上运行时,使得计算机执行如前述图3所示实施例描述的方法中对象识别装置所执行的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (15)

1.一种目标对象识别方法,其特征在于,包括:
获取针对于目标业务的目标对象,其中,所述目标对象包括目标对象基础属性信息、目标设备基础属性信息以及目标网络连接属性信息中的至少一种;
对所述目标对象进行特征化处理,得到目标对象特征,其中,所述目标对象特征与所述目标对象具有对应关系;
基于所述目标对象特征,进行特征处理后确定第一兴趣度特征以及第二兴趣度特征,其中,所述第一兴趣度特征的特征点得分小于第一阈值,所述第二兴趣度特征的特征点得分大于所述第一阈值,所述特征点得分指示所述特征的重要程度;
对所述第一兴趣度特征进行加噪处理,得到第一加噪特征;
基于所述第二兴趣度特征和所述第一加噪特征,通过目标分类模型获取目标对象对应的兴趣点分类结果;
根据所述目标对象对应的兴趣点分类结果确定所述目标对象的兴趣度标签。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取针对于所述目标业务的业务样本集合;
对所述业务样本集合进行特征化处理,得到业务样本特征集合;
所述基于所述目标对象特征,进行特征处理后确定第一兴趣度特征以及第二兴趣度特征,包括:
基于所述目标对象特征以及所述业务样本特征集合,进行特征处理后确定所述第一兴趣度特征以及所述第二兴趣度特征。
3.根据权利要求1所述的方法,其特征在于,所述基于所述第二兴趣度特征和所述第一加噪特征,通过目标分类模型获取目标对象对应的兴趣点分类结果,包括:
基于所述第二兴趣度特征和所述第一加噪特征,进行特征处理后确定第三兴趣度特征以及第四兴趣度特征,其中,所述第三兴趣度特征与另一特征之间的关联度小于第二阈值,所述第四兴趣度特征与另一特征之间的关联度大于所述第二阈值;
对所述第三兴趣度特征进行加噪处理,得到第二加噪特征;
基于所述第四兴趣度特征和所述第二加噪特征,通过所述目标分类模型获取所述目标对象对应的兴趣点分类结果。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:
获取针对于所述目标业务的对象样本集合,其中,所述对象样本集合包括N个对象样本,每个对象样本对应于一个兴趣度标签,所述每个对象样本包括对象基础属性信息、设备基础属性信息以及网络连接属性信息中的至少一种;
对所述对象样本集合进行特征化处理,得到对象样本特征集合,其中,所述对象样本特征集合包括N个对象样本特征,所述对象样本特征与所述对象样本具有对应关系;
基于所述对象样本特征集合,确定第一兴趣度特征集合以及第二兴趣度特征集合,其中,所述第一兴趣度特征集合包括特征点得分小于第一阈值的P个对象样本特征,所述第二兴趣度特征集合包括所述特征点得分大于所述第一阈值的Q个对象样本特征,所述P和Q为大于或等于1的整数;
对所述第一兴趣度特征集合进行加噪处理,得到第一加噪特征集合;
基于所述第二兴趣度特征集合和所述第一加噪特征集合,通过待训练分类模型获取N个对象样本对应的兴趣点分类结果;
根据所述N个对象样本对应的兴趣点分类结果以及N个对象样本对应的兴趣度标签,对待训练分类模型进行训练。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取针对于所述目标业务的业务样本集合;
对所述业务样本集合进行特征化处理,得到业务样本特征集合;
所述基于所述对象样本特征集合,确定第一兴趣度特征集合以及第二兴趣度特征集合,包括:
基于所述对象样本特征集合以及所述业务样本特征集合,确定所述第一兴趣度特征集合以及所述第二兴趣度特征集合。
6.根据权利要求4所述的方法,其特征在于,所述基于所述第二兴趣度特征集合和所述第一加噪特征集合,通过待训练分类模型获取N个对象样本对应的兴趣点分类结果,包括:
基于所述第二兴趣度特征集合和所述第一加噪特征集合,确定第三兴趣度特征集合以及第四兴趣度特征集合,其中,所述第三兴趣度特征集合中对象样本特征之间的关联度小于第二阈值,所述第四兴趣度特征集合中对象样本特征之间的关联度大于所述第二阈值;
对所述第三兴趣度特征集合进行加噪处理,得到第二加噪特征集合;
基于所述第四兴趣度特征集合和所述第二加噪特征集合,通过待训练分类模型获取所述N个对象样本对应的兴趣点分类结果。
7.根据权利要求4所述的方法,其特征在于,所述获取针对于目标业务的对象样本集合,包括:
获取针对于所述目标业务的初始对象样本集合;
基于所述目标业务确定预设阈值范围;
基于所述预设阈值范围,从所述目标业务的初始对象样本集合中确定所述N个对象样本。
8.根据权利要求5所述的方法,其特征在于,所述基于所述对象样本特征集合以及所述业务样本特征集合,确定所述第一兴趣度特征集合以及所述第二兴趣度特征集合,包括:
基于多个预设时间周期,对所述对象样本特征集合以及所述业务样本特征集合进行聚合处理,获取第五兴趣度特征集合;
对所述第五兴趣度特征集合进行特征处理,得到第六兴趣度特征,其中,所述特征处理包括归一化特征处理以及离散化特征处理中至少一种;
基于所述第六兴趣度特征确定所述第一兴趣度特征集合以及所述第二兴趣度特征集合。
9.根据权利要求8所述的方法,其特征在于,所述基于所述第六兴趣度特征确定所述第一兴趣度特征集合以及所述第二兴趣度特征集合,包括:
对所述第六兴趣度特征进行降维处理,得到第一对象行为特征;
对所述第六兴趣度特征进行排序处理,得到第二对象行为特征;
对所述第一对象行为特征以及所述第二对象行为特征进行聚合处理,得到第七兴趣度特征集合;
基于所述业务样本,对所述第七兴趣度特征集合进行处理,确定所述第一兴趣度特征集合以及所述第二兴趣度特征集合。
10.根据权利要求9所述的方法,其特征在于,所述基于所述业务样本,对所述第七兴趣度特征集合进行处理,确定所述第一兴趣度特征集合以及所述第二兴趣度特征集合,包括:
基于所述业务样本确定预设策略;
基于所述预设策略,对所述第七兴趣度特征集合进行筛选,得到满足所述预设策略的特征以及不满足所述预设策略的特征;
对所述满足所述预设策略的特征进行平均值计算,得到特征平均值;
对所述不满足所述预设策略的特征进行缺失标记处理,得到缺失标记后的特征集合;
对所述特征平均值以及所述缺失标记后的特征集合进行拼接处理,确定所述第一兴趣度特征集合以及所述第二兴趣度特征集合。
11.根据权利要求10所述的方法,其特征在于,所述对所述特征平均值以及所述缺失标记后的特征集合进行拼接处理,确定所述第一兴趣度特征集合以及所述第二兴趣度特征集合,包括:
对特征平均值以及所述缺失标记后的特征集合进行拼接处理,得到拼接处理后的特征集合;
基于预设策略从所述拼接处理后的特征集合中确定所述第一兴趣度特征集合以及所述第二兴趣度特征集合。
12.根据权利要求11所述的方法,其特征在于,所述方法还包括:
基于所述拼接处理后的特征集合通过多个待选择分类模型获取每个待选择分类模型的N个对象样本对应的兴趣点分类结果,其中,所述多个待选择分类模型分别为不同类型的模型;
基于每个待选择分类模型的N个对象样本对应的兴趣点分类结果与所述N个对象样本对应的兴趣度标签,分别对所述多个待选择分类模型进行训练,以得到多个分类模型;
从所述多个分类模型中确定所述待训练分类模型;
基于所述N个对象样本对应的兴趣点分类结果与所述N个对象样本对应的兴趣度标签,根据所述目标损失函数更新所述待训练分类模型的模型参数,得到所述目标分类模型。
13.一种对象识别装置,其特征在于,所述对象识别装置包括:
获取模块,用于获取针对于目标业务的目标对象,其中,所述目标对象包括目标对象基础属性信息、目标设备基础属性信息以及目标网络连接属性信息中的至少一种;
处理模块,用于对所述目标对象进行特征化处理,得到目标对象特征,其中,所述目标对象特征与所述目标对象具有对应关系;
所述处理模块,还用于基于所述目标对象特征,进行特征处理后确定第一兴趣度特征以及第二兴趣度特征,其中,所述第一兴趣度特征的特征点得分小于第一阈值,所述第二兴趣度特征的特征点得分大于所述第一阈值,所述特征点得分指示所述特征的重要程度;
所述处理模块,还用于对所述第一兴趣度特征进行加噪处理,得到第一加噪特征;
所述获取模块,还用于基于所述第二兴趣度特征和所述第一加噪特征,通过目标分类模型获取目标对象对应的兴趣点分类结果;
所述处理模块,还用于根据所述目标对象对应的兴趣点分类结果确定所述目标对象的兴趣度标签。
14.一种计算机设备,其特征在于,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,以实现权利要求1至12中任一项所述的方法;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
15.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至12中任一项所述的方法。
CN202110957849.8A 2021-08-19 2021-08-19 目标对象识别方法、装置、计算机设备及存储介质 Active CN113409096B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110957849.8A CN113409096B (zh) 2021-08-19 2021-08-19 目标对象识别方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110957849.8A CN113409096B (zh) 2021-08-19 2021-08-19 目标对象识别方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN113409096A true CN113409096A (zh) 2021-09-17
CN113409096B CN113409096B (zh) 2021-11-16

Family

ID=77688947

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110957849.8A Active CN113409096B (zh) 2021-08-19 2021-08-19 目标对象识别方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113409096B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114564522A (zh) * 2022-03-08 2022-05-31 哈尔滨腾达网络科技发展有限公司 基于区块链和大数据挖掘的智能推送处理方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180150728A1 (en) * 2016-11-28 2018-05-31 D-Wave Systems Inc. Machine learning systems and methods for training with noisy labels
EP3361428A1 (en) * 2017-02-10 2018-08-15 Fujitsu Limited Asset location identification system, program and method
CN108427891A (zh) * 2018-03-12 2018-08-21 南京理工大学 基于差分隐私保护的邻域推荐方法
CN110288465A (zh) * 2019-06-19 2019-09-27 北京明略软件系统有限公司 对象确定方法及装置、存储介质、电子装置
CN110457576A (zh) * 2019-07-08 2019-11-15 深圳壹账通智能科技有限公司 账户分类方法、装置、计算机设备和存储介质
CN111292168A (zh) * 2020-02-06 2020-06-16 腾讯科技(深圳)有限公司 数据处理方法、装置及设备
CN112559593A (zh) * 2020-12-14 2021-03-26 长安大学 一种基于标签聚类的本地化差分隐私保护方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180150728A1 (en) * 2016-11-28 2018-05-31 D-Wave Systems Inc. Machine learning systems and methods for training with noisy labels
EP3361428A1 (en) * 2017-02-10 2018-08-15 Fujitsu Limited Asset location identification system, program and method
CN108427891A (zh) * 2018-03-12 2018-08-21 南京理工大学 基于差分隐私保护的邻域推荐方法
CN110288465A (zh) * 2019-06-19 2019-09-27 北京明略软件系统有限公司 对象确定方法及装置、存储介质、电子装置
CN110457576A (zh) * 2019-07-08 2019-11-15 深圳壹账通智能科技有限公司 账户分类方法、装置、计算机设备和存储介质
CN111292168A (zh) * 2020-02-06 2020-06-16 腾讯科技(深圳)有限公司 数据处理方法、装置及设备
CN112559593A (zh) * 2020-12-14 2021-03-26 长安大学 一种基于标签聚类的本地化差分隐私保护方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114564522A (zh) * 2022-03-08 2022-05-31 哈尔滨腾达网络科技发展有限公司 基于区块链和大数据挖掘的智能推送处理方法及系统

Also Published As

Publication number Publication date
CN113409096B (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
CN108280458B (zh) 群体关系类型识别方法及装置
WO2019144892A1 (zh) 数据处理方法、装置、存储介质和电子装置
CN111914113B (zh) 一种图像检索的方法以及相关装置
CN112231584B (zh) 基于小样本迁移学习的数据推送方法、装置及计算机设备
CN111143697B (zh) 一种内容推荐的方法以及相关装置
CN111898675B (zh) 信贷风控模型生成方法、装置、评分卡生成方法、机器可读介质及设备
WO2021120875A1 (zh) 搜索方法、装置、终端设备及存储介质
CN111311030B (zh) 基于影响因素检测的用户信用风险预测方法及装置
CN113190757A (zh) 多媒体资源推荐方法、装置、电子设备及存储介质
CN111709398A (zh) 一种图像识别的方法、图像识别模型的训练方法及装置
CN113298121B (zh) 基于多数据源建模的消息发送方法、装置和电子设备
CN113139052B (zh) 基于图神经网络特征聚合的谣言检测方法及装置
CN113723378B (zh) 一种模型训练的方法、装置、计算机设备和存储介质
CN112995414A (zh) 基于语音通话的行为质检方法、装置、设备及存储介质
CN115062732A (zh) 基于大数据用户标签信息的资源共享合作推荐方法及系统
CN115392405A (zh) 模型训练方法、相关装置及存储介质
CN115545103A (zh) 异常数据识别、标签识别方法和异常数据识别装置
CN117795527A (zh) 使用自回归语言模型神经网络评估输出序列
CN113409096B (zh) 目标对象识别方法、装置、计算机设备及存储介质
CN115034379A (zh) 一种因果关系确定方法及相关设备
CN115080840A (zh) 一种内容推送方法、装置及存储介质
CN117235371A (zh) 视频推荐方法、模型训练方法及装置
CN107122464A (zh) 一种辅助决策系统及方法
CN109600627B (zh) 一种视频识别方法和装置
EP4398128A1 (en) Recommendation method and related device

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40051723

Country of ref document: HK