CN114529008A - 信息推荐方法、对象识别方法及装置 - Google Patents

信息推荐方法、对象识别方法及装置 Download PDF

Info

Publication number
CN114529008A
CN114529008A CN202111652897.2A CN202111652897A CN114529008A CN 114529008 A CN114529008 A CN 114529008A CN 202111652897 A CN202111652897 A CN 202111652897A CN 114529008 A CN114529008 A CN 114529008A
Authority
CN
China
Prior art keywords
sample
target
samples
original
labels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111652897.2A
Other languages
English (en)
Inventor
金留可
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202111652897.2A priority Critical patent/CN114529008A/zh
Publication of CN114529008A publication Critical patent/CN114529008A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本公开关于一种信息推荐方法、对象识别方法及装置,所述信息推荐方法包括:获取目标对象的对象属性信息;将所述对象属性信息输入到对象识别模型进行标签识别,得到所述目标对象的识别标签;所述对象识别模型基于多个样本标签对应的目标样本进行训练得到;所述目标样本基于所述多个样本标签对应的原始样本的样本平衡数据,以目标采样方式对所述原始样本进行采样得到;所述样本平衡数据用于表征所述多个样本标签各自对应的样本数量的统计特征信息;向所述目标对象推荐与所述识别标签对应的待推荐信息。本公开能够提高对象识别模型的泛化能力,以及标签识别的准确性,从而提高了信息推荐的准确性。

Description

信息推荐方法、对象识别方法及装置
技术领域
本公开涉及机器学习技术领域,尤其涉及一种信息推荐方法、对象识别方法及装置。
背景技术
随着机器学习的技术在电商领域的应用越来越广泛,利用模型准确识别出用户在平台的首次购买偏好也是一个比较重要的落地业务场景之一。然而,由于偏好的类目众多,样本失衡问题作为有监督学习过程中比较常见的问题,给模型的训练也带来了比较大的挑战。
相关技术中,一般是直接基于获取到的多标签样本对模型进行训练,通过该方法训练得到的识别模型存在识别准确性低的问题。
发明内容
本公开提供一种信息推荐方法、对象识别方法及装置,以至少解决相关技术中识别模型存在识别准确性低的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种信息推荐方法,包括:
获取目标对象的对象属性信息;
将所述对象属性信息输入到对象识别模型进行标签识别,得到所述目标对象的识别标签;所述对象识别模型基于多个样本标签对应的目标样本进行训练得到;所述目标样本基于所述多个样本标签对应的原始样本的样本平衡数据,以目标采样方式对所述原始样本进行采样得到;所述样本平衡数据用于表征所述多个样本标签各自对应的样本数量的统计特征信息;所述目标采样方式基于所述原始样本的样本总数量以及所述样本平衡数据得到;
向所述目标对象推荐与所述识别标签对应的待推荐信息。
在一示例性实施例中,训练得到所述对象识别模型的步骤包括:
获取与目标任务对应的原始样本;所述原始样本中包括所述多个样本标签对应的原始样本;
基于所述多个样本标签对应的原始样本,确定所述样本平衡数据;
以所述目标采样方式对所述原始样本进行采样,得到与所述目标任务对应的目标样本;
基于所述目标样本训练得到所述对象识别模型。
根据本公开实施例的第二方面,提供一种对象识别方法,包括:
获取与目标任务对应的原始样本;所述原始样本中包括多个样本标签对应的原始样本;
基于所述多个样本标签对应的原始样本,确定样本平衡数据;所述样本平衡数据用于表征所述多个样本标签各自对应的样本数量的统计特征信息;
以目标采样方式对所述原始样本进行采样,得到与所述目标任务对应的目标样本;所述目标采样方式基于所述原始样本的样本总数量以及所述样本平衡数据得到;
基于与所述目标任务对应的对象识别模型对目标对象进行识别,得到所述目标对象的识别标签;所述对象识别模型基于所述目标样本进行训练得到。
在一示例性实施例中,所述以目标采样方式对所述原始样本进行采样,得到与所述目标任务对应的目标样本,包括:
基于所述样本平衡数据与所述多个样本标签各自对应的样本数量之间的相对关系,从所述多个样本标签中确定出第一目标样本标签;所述第一目标样本标签对应的样本数量大于所述样本平衡数据;
对所述第一目标样本标签对应的原始样本进行样本删减处理,得到第一样本;
基于所述第一样本,得到所述目标样本。
在一示例性实施例中,所述样本平衡数据包括与所述多个样本标签对应的原始样本均值;
所述基于所述样本平衡数据与所述多个样本标签各自对应的样本数量之间的相对关系,从所述多个样本标签中确定出第一目标样本标签,包括:
基于所述多个样本标签对应的原始样本数量以及所述原始样本均值,确定与所述多个样本标签对应的原始样本数量差值;
将所述多个样本标签中,所述原始样本数量差值大于等于第一预设阈值的样本标签确定为所述第一目标样本标签。
在一示例性实施例中,所述对所述第一目标样本标签对应的原始样本进行样本删减处理,得到第一样本,包括:
对所述第一目标样本标签对应的原始样本进行样本聚类处理,得到多个样本类;
对每个样本类下的样本进行删减处理,得到与所述样本类对应的已处理样本;
基于与所述多个样本类对应的已处理样本,得到所述第一样本。
在一示例性实施例中,所述对每个样本类下的样本进行删减处理,得到与所述样本类对应的已处理样本,包括:
确定所述样本类下的样本的样本数量与所述第一目标样本标签对应的原始样本的样本数量的比值信息;
确定所述样本平衡数据与所述第一目标样本标签对应的原始样本的样本数量的差值信息;
基于所述比值信息以及所述差值信息,确定与所述样本类对应的第一数量;
从所述样本类下的样本中删除所述第一数量的样本,得到与所述样本类对应的已处理样本。
在一示例性实施例中,所述以目标采样方式对所述原始样本进行采样,得到与所述目标任务对应的目标样本,包括:
基于所述样本平衡数据与所述多个样本标签各自对应的样本数量之间的相对关系,从所述多个样本标签中确定出第二目标样本标签;所述第二目标样本标签对应的样本数量小于所述样本平衡数据;
对所述第二目标样本标签对应的原始样本进行样本增加处理,得到第二样本;
基于所述第二样本,得到所述目标样本。
在一示例性实施例中,所述样本平衡数据包括与所述多个样本标签对应的原始样本均值;
所述基于所述样本平衡数据与所述多个样本标签各自对应的样本数量之间的相对关系,从所述多个样本标签中确定出第二目标样本标签,包括:
基于所述多个样本标签对应的原始样本数量以及所述原始样本均值,确定与所述多个样本标签对应的原始样本数量差值;
将所述多个样本标签中,所述原始样本数量差值大于等于第二预设阈值的样本标签确定为所述第二目标样本标签。
在一示例性实施例中,所述对所述第二目标样本标签对应的原始样本进行样本增加处理,得到第二样本,包括:
基于所述第二目标样本标签对应的原始样本数量以及所述样本平衡数据,确定与所述第二目标样本标签对应的第二数量;
基于所述第二目标样本标签对应的原始样本,生成所述第二数量的新增样本;
为所述第二目标样本标签增加所述第二数量的新增样本,得到所述第二样本。
在一示例性实施例中,所述基于所述第二目标样本标签对应的原始样本,生成所述第二数量的新增样本,包括:
遍历所述第二目标样本标签对应的各个原始样本;
从未访问的原始样本中确定参照样本;
确定所述参照样本与所述多个样本标签对应的各原始样本的相似度;
基于所述参照样本与所述各原始样本的相似度,从所述各原始样本中依次确定出第三数量的与所述参照样本相似的原始样本;
从所述第三数量的原始样本中,确定出与所述参照样本属于相同样本标签的匹配样本;
基于所述匹配样本生成与所述参照样本对应的新增样本;所述新增样本的数量基于各参照样本对应的匹配样本的数量,以及所述第二数量得到;
基于所述各参照样本对应的新增样本,得到所述第二数量的新增样本。
在一示例性实施例中,所述方法还包括:
对所述各参照样本对应的匹配样本的数量进行归一化处理,得到与所述各参照样本对应的目标系数;
基于所述第二数量以及所述目标系数,得到与所述各参照样本对应的新增样本的数量。
在一示例性实施例中,所述基于所述匹配样本生成与所述参照样本对应的新增样本,包括:
从所述第三数量的原始样本中确定出所述新增样本的数量的待操作样本;
确定所述参照样本与所述待操作样本的实际差量;所述实际差量为多维向量;
对所述实际差量的各个维度分别进行随机加权,得到与所述实际差量对应的已加权差量;
基于所述参照样本以及所述已加权向量,得到与所述参照样本对应的新增样本。
根据本公开实施例的第三方面,提供一种信息推荐装置,包括:
对象属性信息获取单元,被配置为执行获取目标对象的对象属性信息;
对象标签识别单元,被配置为执行将所述对象属性信息输入到对象识别模型进行标签识别,得到所述目标对象的识别标签;所述对象识别模型基于多个样本标签对应的目标样本进行训练得到;所述目标样本基于所述多个样本标签对应的原始样本的样本平衡数据,以目标采样方式对所述原始样本进行采样得到;所述样本平衡数据用于表征所述多个样本标签各自对应的样本数量的统计特征信息;所述目标采样方式基于所述原始样本的样本总数量以及所述样本平衡数据得到;
信息推荐单元,被配置为执行向所述目标对象推荐与所述识别标签对应的待推荐信息。
在一示例性实施例中,所述装置还包括:
第一获取单元,被配置为执行获取与目标任务对应的原始样本;所述原始样本中包括所述多个样本标签对应的原始样本;
第一确定单元,被配置为执行基于所述多个样本标签对应的原始样本,确定所述样本平衡数据;
第一采样单元,被配置为执行以所述目标采样方式对所述原始样本进行采样,得到与所述目标任务对应的目标样本;
模型训练单元,被配置为执行基于所述目标样本训练得到所述对象识别模型。
根据本公开实施例的第四方面,提供一种对象识别装置,包括:
第二获取单元,被配置为执行获取与目标任务对应的原始样本;所述原始样本中包括多个样本标签对应的原始样本;
第二确定单元,被配置为执行基于所述多个样本标签对应的原始样本,确定样本平衡数据;所述样本平衡数据用于表征所述多个样本标签各自对应的样本数量的统计特征信息;
第二采样单元,被配置为执行以目标采样方式对所述原始样本进行采样,得到与所述目标任务对应的目标样本;所述目标采样方式基于所述原始样本的样本总数量以及所述样本平衡数据得到;
信息识别单元,被配置为执行基于与所述目标任务对应的对象识别模型对目标对象进行识别,得到所述目标对象的识别标签;所述对象识别模型基于所述目标样本进行训练得到。
在一示例性实施例中,所述第二采样单元包括:
第一目标样本标签确定单元,被配置为执行基于所述样本平衡数据与所述多个样本标签各自对应的样本数量之间的相对关系,从所述多个样本标签中确定出第一目标样本标签;所述第一目标样本标签对应的样本数量大于所述样本平衡数据;
第一样本确定单元,被配置为执行对所述第一目标样本标签对应的原始样本进行样本删减处理,得到第一样本;
第二确定单元,被配置为执行基于所述第一样本,得到所述目标样本。
在一示例性实施例中,所述样本平衡数据包括与所述多个样本标签对应的原始样本均值;
所述第一目标样本标签确定单元包括:
第一差值确定单元,被配置为执行基于所述多个样本标签对应的原始样本数量以及所述原始样本均值,确定与所述多个样本标签对应的原始样本数量差值;
第三确定单元,被配置为执行将所述多个样本标签中,所述原始样本数量差值大于等于第一预设阈值的样本标签确定为所述第一目标样本标签。
在一示例性实施例中,所述第一样本确定单元包括:
样本聚类单元,被配置为执行对所述第一目标样本标签对应的原始样本进行样本聚类处理,得到多个样本类;
样本删减单元,被配置为执行对每个样本类下的样本进行删减处理,得到与所述样本类对应的已处理样本;
第四确定单元,被配置为执行基于与所述多个样本类对应的已处理样本,得到所述第一样本。
在一示例性实施例中,所述样本删减单元包括:
比值信息确定单元,被配置为执行确定所述样本类下的样本的样本数量与所述第一目标样本标签对应的原始样本的样本数量的比值信息;
第二差值信息确定单元,被配置为执行确定所述样本平衡数据与所述第一目标样本标签对应的原始样本的样本数量的差值信息;
第一数量确定单元,被配置为执行基于所述比值信息以及所述差值信息,确定与所述样本类对应的第一数量;
已处理样本确定单元,被配置为执行从所述样本类下的样本中删除所述第一数量的样本,得到与所述样本类对应的已处理样本。
在一示例性实施例中,所述第二采样单元包括:
第二目标样本标签确定单元,被配置为执行基于所述样本平衡数据与所述多个样本标签各自对应的样本数量之间的相对关系,从所述多个样本标签中确定出第二目标样本标签;所述第二目标样本标签对应的样本数量小于所述样本平衡数据;
样本增加单元,被配置为执行对所述第二目标样本标签对应的原始样本进行样本增加处理,得到第二样本;
第五确定单元,被配置为执行基于所述第二样本,得到所述目标样本。
在一示例性实施例中,所述样本平衡数据包括与所述多个样本标签对应的原始样本均值;
所述第二目标样本标签确定单元包括:
第三差值信息确定单元,被配置为执行基于所述多个样本标签对应的原始样本数量以及所述原始样本均值,确定与所述多个样本标签对应的原始样本数量差值;
第六确定单元,被配置为执行将所述多个样本标签中,所述原始样本数量差值大于等于第二预设阈值的样本标签确定为所述第二目标样本标签。
在一示例性实施例中,所述样本增加单元包括:
第二数量确定单元,被配置为执行基于所述第二目标样本标签对应的原始样本数量以及所述样本平衡数据,确定与所述第二目标样本标签对应的第二数量;
新增样本生成单元,被配置为执行基于所述第二目标样本标签对应的原始样本,生成所述第二数量的新增样本;
第二样本确定单元,被配置为执行为所述第二目标样本标签增加所述第二数量的新增样本,得到所述第二样本。
在一示例性实施例中,所述新增样本生成单元包括:
遍历单元,被配置为执行遍历所述第二目标样本标签对应的各个原始样本;
参照样本确定单元,被配置为执行从未访问的原始样本中确定参照样本;
相似度单元,被配置为执行确定所述参照样本与所述多个样本标签对应的各原始样本的相似度;
第七确定单元,被配置为执行基于所述参照样本与所述各原始样本的相似度,从所述各原始样本中依次确定出第三数量的与所述参照样本相似的原始样本;
匹配样本确定单元,被配置为执行从所述第三数量的原始样本中,确定出与所述参照样本属于相同样本标签的匹配样本;
样本生成单元,被配置为执行基于所述匹配样本生成与所述参照样本对应的新增样本;所述新增样本的数量基于各参照样本对应的匹配样本的数量,以及所述第二数量得到;
新增样本确定单元,被配置为执行基于所述各参照样本对应的新增样本,得到所述第二数量的新增样本。
在一示例性实施例中,所述装置还包括:
归一化处理单元,被配置为执行对所述各参照样本对应的匹配样本的数量进行归一化处理,得到与所述各参照样本对应的目标系数;
新增样本数量确定单元,被配置为执行基于所述第二数量以及所述目标系数,得到与所述各参照样本对应的新增样本的数量。
在一示例性实施例中,所述样本生成单元包括:
待操作样本确定单元,被配置为执行从所述第三数量的原始样本中确定出所述新增样本的数量的待操作样本;
实际差量确定单元,被配置为执行确定所述参照样本与所述待操作样本的实际差量;所述实际差量为多维向量;
随机加权单元,被配置为执行对所述实际差量的各个维度分别进行随机加权,得到与所述实际差量对应的已加权差量;
第八确定单元,被配置为执行基于所述参照样本以及所述已加权向量,得到与所述参照样本对应的新增样本。
根据本公开实施例的第五方面,提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如上所述的信息推荐方法或对象识别方法。
根据本公开实施例的第六方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由服务器的处理器执行时,使得服务器能够执行如上所述的信息推荐方法或对象识别方法。
根据本公开实施例的第七方面,提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在可读存储介质中,计算机设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序,使得设备执行上述的信息推荐方法或对象识别方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
本公开通过对象识别模型对目标对象的对象属性信息进行标签识别,得到目标对象的识别标签;其中所述对象识别模型基于多个样本标签对应的目标样本进行训练得到;所述目标样本基于所述多个样本标签对应的原始样本的样本平衡数据,以目标采样方式对所述原始样本进行采样得到;所述样本平衡数据用于表征所述多个样本标签各自对应的样本数量的统计特征信息;所述目标采样方式基于所述原始样本的样本总数量以及所述样本平衡数据得到;然后向目标对象推荐与识别标签对应的待推荐信息。本公开通过确定原始样本的样本平衡数据,然后基于样本平衡数据对原始样本以目标采样方式进行采样,得到相应的目标样本,从而提高了平衡后的样本数据的准确性,以及提高了样本平衡效率;进一步基于平衡后的目标样本训练生成相应的对象识别模型,提高了对象识别模型的泛化能力,提高了模型识别的准确性,从而基于该对象识别模型识别出的识别标签进行信息推荐,提高了信息推荐的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的实施环境示意图。
图2是根据一示例性实施例示出的一种信息推荐方法流程图。
图3是根据一示例性实施例示出的一种对象识别方法流程图。
图4是根据一示例性实施例示出的一种目标样本生成方法流程图。
图5是根据一示例性实施例示出的一种目标样本标签确定方法流程图。
图6是根据一示例性实施例示出的第一样本生成方法流程图。
图7是根据一示例性实施例示出的对样本类下的样本进行删除的方法流程图。
图8是根据一示例性实施例示出的第二样本生成方法流程图。
图9是根据一示例性实施例示出的一种新增样本生成方法流程图。
图10是根据一示例性实施例示出的一种基于归一化处理生成新增样本的方法流程图。
图11是根据一示例性实施例示出的一种基于加权向量生成新增样本的方法流程图。
图12是根据一示例性实施例示出的新用户首购偏好模型流程结构图。
图13是根据一示例性实施例示出的一种信息推荐装置框图。
图14是根据一示例性实施例示出的一种对象识别装置框图。
图15是根据一示例性实施例示出的一种电子设备结构图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
需要说明的是,本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
请参阅图1,其示出了本公开实施例提供的实施环境示意图,该实施环境可包括:至少一个第一计算机设备110和第二计算机设备120,第一计算机设备110和第二计算机设备120可通过网络进行数据通信。
具体地,第二计算机设备120可采集第一计算机设备110对应的对象的对象属性信息,以及样本对象标签生成相应的原始样本;第二计算机设备120可对原始样本进行样本平衡操作,得到目标样本;第二计算机设备120可基于目标样本对预设机器学习模型进行训练,得到对象识别模型。进一步地,第二计算机设备120可基于目标对象的对象属性信息以及对象识别模型对目标对象进行识别,得到与目标对象对应的识别标签,向目标对象推荐与识别标签对应的待推荐信息。
其中第二计算机设备120具体还可以包括:原始样本生成端1201、样本数据平衡端1203、对象识别模型训练端1205、信息推荐端1207等,且原始样本生成端1201、样本数据平衡端1203、对象识别模型训练端1205、信息推荐端1207任意两端之间均可进行数据通信。
第一计算机设备110可以基于浏览器/服务器模式(Browser/Server,B/S)或客户端/服务器模式(Client/Server,C/S)与第二计算机设备120进行通信。第一计算机设备110可以包括:智能手机、平板电脑、笔记本电脑、数字助理、智能可穿戴设备、车载终端、服务器等类型的实体设备,也可以包括运行于实体设备中的软体,例如应用程序等。本公开实施例中的第一计算机设备110上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。
第二计算机设备120与第一计算机设备110可以通过有线或者无线建立通信连接,第二计算机设备120可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群,其中服务器可以是云端服务器。
为了解决相关技术中识别模型存在识别准确性低的问题,本公开实施例提供了一种信息推荐方法,该方法的执行主体可以为上述图1中的第二计算机设备,具体请参阅图2,该方法可包括:
S210.获取目标对象的对象属性信息。
本公开实施例中的目标对象可以为待推荐用户,相应的对象属性信息可以是与待推荐用户相关的属性信息,具体可以包括待推荐用户的静态特征信息以及历史行为特征信息等。具体地,静态特征信息可以包括用户年龄、性别、地理位置、教育背景、收入信息等相关特征信息,用户历史行为可以包括用户点击、点赞、评论等行为,通过对用户对某些信息的点击、点赞、评论等行为,可以得到用户历史行为特征信息。
在一个具体实施例中,在对目标对象的首次转化偏好进行预测的场景中,在目标对象进行首次转化之前可对目标对象的对象属性信息进行周期性更新;因为随着目标对象所填写的静态信息越来越丰富,以及目标对象的历史行为越来越多,即可获取到目标对象更多的特征信息,基于这些更新的信息对目标对象的属性信息进行更新,能够使得对象属性信息更能够表征目标对象的特征信息,即提高对象属性信息对目标对象的特征表征能力,相应地,后续基于不断更新的对象属性信息为目标对象进行信息推荐,能够使得推荐的信息更加符合目标对象的转化偏好。
S220.将所述对象属性信息输入到对象识别模型进行标签识别,得到所述目标对象的识别标签;所述对象识别模型基于多个样本标签对应的目标样本进行训练得到;所述目标样本基于所述多个样本标签对应的原始样本的样本平衡数据,以目标采样方式对所述原始样本进行采样得到;样本平衡数据用于表征所述多个样本标签各自对应的样本数量的统计特征信息;所述目标采样方式基于所述原始样本的样本总数量以及所述样本平衡数据得到。
具体地,样本平衡数据可用于表征所述多个样本标签各自对应的样本数量的统计特征信息,即样本平衡数据能够反映出原始样本的整体样本数据分布信息,而并不是局限于单个原始样本的个性分析;进一步地,样本平衡数据能够表明原始样本中各样本的集中程度或者集中趋势等。
在一个具体实施例中,多个样本标签对应的原始样本可以是通过对各对象的对象属性信息以及各对象的首次转化的标签类别生成,原始样本中具体可包括各对象的对象属性信息;每个标签类别均对应至少一个对象的对象属性信息。在原始样本中,可能存在有的标签类别对应较多个对象的对象属性信息,有的标签类别对应较少个对象的对象属性信息,从而导致各个标签类别对应的样本数量不平衡,从而需要对原始样本进行样本平衡操作,得到目标样本。
在一个示例中,目标采样方式可包括过采样、欠采样以及混合采样,混合采样可以为同时采用过采样和欠采样的采样方式,具体可根据每个样本标签下原始样本的数量与样本平衡数据的比较结果,确定相应的采样方式;当原始样本数量过少时,采用过采样的采样方式,过采样的采样方式能够增加样本数量;当原始样本数量过多时,采用欠采样的采样方式,欠采样的采样方式能够减少样本数量。从而对于不同样本标签可能采用不同的采样方式;例如对于样本标签1,其对应的原始样本数量较少,对其进行过采样,对于样本标签2,其对应的原始样本数量较多,对其进行下采样,从而对原始样本可采用混合采样的方式,得到目标样本。
在一个可选实施例中,通过确定原始样本的样本平衡数据,然后基于样本平衡数据对原始样本进行混合采样,混合采样具体可以是同时采用过采样和欠采样的采样方式,即对有的样本标签对应的样本进行过采样,对有的样本标签对应的样本进行欠采样,以得到目标样本。其中通过混合采样的方式而不是单一的采样方式对原始样本进行处理,能够提高对样本进行采样的灵活性,进而能够提高样本平衡的效率。另外基于样本平衡数据确定相应的采样方式,使得采样方式与样本实际分布相适应,避免引入过多的噪音数据,从而能够提高平衡样本的准确性。
S230.向所述目标对象推荐与所述识别标签对应的待推荐信息。
待推荐信息具体可以是用于推荐与识别标签对应的推荐目标的多媒体信息,推荐目标可以是与识别标签对应的文章、音乐、视频、商品等。
本公开通过确定原始样本的样本平衡数据,然后基于样本平衡数据对原始样本以目标采样方式进行采样,得到相应的目标样本,从而提高了平衡后的样本数据的准确性,以及提高了样本平衡效率;进一步基于平衡后的目标样本训练生成相应的对象识别模型,提高了对象识别模型的泛化能力,提高了模型识别的准确性,从而基于该对象识别模型识别出的识别标签进行信息推荐,提高了信息推荐的准确性。
在一个示例中,训练得到所述对象识别模型的步骤包括:
获取与目标任务对应的原始样本;所述原始样本中包括所述多个样本标签对应的原始样本;基于所述多个样本标签对应的原始样本,确定所述样本平衡数据;以所述目标采样方式对所述原始样本进行采样,得到与所述目标任务对应的目标样本;基于所述目标样本训练得到所述对象识别模型。
在一个具体实施例中,请参阅图3,其示出了一种对象识别方法,该方法的执行主体可以为上述的第二计算机设备,该方法具体可包括:
S310.获取与目标任务对应的原始样本;所述原始样本中包括多个样本标签对应的原始样本。
S320.基于所述多个样本标签对应的原始样本,确定样本平衡数据;所述样本平衡数据用于表征所述多个样本标签各自对应的样本数量的统计特征信息。
S330.以目标采样方式对所述原始样本进行采样,得到与所述目标任务对应的目标样本;所述目标采样方式基于所述原始样本的样本总数量以及所述样本平衡数据得到。
S340.基于与所述目标任务对应的对象识别模型对目标对象进行识别,得到所述目标对象的识别标签;所述对象识别模型基于所述目标样本进行训练得到。
在一个示例中,对象可以是指用户或者多媒体信息等,当对象为用户时,通过对象识别模型可以得到用户的识别标签,识别标签具体可以为用户的类别标签或者兴趣标签等;当用户为多媒体信息时,通过对象识别模型可以得到多媒体信息的识别标签,识别标签具体可以为多媒体信息的领域标签,类型标签等。
目标任务可以为对用户标签进行识别、对多媒体信标签进行识别等;在一个具体实施例中,以目标任务为对用户标签进行识别来说明,通过筛选用户历史交易里的首次订单数据,并从用户首次成单日之前的基础画像数据和行为数据中挖掘用户特征,得到对象属性信息;然后根据商品的类目映射关系,把每个交易的商品映射到唯一商品类目C中,并对每个类目Ci进行唯一id编码,获取样本数据标签,从而得到与目标任务对应的原始样本。
由于商品的类目较多,直接用多分类的模型进行训练,模型会更偏好于预测成单较多的类目的商品,导致总体模型识别的准确率不高;因此可基于目标采样方式对原始样本进行采样,得到目标样本;而目标采样方式可基于样本平衡数据以及原始样本的样本总数量来确定,从而样本平衡数据能够反映出原始样本的整体样本数据分布,而并不是局限于单个原始样本的个性分析;进一步地,样本平衡数据能够表明原始样本中各样本的集中程度或者集中趋势等,从而基于样本平衡数据确定出的目标采样方式与样本实际分布相适应,能够提高平衡样本的准确性,避免引入过多的噪音数据,进而能够提高基于该目标样本训练得到的对象识别模型的识别准确性。
在一个可选实施例中,请参阅图4,其示出了一种目标样本生成方法,该方法可包括:
S410.基于所述样本平衡数据与所述多个样本标签各自对应的样本数量之间的相对关系,从所述多个样本标签中确定出第一目标样本标签;所述第一目标样本标签对应的样本数量大于所述样本平衡数据。
S420.对所述第一目标样本标签对应的原始样本进行样本删减处理,得到第一样本。
S430.基于所述第一样本,得到所述目标样本。
具体地,第一目标样本标签需要基于样本平衡数据进行确定,即样本平衡数据可作为划分样本标签类型的基准,样本标签类型包括第一目标样本标签;从而对不同的样本标签类型执行不同的样本平衡操作,具体是对第一目标样本标签对应的样本进行删减处理;第一目标样本标签可包括至少一个样本标签,从而在对第一目标样本标签对应的原始样本进行删减处理时,需要对第一目标样本标签包括的每个样本标签所对应的原始样本分别进行样本删减。从而通过将样本平衡数据作为判别样本标签类型的基准,对不同类型的样本标签执行不同的样本平衡操作,以实现对原始样本的混合采样,避免了只采用一种采样方式所导致的样本平衡不准确,以及样本平衡效率低的问题,从而提高了样本平衡的准确性和效率。
可选地,样本平衡数据是与原始样本对应的,不同的原始样本对应不同的样本平衡数据。样本平衡数据具体可以是多个样本标签各自对应的样本数量的平均数或者中位数等。
在一个可选实施例中,所述样本平衡数据包括与所述多个样本标签对应的原始样本均值;相应地,样本平衡数据计算方法可包括:确定所述原始样本的样本总数量;基于所述样本总数量以及样本标签的数量,得到所述原始样本均值。
根据上述内容,具体是统计每个样本标签下的原始样本的数量,基于各个样本标签下原始样本的数量,得到多个样本标签对应的原始样本的样本总数量;然后根据样本总数量以及样本标签的数量,计算得到原始样本均值。由于平均值能够表征观测值相对集中较多的中心位置,能够反映现象总体的一般水平或者分布的集中趋势,从而将原始样本均值作为样本平衡数据,并将样本平衡数据作为判别样本标签类型的基准,不同类型的样本标签对应不同的样本平衡操作,能够提高样本标签类型划分的合理性和准确性,进一步提高经过平衡操作之后的样本的可靠性和准确性。
在一个具体实施例中,请参阅图5,其示出了一种目标样本标签确定方法,该方法可包括:
S510.基于所述多个样本标签对应的原始样本数量以及所述原始样本均值,确定与所述多个样本标签对应的原始样本数量差值。
S520.将所述多个样本标签中,所述原始样本数量差值大于等于第一预设阈值的样本标签确定为第一目标样本标签。
具体在确定第一目标样本标签时,可首先计算各样本标签对应的原始样本数量与原始样本均值的原始样本数量差值,并对原始样本数量差值大于等于第一预设阈值的样本标签进行样本平衡操作,而对原始样本数量差值小于预设阈值的样本标签不需要处理。
例如,对训练样本的标签进行统计,得到每个标签下的原始样本数量N(Ci),并以各标签下样本数目的均值,作为样本标签数目的平衡值
Figure BDA0003447547330000151
即样本平衡数据,第一目标样本标签对应的原始样本数量N(Ci)均大于平衡值
Figure BDA0003447547330000152
Figure BDA0003447547330000153
计算每个标签的原始样本数量N(Ci)和
Figure BDA0003447547330000154
的差值
Figure BDA0003447547330000155
并设定第一预设阈值θ,当Δi<θ,不对该标签的样本数进行调整;当Δi≥θ,则确定该样本标签为第一目标样本标签。
因为与原始样本均值大于预设阈值,说明偏离数据中心较远,需要进行平衡操作,而与原始样本均值小于预设阈值,说明偏离数据中心在可接受范围内,可以不对其进行处理,从而能够减少计算量,提高数据平衡效率。
在一个可选实施例中,请参阅图6,其示出了第一样本生成方法,该方法可包括:
S610.对所述第一目标样本标签对应的原始样本进行样本聚类处理,得到多个样本类。
S620.对每个样本类下的样本进行删减处理,得到与所述样本类对应的已处理样本。
S630.基于与所述多个样本类对应的已处理样本,得到所述第一样本。
具体地,第一目标样本标签可包括多个样本标签,可对每个样本标签下的原始样本进行聚类处理,得到多个样本类;然后对每个样本类下的样本进行随机删减处理,将该样本类中剩下的原始样本确定为与该样本类对应的已处理样本;从而基于多个样本类对应的已处理样本,得到第一样本。相关技术中能够实现样本聚类的方法均可应用于本公开实施例中,在此不再赘述。
在一个可选实施例中,在样本类下包括多个样本标签对应的样本时,可根据各个样本标签对应的样本数量确定相应所删除的样本数量;具体可以为该样本标签对应的样本数量越多,所删除的样本数量越多,样本标签对应的样本数量越少,所删除的样本数量越少;从而使得样本数量较多的样本标签的可用样本较多,可删除较多的样本,样本数量较少的样本标签的可用样本较少,可删除较少的样本,尽量保留该样本标签下较多的样本。进一步地,对于样本数量较少的样本标签,可不删除该样本标签下的样本,从而可以实现每个样本类下的样本平衡操作是与各标签对应的样本数量相适配的。
通过样本聚类可以将具有相似特征的样本集中起来,然后从集中的样本中进行样本随机删减,能够保证对每个样本类均有样本删减操作,避免样本删减只集中在少量样本类的样本之间,使得剩下的原始样本还是能够涵盖各个样本类,从而提高了样本删减的均匀性,以及第一样本生成的可靠性。
在一个具体实施例中,请参阅图7,其示出了对样本类下的样本进行删除的方法,该方法可包括:
S710.确定所述样本类下的样本的样本数量与所述第一目标样本标签对应的原始样本的样本数量的比值信息。
S720.确定所述样本平衡数据与所述第一目标样本标签对应的原始样本的样本数量的差值信息。
S730.基于所述比值信息以及所述差值信息,确定与所述样本类对应的第一数量。
S740.从所述样本类下的样本中删除所述第一数量的样本,得到与所述样本类对应的已处理样本。
具体地,在对各样本类下的原始样本进行删除的时候,可首先确定需要删除的原始样本的数量,需要删除的原始样本的数量可基于样本平衡数据、样本类下样本的样本数量以及第一目标样本标签对应的原始样本的样本数量进行确定。对于第一数量的确定可包括:确定所述样本类下的样本的样本数量与所述第一目标样本标签对应的原始样本的样本数量的比值信息
Figure BDA0003447547330000161
确定所述样本平衡数据与所述第一目标样本标签对应的原始样本的样本数量的差值信息Δi;基于所述比值信息以及所述差值信息,确定与所述样本类对应的第一数量δj。具体地,计算每个类τj应该随机删减的样本数
Figure BDA0003447547330000171
N(Ci)为每个标签下的原始样本数量,N(τj)表示第j个聚类下的样本数。
从而使得删除的原始样本的数量是与相关数据相适应的,而并不是随意删除的,从而提高删减样本数量的合理性。
在一个示例中,对于目标样本的生成方法还可以包括:基于所述样本平衡数据与所述多个样本标签各自对应的样本数量之间的相对关系,从所述多个样本标签中确定出第二目标样本标签;所述第二目标样本标签对应的样本数量小于所述样本平衡数据;对所述第二目标样本标签对应的原始样本进行样本增加处理,得到第二样本;基于所述第二样本,得到所述目标样本。
具体地,第二目标样本标签需要基于样本平衡数据进行确定,即样本平衡数据可作为划分样本标签类型的基准,样本标签类型包括第二目标样本标签;从而对不同的样本标签类型执行不同的样本平衡操作,具体是对第二目标样本标签对应的样本进行增加处理;第二目标样本标签可包括至少一个样本标签,从而在对第二目标样本标签对应的原始样本进行增加处理时,需要对第二目标样本标签包括的每个样本标签所对应的原始样本分别进行样本增加。
从而通过将样本平衡数据作为判别样本标签类型的基准,可确定出相应的第一目标样本标签以及第二目标样本标签,进一步地可对不同类型的样本标签执行不同的样本平衡操作,以实现对原始样本的混合采样,避免了只采用一种采样方式所导致的样本平衡不准确,以及样本平衡效率低的问题,从而提高了样本平衡的准确性和效率。
在一个示例中,对于第二目标样本标签确定的方法可包括:基于所述多个样本标签对应的原始样本数量以及所述原始样本均值,确定与所述多个样本标签对应的原始样本数量差值;将所述多个样本标签中,所述原始样本数量差值大于等于第二预设阈值的样本标签确定为所述第二目标样本标签。
具体在确定第二目标样本标签时,可首先计算各样本标签对应的原始样本数量与原始样本均值的原始样本数量差值,并对原始样本数量差值大于等于第二预设阈值的样本标签进行样本平衡操作,而对原始样本数量差值小于预设阈值的样本标签不需要处理。
例如,对训练样本的标签进行统计,得到每个标签下的原始样本数量N(Ci),并以各标签下样本数目的均值,作为样本标签数目的平衡值
Figure BDA0003447547330000172
即样本平衡数据,第二目标样本标签对应的原始样本数量N(Ci)均小于平衡值
Figure BDA0003447547330000181
Figure BDA0003447547330000182
计算每个标签的原始样本数量N(Ci)和
Figure BDA0003447547330000183
的差值
Figure BDA0003447547330000184
并设定第二预设阈值θ,当Δi<θ,不对该标签的样本数进行调整;当Δi≥θ,则确定该样本标签为第二目标样本标签。
本公开实施例中第一预设阈值与第二预设阈值可以相同,也可以不同。第一预设阈值以及第二预设阈值可基于原始样本的整体数量、模型训练所需的样本数量、以及模型训练所消耗的资源、模型准确性等因素来确定,例如当原始样本的整体数量较多,模型训练所需的样本数量较少,那么需要适应性的删除多一点的样本,第一预设阈值即可设置得小一点;当分配给模型训练的资源有限,那么需要适应性的删除多一点的样本,第一预设阈值即可设置得小一点;再例如,当需要生成的模型准确性较高时,需要基于预设的训练资源尽可能地保留多一点的样本,从而第一预设阈值可设置得大一点,第二预设阈值可设置得小一点;从而实现了预设阈值设置的灵活性。
因为与原始样本均值大于预设阈值,说明偏离数据中心较远,需要进行平衡操作,而与原始样本均值小于预设阈值,说明偏离数据中心在可接受范围内,可以不对其进行处理,从而能够减少计算量,提高数据平衡效率。
在一个可选实施例中,请参阅图8,其示出了第二样本生成方法,该方法可包括:
S810.基于所述第二目标样本标签对应的原始样本数量以及所述样本平衡数据,确定与所述第二目标样本标签对应的第二数量。
S820.基于所述第二目标样本标签对应的原始样本,生成所述第二数量的新增样本。
S830.为所述第二目标样本标签增加所述第二数量的新增样本,得到所述第二样本。
具体地,对于第二数量的确定可基于s=Δi*λ实现,其中,λ可以根据各个标签对应的样本数量进行预先指定,Δi可以为样本平衡数据与所述第二目标样本标签对应的原始样本的样本数量的差值信息,进而可确定相应的第二数量。
同样地,对于第二目标样本标签所需生成的新增样本的数量,同样需要基于第二目标样本标签对应的原始样本数量以及样本平衡数据进行确定,从而使得新增的样本数量是与相关数据相适应的,而并不是随意确定的,从而提高了新增样本数量的合理性。
在一个具体实施例中,请参阅图9,其示出了一种新增样本生成方法,该方法可包括:
S910.遍历所述第二目标样本标签对应的各个原始样本。
S920.从未访问的原始样本中确定参照样本。
S930.确定所述参照样本与所述多个样本标签对应的各原始样本的相似度。
S940.基于所述参照样本与所述各原始样本的相似度,从所述各原始样本中依次确定出第三数量的与所述参照样本相似的原始样本。
S950.从所述第三数量的原始样本中,确定出与所述参照样本属于相同样本标签的匹配样本。
S960.基于所述匹配样本生成与所述参照样本对应的新增样本;所述新增样本的数量基于各参照样本对应的匹配样本的数量,以及所述第二数量得到。
S970.基于所述各参照样本对应的新增样本,得到所述第二数量的新增样本。
具体地,对于第二目标样本标签中的每个样本标签,对该样本标签下的各个原始样本进行遍历,即对每个原始样本均生成相应的新增样本。
在一个具体实施例中,第一目标样本标签包括样本标签a,b,样本标签a包括样本a1,a2,样本标签b包括样本b1;第二目标样本标签包括样本标签c,d,样本标签c包括样本c1,c2,c3,c4,样本标签d包括样本d1,d2,d3;若当前对样本标签c中的样本进行遍历,即对样本c1,c2,c3,c4进行遍历,确定样本c1为参照样本t,分别计算样本c1与样本a1,a2,b1,c2,c3,c4,d1,d2,d3的相似度,然后根据相似度计算结果,确定与样本c1相似度为前第三数量K的原始样本,即对计算的相似度按从大到小的顺序进行排序,确定出排序靠前的第三数量K的原始样本。从第三数量K的原始样本中确定出同属于样本标签c的匹配样本,并基于匹配样本的数量确定每个第二目标样本标签相应新增样本的数量。与参照样本对应的匹配样本越多,说明与参照样本相似度较高的样本与参照样本属于同一样本标签的数量越多,该样本标签下的样本越置信,对于置信度高的样本可生成较多的新增样本;从而在生成新增样本时,匹配样本越多的参照样本可对应生成越多的新增样本,从而提高了新增样本生成的合理性,进一步提高了样本平衡的准确性。
在一个可选实施例中,请参阅图10,其示出了一种基于归一化处理生成新增样本的方法,该方法可包括:
S1010.对所述各参照样本对应的匹配样本的数量进行归一化处理,得到与所述各参照样本对应的目标系数。
S1020.基于所述第二数量以及所述目标系数,得到与所述各参照样本对应的新增样本的数量。
对于新增样本数量的确定方法具体可包括:
1.对于第二目标样本标签,遍历该标签下的每个样本t,计算与其距离最近的K个样本,并从这个K个样本中,确定与样本t属于同一个标签的样本数μt
2.遍历完样本之后,对每个样本t对应的μt进行归一化处理,即
Figure BDA0003447547330000201
得到每个样本t应该生成的样本数Gt=rt*s。
由于与第二目标样本标签所对应的所需新增的样本数量已经确定,具体是第二数量,从而可将第二数量分散到第二目标样本标签的每个原始样本上,即确定与每个原始样本所对应的所需生成的新增样本数量。根据上述内容可知与参照样本对应的匹配样本的数量可用于表征参照样本的置信信息,从而根据各原始样本的匹配样本数量来生成相应的目标系数,并基于目标系数以及第二数量,得到与各参照样本具体对应的新增样本的数量,进一步提高了新增样本确定的合理性,提高了样本平衡的准确性。
在一个具体实施例中,请参阅图11,其示出了一种基于加权向量生成新增样本的方法,该方法可包括:
S1110.从所述第三数量的原始样本中确定出所述新增样本的数量的待操作样本。
S1120.确定所述参照样本与所述待操作样本的实际差量;所述实际差量为多维向量。
S1130.对所述实际差量的各个维度分别进行随机加权,得到与所述实际差量对应的已加权差量。
S1140.基于所述参照样本以及所述已加权向量,得到与所述参照样本对应的新增样本。
具体地,对于每个参照样本,确定了与其对应的新增样本的数量n,然后从第三数量的原始样本中选择n个待操作样本,n个待操作样本的选择可以是从第三数量的原始样本中随机选择的,也可以是与参照样本相似度最高的前n个原始样本,本实施例不做具体限定。
在一个具体实施例中,可采用一个随机向量对实际差量的各个维度分别进行随机加权,其中随机向量的维度数量与实际差量的维度数量一致,随机向量的每个维度可以为一个0-1之间的随机数,每需要使用一次随机向量,均会需要随机生成一个随机向量。进一步地,还可采用一个随机置零函数,该函数可对随机向量各维度的值进行随机置零。
具体地,对于第二目标样本标签中的每个t,生成相应的新增样本的方法可包括:
1.从与样本t距离最近的K个样本中选择Gt个样本;
2.基于
Figure BDA0003447547330000202
生成新增样本。其中,di表示新增样本,xi表示样本t,xzi表示Gt个样本中的一个样本,
Figure BDA0003447547330000211
是一个随机向量,其每个维度的值为0-1之间的随机数,其维度数量与样本的维度数量一致,drop是一个函数,用于对随机向量
Figure BDA0003447547330000217
各维度的数进行随机置零。
从而通过采用随机向量分别对实际差量进行随机加权,而不是采用一个固定标量对实际差量进行计算,能够体现特征之间的差异性,生成不同的新增样本,提高新增样本的多样性;另外通过随机置零函数对随机向量进行随机置零,一方面基于被置零后的随机向量进行计算,能够减少计算量;另一方面,基于被置零后的随机向量计算得到的新增样本能够将死样本生成带来的噪音数据,提高鲁棒性。
下面以用户首次购买偏好预测场景为例,对本公开的实施细节进行说明。请参阅图12,其示出了新用户首购偏好模型流程结构图;其具体可包括:
1.样本数据构建
筛选用户历史交易里的首次订单数据,并从用户首次成单日之前的基础画像数据和行为数据中挖掘用户特征,得到对象属性信息;然后根据商品的类目映射关系,把每个交易的商品映射到唯一商品类目C中,并对每个类目Ci进行唯一id编码,获取样本数据标签,从而得到训练样本数据。
2.标签数据分析
由于商品的类目较多,直接用多分类的模型进行训练,模型会更偏好于预测成单较多的类目的商品,导致总体模型预测的准确率不高。因此,先对训练样本的标签进行统计,得到每个标签下的样本数目N(Ci),并以各标签下样本数目的均值,作为样本标签数目的平衡值
Figure BDA0003447547330000212
即样本平衡数据。
3.混合采样
计算每个标签的样本数目N(Ci)和
Figure BDA0003447547330000213
的差值
Figure BDA0003447547330000214
并设定一个预设阈值θ,当Δi<θ,不对该标签的样本数进行调整。
当Δi≥θ时,若
Figure BDA0003447547330000215
则对该标签下的样本进行降采样,删减样本,具体删减流程如下:
a)获取该标签下的所有样本,然后利用聚类算法,例如K-means,聚成τ个类。
b)计算每个类τj应该随机删减的样本数
Figure BDA0003447547330000216
N(τj)表示第j个聚类下的样本数。
Figure BDA0003447547330000221
则需要对该标签下的样本进行过采样,这里采用自适应样本均匀生成算法,并对其进行优化,详细流程如下:
a)计算该标签下应该生成的新样本数s=Δi*λ,其中,λ可以根据各个标签对应的样本数量进行预先指定。
b)遍历该标签下的每个样本t,计算与其距离最近的K个样本,并从这个K个样本中,确定与样本t属于同一个标签的样本数μt
c)遍历完样本之后,对每个样本t对应的μt进行归一化处理,即
Figure BDA0003447547330000222
得到每个样本t应该生成的样本数Gt=rt*s。
d)对每个样本t,生成相应的新增样本,流程如下:
1)从与样本t距离最近的K个样本中选择Gt个样本。
2)生成新增样本的逻辑:
Figure BDA0003447547330000223
其中,di表示新增样本,xi表示样本t,xzi表示Gt个样本中的一个样本,
Figure BDA0003447547330000224
是一个随机向量,其每个维度的值为0-1之间的随机数,其维度数量与样本的维度数量一致,drop是一个函数,用于对随机向量
Figure BDA0003447547330000225
各维度的数进行随机置零。
每个样本对应一个用户的对象属性信息,即用户特征信息,每项用户特征信息均可被映射为一个特征向量;从而可通过特征向量与随机向量进行计算得到新增特征向量,即新增样本。
本公开在生成新增样本时,一方面增加随机向量,而不是标量,考虑到了特征之间的差异性,另一方面增加了drop函数,某种程度上可以降低样本生成带来的噪音,提升鲁棒性。
4.模型训练和预测
利用上面重新构建的样本,以及样本所对应的标签对机器学习模型进行模型训练,得到偏好标签预测结果;在对新用户推荐商品时,利用模型的预测结果,得到用户商品类的偏好,并把偏好的类目下的商品推荐给用户。
本公开中基于混合采样的多类别样本平衡方法,一方面提升了采样过程中的时间效率,能够更快的完成平衡样本的构建;另一方面,增加了模型在预测时的准确率和泛化性,在对新用户购买偏好的预测,准确率具有一定的提升。
图13是根据一示例性实施例示出的一种信息推荐装置框图。参照图13,该装置包括:
对象属性信息获取单元1310,被配置为执行获取目标对象的对象属性信息;
对象标签识别单元1320,被配置为执行将所述对象属性信息输入到对象识别模型进行标签识别,得到所述目标对象的识别标签;所述对象识别模型基于多个样本标签对应的目标样本进行训练得到;所述目标样本基于所述多个样本标签对应的原始样本的样本平衡数据,以目标采样方式对所述原始样本进行采样得到;所述样本平衡数据用于表征所述多个样本标签各自对应的样本数量的统计特征信息;所述目标采样方式基于所述原始样本的样本总数量以及所述样本平衡数据得到;
信息推荐单元1330,被配置为执行向所述目标对象推荐与所述识别标签对应的待推荐信息。
在一示例性实施例中,所述装置还包括:
第一获取单元,被配置为执行获取与目标任务对应的原始样本;所述原始样本中包括所述多个样本标签对应的原始样本;
第一确定单元,被配置为执行基于所述多个样本标签对应的原始样本,确定所述样本平衡数据;
第一采样单元,被配置为执行以所述目标采样方式对所述原始样本进行采样,得到与所述目标任务对应的目标样本;
模型训练单元,被配置为执行基于所述目标样本训练得到所述对象识别模型。
图14是根据一示例性实施例示出的一种对象识别装置框图。参照图14,该装置包括:
第二获取单元1410,被配置为执行获取与目标任务对应的原始样本;所述原始样本中包括多个样本标签对应的原始样本;
第二确定单元1420,被配置为执行基于所述多个样本标签对应的原始样本,确定样本平衡数据;所述样本平衡数据用于表征所述多个样本标签各自对应的样本数量的统计特征信息;
第二采样单元1430,被配置为执行以目标采样方式对所述原始样本进行采样,得到与所述目标任务对应的目标样本;所述目标采样方式基于所述原始样本的样本总数量以及所述样本平衡数据得到;
信息识别单元1440,被配置为执行基于与所述目标任务对应的对象识别模型对目标对象进行识别,得到所述目标对象的识别标签;所述对象识别模型基于所述目标样本进行训练得到。
在一示例性实施例中,所述第二采样单元1430包括:
第一目标样本标签确定单元,被配置为执行基于所述样本平衡数据与所述多个样本标签各自对应的样本数量之间的相对关系,从所述多个样本标签中确定出第一目标样本标签;所述第一目标样本标签对应的样本数量大于所述样本平衡数据;
第一样本确定单元,被配置为执行对所述第一目标样本标签对应的原始样本进行样本删减处理,得到第一样本;
第二确定单元,被配置为执行基于所述第一样本,得到所述目标样本。
在一示例性实施例中,所述样本平衡数据包括与所述多个样本标签对应的原始样本均值;
所述第一目标样本标签确定单元包括:
第一差值确定单元,被配置为执行基于所述多个样本标签对应的原始样本数量以及所述原始样本均值,确定与所述多个样本标签对应的原始样本数量差值;
第三确定单元,被配置为执行将所述多个样本标签中,所述原始样本数量差值大于等于第一预设阈值的样本标签确定为所述第一目标样本标签。
在一示例性实施例中,所述第一样本确定单元包括:
样本聚类单元,被配置为执行对所述第一目标样本标签对应的原始样本进行样本聚类处理,得到多个样本类;
样本删减单元,被配置为执行对每个样本类下的样本进行删减处理,得到与所述样本类对应的已处理样本;
第四确定单元,被配置为执行基于与所述多个样本类对应的已处理样本,得到所述第一样本。
在一示例性实施例中,所述样本删减单元包括:
比值信息确定单元,被配置为执行确定所述样本类下的样本的样本数量与所述第一目标样本标签对应的原始样本的样本数量的比值信息;
第二差值信息确定单元,被配置为执行确定所述样本平衡数据与所述第一目标样本标签对应的原始样本的样本数量的差值信息;
第一数量确定单元,被配置为执行基于所述比值信息以及所述差值信息,确定与所述样本类对应的第一数量;
已处理样本确定单元,被配置为执行从所述样本类下的样本中删除所述第一数量的样本,得到与所述样本类对应的已处理样本。
在一示例性实施例中,所述第二采样单元1430包括:
第二目标样本标签确定单元,被配置为执行基于所述样本平衡数据与所述多个样本标签各自对应的样本数量之间的相对关系,从所述多个样本标签中确定出第二目标样本标签;所述第二目标样本标签对应的样本数量小于所述样本平衡数据;
样本增加单元,被配置为执行对所述第二目标样本标签对应的原始样本进行样本增加处理,得到第二样本;
第五确定单元,被配置为执行基于所述第二样本,得到所述目标样本。
在一示例性实施例中,所述样本平衡数据包括与所述多个样本标签对应的原始样本均值;
所述第二目标样本标签确定单元包括:
第三差值信息确定单元,被配置为执行基于所述多个样本标签对应的原始样本数量以及所述原始样本均值,确定与所述多个样本标签对应的原始样本数量差值;
第六确定单元,被配置为执行将所述多个样本标签中,所述原始样本数量差值大于等于第二预设阈值的样本标签确定为所述第二目标样本标签。
在一示例性实施例中,所述样本增加单元包括:
第二数量确定单元,被配置为执行基于所述第二目标样本标签对应的原始样本数量以及所述样本平衡数据,确定与所述第二目标样本标签对应的第二数量;
新增样本生成单元,被配置为执行基于所述第二目标样本标签对应的原始样本,生成所述第二数量的新增样本;
第二样本确定单元,被配置为执行为所述第二目标样本标签增加所述第二数量的新增样本,得到所述第二样本。
在一示例性实施例中,所述新增样本生成单元包括:
遍历单元,被配置为执行遍历所述第二目标样本标签对应的各个原始样本;
参照样本确定单元,被配置为执行从未访问的原始样本中确定参照样本;
相似度单元,被配置为执行确定所述参照样本与所述多个样本标签对应的各原始样本的相似度;
第七确定单元,被配置为执行基于所述参照样本与所述各原始样本的相似度,从所述各原始样本中依次确定出第三数量的与所述参照样本相似的原始样本;
匹配样本确定单元,被配置为执行从所述第三数量的原始样本中,确定出与所述参照样本属于相同样本标签的匹配样本;
样本生成单元,被配置为执行基于所述匹配样本生成与所述参照样本对应的新增样本;所述新增样本的数量基于各参照样本对应的匹配样本的数量,以及所述第二数量得到;
新增样本确定单元,被配置为执行基于所述各参照样本对应的新增样本,得到所述第二数量的新增样本。
在一示例性实施例中,所述装置还包括:
归一化处理单元,被配置为执行对所述各参照样本对应的匹配样本的数量进行归一化处理,得到与所述各参照样本对应的目标系数;
新增样本数量确定单元,被配置为执行基于所述第二数量以及所述目标系数,得到与所述各参照样本对应的新增样本的数量。
在一示例性实施例中,所述样本生成单元包括:
待操作样本确定单元,被配置为执行从所述第三数量的原始样本中确定出所述新增样本的数量的待操作样本;
实际差量确定单元,被配置为执行确定所述参照样本与所述待操作样本的实际差量;所述实际差量为多维向量;
随机加权单元,被配置为执行对所述实际差量的各个维度分别进行随机加权,得到与所述实际差量对应的已加权差量;
第八确定单元,被配置为执行基于所述参照样本以及所述已加权向量,得到与所述参照样本对应的新增样本。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,可选地,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等;当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上所述的任一方法。
在示例性实施例中,还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在可读存储介质中,计算机设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序,使得设备执行上述任一方法。
本实施例还提供了一种电子设备,其结构图请参见图15,该设备1500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)1522(例如,一个或一个以上处理器)和存储器1532,一个或一个以上存储应用程序1542或数据1544的存储媒体1530(例如一个或一个以上海量存储设备)。其中,存储器1532和存储媒体1530可以是短暂存储或持久存储。存储在存储媒体1530的程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对设备中的一系列指令操作。更进一步地,中央处理器1522可以设置为与存储媒体1530通信,在设备1500上执行存储媒体1530中的一系列指令操作。设备1500还可以包括一个或一个以上电源1526,一个或一个以上有线或无线网络接口1550,一个或一个以上输入输出接口1558,和/或,一个或一个以上操作系统1541,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。本实施例上述的任一方法均可基于图15所示的设备进行实施。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种信息推荐方法,其特征在于,包括:
获取目标对象的对象属性信息;
将所述对象属性信息输入到对象识别模型进行标签识别,得到所述目标对象的识别标签;所述对象识别模型基于多个样本标签对应的目标样本进行训练得到;所述目标样本基于所述多个样本标签对应的原始样本的样本平衡数据,以目标采样方式对所述原始样本进行采样得到;所述样本平衡数据用于表征所述多个样本标签各自对应的样本数量的统计特征信息;所述目标采样方式基于所述原始样本的样本总数量以及所述样本平衡数据得到;
向所述目标对象推荐与所述识别标签对应的待推荐信息。
2.根据权利要求1所述的方法,其特征在于,训练得到所述对象识别模型的步骤包括:
获取与目标任务对应的原始样本;所述原始样本中包括所述多个样本标签对应的原始样本;
基于所述多个样本标签对应的原始样本,确定所述样本平衡数据;
以所述目标采样方式对所述原始样本进行采样,得到与所述目标任务对应的目标样本;
基于所述目标样本训练得到所述对象识别模型。
3.一种对象识别方法,其特征在于,包括:
获取与目标任务对应的原始样本;所述原始样本中包括多个样本标签对应的原始样本;
基于所述多个样本标签对应的原始样本,确定样本平衡数据;所述样本平衡数据用于表征所述多个样本标签各自对应的样本数量的统计特征信息;
以目标采样方式对所述原始样本进行采样,得到与所述目标任务对应的目标样本;所述目标采样方式基于所述原始样本的样本总数量以及所述样本平衡数据得到;
基于与所述目标任务对应的对象识别模型对目标对象进行识别,得到所述目标对象的识别标签;所述对象识别模型基于所述目标样本进行训练得到。
4.根据权利要求3所述的方法,其特征在于,所述以目标采样方式对所述原始样本进行采样,得到与所述目标任务对应的目标样本,包括:
基于所述样本平衡数据与所述多个样本标签各自对应的样本数量之间的相对关系,从所述多个样本标签中确定出第一目标样本标签;所述第一目标样本标签对应的样本数量大于所述样本平衡数据;
对所述第一目标样本标签对应的原始样本进行样本删减处理,得到第一样本;
基于所述第一样本,得到所述目标样本。
5.根据权利要求4所述的方法,其特征在于,所述样本平衡数据包括与所述多个样本标签对应的原始样本均值;
所述基于所述样本平衡数据与所述多个样本标签各自对应的样本数量之间的相对关系,从所述多个样本标签中确定出第一目标样本标签,包括:
基于所述多个样本标签对应的原始样本数量以及所述原始样本均值,确定与所述多个样本标签对应的原始样本数量差值;
将所述多个样本标签中,所述原始样本数量差值大于等于第一预设阈值的样本标签确定为所述第一目标样本标签。
6.一种信息推荐装置,其特征在于,包括:
对象属性信息获取单元,被配置为执行获取目标对象的对象属性信息;
对象标签识别单元,被配置为执行将所述对象属性信息输入到对象识别模型进行标签识别,得到所述目标对象的识别标签;所述对象识别模型基于多个样本标签对应的目标样本进行训练得到;所述目标样本基于所述多个样本标签对应的原始样本的样本平衡数据,以目标采样方式对所述原始样本进行采样得到;所述样本平衡数据用于表征所述多个样本标签各自对应的样本数量的统计特征信息;所述目标采样方式基于所述原始样本的样本总数量以及所述样本平衡数据得到;
信息推荐单元,被配置为执行向所述目标对象推荐与所述识别标签对应的待推荐信息。
7.一种对象识别装置,其特征在于,包括:
第二获取单元,被配置为执行获取与目标任务对应的原始样本;所述原始样本中包括多个样本标签对应的原始样本;
第二确定单元,被配置为执行基于所述多个样本标签对应的原始样本,确定样本平衡数据;所述样本平衡数据用于表征所述多个样本标签各自对应的样本数量的统计特征信息;
第二采样单元,被配置为执行以目标采样方式对所述原始样本进行采样,得到与所述目标任务对应的目标样本;所述目标采样方式基于所述原始样本的样本总数量以及所述样本平衡数据得到;
信息识别单元,被配置为执行基于与所述目标任务对应的对象识别模型对目标对象进行识别,得到所述目标对象的识别标签;所述对象识别模型基于所述目标样本进行训练得到。
8.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至2中任一项所述的信息推荐方法,或权利要求3-5任一项所述的对象识别方法。
9.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至2中任一项所述的信息推荐方法,或权利要求3-5任一项所述的对象识别方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至2任一项所述的信息推荐方法,或权利要求3-5任一项所述的对象识别方法。
CN202111652897.2A 2021-12-30 2021-12-30 信息推荐方法、对象识别方法及装置 Pending CN114529008A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111652897.2A CN114529008A (zh) 2021-12-30 2021-12-30 信息推荐方法、对象识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111652897.2A CN114529008A (zh) 2021-12-30 2021-12-30 信息推荐方法、对象识别方法及装置

Publications (1)

Publication Number Publication Date
CN114529008A true CN114529008A (zh) 2022-05-24

Family

ID=81621435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111652897.2A Pending CN114529008A (zh) 2021-12-30 2021-12-30 信息推荐方法、对象识别方法及装置

Country Status (1)

Country Link
CN (1) CN114529008A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116108282A (zh) * 2023-04-12 2023-05-12 荣耀终端有限公司 一种信息推荐模型的训练方法、信息推荐方法及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116108282A (zh) * 2023-04-12 2023-05-12 荣耀终端有限公司 一种信息推荐模型的训练方法、信息推荐方法及设备
CN116108282B (zh) * 2023-04-12 2023-08-29 荣耀终端有限公司 一种信息推荐模型的训练方法、信息推荐方法及设备

Similar Documents

Publication Publication Date Title
US10354201B1 (en) Scalable clustering for mixed machine learning data
US20210103858A1 (en) Method and system for model auto-selection using an ensemble of machine learning models
CN110008397B (zh) 一种推荐模型训练方法及装置
CN107808314B (zh) 用户推荐方法及装置
US20210073890A1 (en) Catalog-based image recommendations
CN107886241B (zh) 资源分析方法、装置、介质和电子设备
CN112905897B (zh) 相似用户确定方法、向量转化模型、装置、介质及设备
CN113919923B (zh) 直播推荐模型训练方法、直播推荐方法及相关设备
CN115033801B (zh) 物品推荐方法、模型训练方法及电子设备
CN112733995A (zh) 训练神经网络的方法、行为检测方法及行为检测装置
CN112765230B (zh) 基于互联网金融的支付大数据分析方法及大数据分析系统
CN113674087A (zh) 企业信用等级评定方法、装置、电子设备和介质
CN110033324A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN113159213A (zh) 一种业务分配方法、装置及设备
CN114997916A (zh) 潜在用户的预测方法、系统、电子设备和存储介质
CN111209469A (zh) 一种个性化推荐方法、装置、计算机设备及存储介质
CN114529008A (zh) 信息推荐方法、对象识别方法及装置
CN111047406A (zh) 一种电信套餐推荐方法、装置、存储介质和设备
CN112906896A (zh) 信息处理方法及装置、计算设备
CN116579803A (zh) 基于替代和关联作用的多品类联合需求预测方法及装置
Fitrianto et al. Development of direct marketing strategy for banking industry: The use of a Chi-squared Automatic Interaction Detector (CHAID) in deposit subscription classification
CN113947431A (zh) 一种用户行为质量评估方法、装置、设备和存储介质
US11282093B2 (en) Method and system for machine learning based item matching by considering user mindset
CN114066513A (zh) 一种用户分类的方法和装置
CN112801226A (zh) 数据筛选方法和装置、计算机可读存储介质、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination