CN117216117A - 资源数据筛选方法、装置、电子设备和存储介质 - Google Patents
资源数据筛选方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN117216117A CN117216117A CN202211534753.1A CN202211534753A CN117216117A CN 117216117 A CN117216117 A CN 117216117A CN 202211534753 A CN202211534753 A CN 202211534753A CN 117216117 A CN117216117 A CN 117216117A
- Authority
- CN
- China
- Prior art keywords
- task
- target
- resource data
- feature
- resource
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 103
- 238000012216 screening Methods 0.000 title claims abstract description 62
- 238000003860 storage Methods 0.000 title claims abstract description 34
- 230000004927 fusion Effects 0.000 claims abstract description 157
- 238000012545 processing Methods 0.000 claims abstract description 38
- 238000013507 mapping Methods 0.000 claims description 84
- 230000000694 effects Effects 0.000 claims description 70
- 238000000605 extraction Methods 0.000 claims description 68
- 230000002776 aggregation Effects 0.000 claims description 27
- 238000004220 aggregation Methods 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 26
- 238000004088 simulation Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 16
- 230000003993 interaction Effects 0.000 claims description 15
- 238000006116 polymerization reaction Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 8
- 238000007499 fusion processing Methods 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 23
- 238000013473 artificial intelligence Methods 0.000 abstract description 15
- 238000011156 evaluation Methods 0.000 description 17
- 230000008707 rearrangement Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 239000000463 material Substances 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 239000010410 layer Substances 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 230000007774 longterm Effects 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 6
- 238000004821 distillation Methods 0.000 description 5
- 238000011157 data evaluation Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供了一种资源数据筛选方法、装置、电子设备和存储介质,涉及人工智能技术领域,可以应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景,方法包括获取目标对象的目标活跃类别;获取目标对象的对象属性特征和关联的多个候选资源数据各自的资源特征,以及多个候选资源数据各自的融合特征;对每一候选资源数据,基于资源特征和融合特征进行与目标活跃类别匹配的多网络特征提取,得到资源特征对应的共享资源特征和融合特征对应的多个候选特征;基于共享资源特征、多个候选特征和融合特征,对每一候选资源数据进行与目标活跃类别匹配的多任务预测处理,得到多个任务指标,进而对多个候选资源数据进行数据筛选,有效提高数据筛选准确性。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种资源数据筛选方法、装置、电子设备和存储介质。
背景技术
内容推荐系统中,推荐的主要流程为召回、粗排、精排和重排,在重排阶段确定出多个候选资源数据,进而从其中筛选出于当前对象匹配的资源数据,以下发推送。相关技术中,通常基于策略对不同的类别对象进行资源数据评估,或者通过算法模型结合对象的特征进行资源评估,然而前一种方法的推荐效果有限且效果难以离线验证,只能通过线上小流量方法验证改动策略的有效性,后者的算法模型虽然能够提升推荐效果,但针对不同类别的对象执行相同的预测评估操作,对于活跃度较低的对象,数据评估准确性较差。
发明内容
本申请提供了一种资源数据筛选方法、装置、设备和存储介质,可以显著提高资源数据筛选的准确率和可靠性。
一方面,本申请提供了一种资源数据筛选方法,基于目标预测模型实现,所述目标预测模型包括特征嵌入模块、多特征提取模块和多任务预测模块,所述方法包括:
获取目标对象的目标活跃类别;
基于所述特征嵌入模块,获取所述目标对象的对象属性特征和所述目标对象关联的多个候选资源数据各自的资源特征;
将所述资源特征与所述对象属性特征融合,得到所述多个候选资源数据各自的融合特征;
对所述多个候选资源数据中的每一候选资源数据,将所述资源特征和所述融合特征输入所述多特征提取模块,进行与所述目标活跃类别匹配的多网络特征提取,得到所述资源特征对应的共享资源特征和所述融合特征对应的多个候选特征;
将所述共享资源特征、所述多个候选特征和所述融合特征输入所述多任务预测模块,对所述每一候选资源数据进行与所述目标活跃类别匹配的多任务预测处理,得到所述多个候选资源数据各自对应的多个任务指标;
基于所述多个任务指标,对所述多个候选资源数据进行数据筛选,得到所述目标对象对应的目标资源数据。
另一方面提供了一种资源数据筛选装置,基于目标预测模型实现,所述目标预测模型包括特征嵌入模块、多特征提取模块和多任务预测模块,所述装置包括:
类别获取模块:用于获取目标对象的目标活跃类别;
特征获取模块:用于基于所述特征嵌入模块,获取所述目标对象的对象属性特征和所述目标对象关联的多个候选资源数据各自的资源特征;
特征融合模块:用于将所述资源特征与所述对象属性特征融合,得到所述多个候选资源数据各自的融合特征;
特征提取模块:用于对所述多个候选资源数据中的每一候选资源数据,将所述资源特征和所述融合特征输入所述多特征提取模块,进行与所述目标活跃类别匹配的多网络特征提取,得到所述资源特征对应的共享资源特征和所述融合特征对应的多个候选特征;
预测模块:用于将所述共享资源特征、所述多个候选特征和所述融合特征输入所述多任务预测模块,对所述每一候选资源数据进行与所述目标活跃类别匹配的多任务预测处理,得到所述多个候选资源数据各自对应的多个任务指标;
数据筛选模块:用于基于所述多个任务指标,对所述多个候选资源数据进行数据筛选,得到所述目标对象对应的目标资源数据。
另一方面提供了一种计算机设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的资源数据筛选方法。
另一方面提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述的资源数据筛选方法。
另一方面提供了一种服务器,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的资源数据筛选方法。
另一方面提供了一种终端,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的资源数据筛选方法。
另一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令被处理器执行时实现如上述的资源数据筛选方法。
本申请提供的资源数据筛选方法、装置、设备、存储介质、服务器、终端、计算机程序和计算机程序产品,具有如下技术效果:
本申请的技术方案结合目标对象的对象属性特征、关联的多个候选资源数据各自的资源特征和多个候选资源数据各自的融合特征,在目标预测模型中执行目标对象所属目标活跃类别所对应的多网络特征提取操作,进而得到该活跃类别匹配的共享资源特征和多个候选特征,然后,再对共享资源特征、多个候选特征和融合特征进行目标活跃类别匹配的多任务预测操作,得到每一候选资源数据的多个任务指标,以实现该目标活跃类别相应的资源数据的评估,在确保高活跃对象的资源评估和内容推荐效果的前提下,显著提升低活跃对象的相关评估和推荐效果;此外,对候选资源的资源特征进行单独的特征提取,得到共享资源特征,并结合对象属性特征、资源特征进行融合和进一步特征提取,得到候选特征,在充分学习资源信息、资源与对象间的相关性信息的前提下,实现资源评估,提升评估的输入信息维度和全面性,优化资源数据筛选准确性和推荐效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本申请实施例提供的一种应用环境的示意图;
图2是本申请实施例提供的一种资源数据筛选方法的流程示意图;
图3是本申请实施例提供的一种推荐系统的框架示意图;
图4是本申请实施例提供的一种资源数据筛选方法的原理示意图;
图5是本申请实施例提供的一种资源数据筛选方法的流程示意图;
图6是本申请实施例提供的另一种目标预测模型的模型框架示意图;
图7是本申请实施例提供的另一种目标预测模型的模型框架示意图;
图8是本申请实施例提供的一种目标预测模型的训练方法的流程示意图;
图9是本申请实施例提供一种资源数据筛选装置的框架示意图;
图10是本申请实施例提供的一种资源数据筛选方法的电子设备的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或子模块的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或子模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或子模块。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
推荐系统:推荐系统是一种以对象交互的信息及推荐物料数据为基础,用于关联对象和推荐物料样本的系统,能够帮助对象在海量的物料中筛选出所需信息,为对象提供适宜的信息推荐服务。
多任务学习(Multi-Task Learning,MTL):指多个任务共同学习、联合训练的学习过程,旨在通过各任务间的信息共享提升单个任务的性能和泛化能力。
序列评估:按照某种评估方法和打分标准,对生成的序列进行评估,叫做序列评估。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
近年来,随着人工智能技术研究和进步,人工智能技术在多个领域得到广泛应用,本申请实施例提供的方案涉及人工智能的机器学习/深度学习和自然语言处理等技术,具体通过如下实施例进行说明。
请参阅图1,图1是本申请实施例提供的一种应用环境的示意图,如图1所示,该应用环境可以至少包括终端01和服务器02。在实际应用中,终端01和服务器02可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
本申请实施例中的服务器02可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
具体地,云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术能够应用于各种领域,如医疗云、云物联、云安全、云教育、云会议、人工智能云服务、云应用、云呼叫和云社交等,云技术基于云计算(cloud computing)商业模式应用,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”,“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为IaaS(Infrastructure as a Service,基础设施即服务))平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备、网络设备。
按照逻辑功能划分,在IaaS层上可以部署PaaS(Platform as a Service,平台即服务)层,PaaS层之上再部署SaaS(Software as a Service,软件即服务)层,也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台,如数据库、web容器等。SaaS为各式各样的业务软件,如web门户网站、短信群发器等。一般来说,SaaS和PaaS相对于IaaS是上层。
具体地,上述涉及的服务器02可以包括实体设备,可以具体包括有网络通信子模块、处理器和存储器等等,也可以包括运行于实体设备中的软体,可以具体包括有应用程序等。
具体地,终端01可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、智能语音交互设备、智能家电、智能可穿戴设备、车载终端设备等类型的实体设备,也可以包括运行于实体设备中的软体,例如应用程序等。
本申请实施例中,终端01可以用于向服务器02发送资源数据筛选指令和目标对象信息,以使服务器02执行对应的资源数据筛选操作。服务器02可以用于提供资源数据筛选服务,以得到与目标对象匹配的目标资源数据。可以理解的,服务器02还可以用于提供目标预测模型的模型训练服务,以及还可以用于存储训练样本集和训练数据等。
此外,可以理解的是,图1所示的仅仅是一种资源数据筛选方法的应用环境,该应用环境可以包括更多或更少的节点,本申请在此不做限制。
本申请实施例涉及的应用环境,或应用环境中的终端01和服务器02等可以是由客户端、多个节点(接入网络中的任意形式的计算设备,如服务器、用户终端)通过网络通信的形式连接形成的分布式系统。分布式系统可以为区块链系统,该区块链系统可以提供上述的资源数据筛选服务和数据存储服务等。
在推荐系统中,主要包含以下5个子系统,对象属性服务子系统、召回子系统、粗排子系统、精排子系统和重排子系统。请参考图3,对象属性服务子系统基于对象交互数据统计上报服务提供的对象历史交互数据(如点击的文章等资源)和注册信息等,累积和储存了对象的长期、短期兴趣和基础信息,为召回和排序提供物料基础。召回模块负责从海量资源中初步寻找对象潜在关联的资源,由于召回环节返回的资源物料数量太多,因此在召回和精排之间加入一个粗排环节,通过少量对象和资源特征,以及简单的模型,来对召回的结果进行粗略排序,在保证一定精准的前提下,进一步减少向后传送的资源物料数量;在精排环节,将多维特征输入到结构复杂、性能较高的模型中,尽量精准地对资源进行个性化排序。排序完成后,将这些资源物料传给重排子系统,现有技术中,在重排子系统中,通常基于重排技术和业务策略,比如去重、打散、多样性保证、固定类型物品插入等等,进行资源序列生成,结合当前的推荐场景将适合的资源序列直接推送至目标对象。但由于模型输入的特征有限,且受重排阶段的打散等规则的限制,生成的资源序列效果较差,尤其是对于活跃度较低的对象(如中低活对象)来说,其对象属性数据缺失量较大,更加难以精准推荐,体验差。
为了解决上述问题,本申请的资源数据筛选方法,在重排环节中,候选资源数据(如资源序列)生成后,对生成的多个候选资源数据进行资源数据评估,请参考图3,再结合生成的任务指标进行数据筛选,有效提高推荐效果。此外,与目标对象间的相关交互操作数据可以更新至对象交互操作统计上报服务,以实现数据迭代。
一个实施例中,本申请的资源数据筛选方法在重排阶段的流程原理如图4所示,召回模块获得所有资源物料经过粗排过滤,再到精排模型获得点击、互动等预估分数,得到候选集,如Listwise候选集,被送入重排阶段。首先是基于多种资源数据生成算法生成多个候选资源数据,每一候选资源数据可以为一个候选序列,在满足打散策略、多样性、强插等条件基础上,对特定对象进行个性化的资源数据生成,生成方式可同现有技术,可按照不同的推荐目标生成多条候选序列(Q1,Q2…Qi),如侧重点击的序列、侧重深度转化的序列、侧重总时长的序列等等。在候选资源数据生成后,基于本申请的资源数据筛选方法对候选资源数据进行评估,得到多个任务指标,进而基于多个任务指标从多个维度进行评估和打分,再将评估结果按照一定的方式融合,得到目标指标,如采用曝光概率作为权重,对各个资源元素(Item)的点击率加权。最后,选择目标指标表征的评分最高的资源数据作为目标资源数据。
以下结合图5和图6介绍本申请的目标预测模型,目标预测模型包括特征嵌入模块、多特征提取模块和多任务预测模块,特征嵌入模块用于接收对象属性数据和候选资源数据,以进行特征嵌入;多特征提取模块包括资源专家模块,以及由共享专家网络和独有专家网络构成的融合专家模块(图6中的共享专家网络1和独有专家网络2-n);多任务预测模块包括权重生成网络和预测网络,每一个预测任务对应一个权重生成网络和预测网络形成的任务预测子模型。需要说明的是,图6中未示出预测网络2等的权重生成网络及其与特征提取模块间的连线,但其与预测网络1相类似,对应权重生成网络2,并与资源专家模块、共享专家网络1和独有专家网络3连接。
该目标预测模型使用多任务模型作为主体结构,如图6所示,涉及的多个预测任务可以包括但不限于预测点击概率、预测曝光概率、预测总时长等,模型中,资源专家模块用于对资源的资源特征进行特征提取,可以采用Transformer结构,能够有效的利用序列特征,从前向和后向两个方向学习Item的交互特征,融合专家模块用于对融合特征进行特征提取,可以采用MLP结构,在兼顾模型耗时的同时,尽可能提升模型的预测能力。通过该模型结构,实现多个相近任务协同学习的效果,在共享学习的同时,也能保留各自任务独有的信息。
如此,模型的主体部分分别采用Transformer结构和MLP结构作为两个共享的学习模块,Transformer利用self-attention实现了在序列中学习不同位置的特征之间的关联,有效的利用了序列级别的特征,从前向和后向两个方向提取Item的交互特征,起到序列建模的作用;从模型轻量化的角度出发,每个任务定制的模块只采用简单的MLP结构,在保留提取特征信息能力的同时,缩短了模型训练和推理的时间。
以下基于上述应用环境介绍本申请的一种资源数据筛选方法,本申请实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。请参考图2,图2是本申请实施例提供的一种资源数据筛选方法的流程示意图,本说明书提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体地,如图2所示,方法可以包括下述步骤S201-S211。
S201:获取目标对象的目标活跃类别。
具体地,活跃类别是基于对象的交互活跃度划分的,交互活跃度表征对象的针对某一业务或某一平台的交互操作的活跃程度,交互操作可以包括但不限于点击操作、转化操作、曝光操作等。示例性的,活跃类别可以包括中低活类别和高活类别,或者也可以分为低活类别、中活类别和高活类别等。
S203:基于特征嵌入模块,获取目标对象的对象属性特征和目标对象关联的多个候选资源数据各自的资源特征。
具体地,目标对象关联的多个候选资源数据是基于前述的重排子系统通过候选资源数据生成处理得到的。候选资源数据可以为候选序列,候选序列中的资源元素可以包括但不限于文章、图片、图文或视频等。
实际应用中,获取目标对象的对象属性数据和多个候选资源数据;对象属性数据可以基于前述的对象属性数据服务提供,用于描述对象的基本属性、交互属性和设备属性等。将对象属性数据和多个候选资源数据输入特征嵌入模块,分别对对象属性数据和多个候选资源数据进行特征嵌入,得到对象属性特征和多个候选资源数据各自的资源特征。通过特征嵌入模块对对象属性数据进行特征编码,得到对象属性特征,对候选资源数据进行特征编码,得到资源特征(对应图6中的特征I)。
S205:将资源特征与对象属性特征融合,得到多个候选资源数据各自的融合特征。
具体地,这里的特征融合可以具体为拼接,将单个资源特征与对象属性特征融合,得到相应的融合特征(对应图6中的特征UI),以作为多特征提取模块的输入。
S207:对多个候选资源数据中的每一候选资源数据,将资源特征和融合特征输入多特征提取模块,进行与目标活跃类别匹配的多网络特征提取,得到资源特征对应的共享资源特征和融合特征对应的多个候选特征。
本申请实施例中,多特征提取模块包括资源专家模块和融合专家模块,融合专家模块包括至少两种活跃类别各自对应的特征提取分支。通过设置多个特征提取分支,以分别匹配不同活跃类别的对象的融合特征提取操作,以通过专用网络分支充分学习相应活跃类别对象的属性与数据间的相关性等信息,进而实现不同类别对象的资源精准评分,提高推荐效果。相应的,S207可以包括S301-S305。
S301:将候选资源数据的资源特征输入资源专家模块,进行资源特征提取,得到共享资源特征。
具体地,资源专家模块可以包括至少一个资源专家网络,每一资源专家网络对候选资源数据的资源特征进行特征提取,得到一个共享资源特征,资源专家网络可以采用Transformer结构,可用于对整条序列进行建模,在每个位置的资源元素所求得的隐藏向量都包含整个序列的信息,基于自注意力机制充分学习候选资源数据中任意一个资源元素的前后文信息,以及与其它资源元素间的相关性,有利于资源数据的特征信息表达。共享资源特征作为各个预测任务对应的预测网络的输入,以实现任务间的资源数据的信息共享。
Transformer结构可用于对整条序列进行建模,比起传统的RNN、CNN模型,transformer的优势在于它在每个位置的Item求得的隐藏向量都包含整个序列的信息(这其实就是self-attention结构的优势,可建模出任意一个位置item和所有item的相关性)
S303:将候选资源数据的融合特征,输入融合专家模块中与目标活跃类别匹配的特征提取分支,进行多网络特征提取,得到融合特征对应的多个候选特征。
具体地,融合专家模块设置每一活跃类别对应的特征提取分支,如中低活对象对应的第一提取分支和高活对象对应的第二提取分支。融合专家模块包括共享专家网络和多个独有专家网络,均可基于MLP结构构建,共享专家网络的输出同样作为共享特征,输入值各个预测任务的预测网络,以使各预测任务实现融合信息共享,均学习和提取到对象属性、对象与数据间的相关性等信息。
具体地,共享专家网络和独有专家网络均包括至少两种活跃类别各自对应的特征映射塔,如图6所示,共享专家网络1包括第一特征映射塔和第二特征映射塔,独有专家网络2至独有专家网络n也分别具备第一特征映射塔和第二特征映射塔,第一特征映射塔可以用于对中低活对象对应的融合特征进行特征提取,第二特征映射塔对应高活对象。共享专家网络和多个独有专家网络的同种特征映射塔形成相关活跃类别对应的特征提取分支,即同一种活跃类别对应的特征映射塔形成同一特征提取分支,示例性的,图6中共享专家网络1的第一特征映射塔,以及独有专家网络2至n中的第一特征映射塔形成中低活对象对应的特征提取分支。
具体地,多个候选特征包括共享融合特征和多个独有特征;相应的,S303可以包括:将融合特征输入共享专家网络中与目标活跃类别匹配的特征映射塔,以进行特征提取,得到共享融合特征;如目标活跃类别为将中低活类别,则将基于中低活对象的对象属性特征与资源特征生成的融合特征,输入共享专家网络的第一特征映射塔,得到共享融合特征。将候选资源数据的融合特征,分别输入多个独有专家网络中与目标活跃类别匹配的特征映射塔,进行多网络特征提取,得到融合特征对应的多个独有特征;如将中低活对象对应的融合特征分别输入独有专家网络2至n的第一特征映射塔,每一独有专家网络的第一特征映射塔输出一个独有特征,进而得到n-1个独有特征。
S209:将共享资源特征、多个候选特征和融合特征输入多任务预测模块,对每一候选资源数据进行与目标活跃类别匹配的多任务预测处理,得到多个候选资源数据各自对应的多个任务指标。
具体地,多任务预测模块包括多个权重生成网络和多个预测网络,权重生成网络、预测网络和任务指标一一对应。可以理解的,任务指标对应预测任务,即多任务模块包括多个预测任务各自对应的任务预测子模型,每一任务预测子模型包括该预测任务对应的权重生成网络和预测网络,用于执行该预测任务的任务指标预测操作。
基于活跃类别拆塔,与前述特征提取模块相类似的,权重生成网络包括至少两种活跃类别各自对应的权重映射塔,预测网络包括至少两种活跃类别各自对应的预测塔,多任务预测模块中的同种活跃类别对应的权重映射塔和预测塔形成该活跃类别对应的任务预测分支;如图6中,多任务预测模块包括权重生成网络1至K和预测网络1-K,权重生成网络1至K均各自包括第一权重映射塔和第二权重映射塔,预测网络1-K均各自包括第一预测塔和第二预测塔。权重生成网络1至K的第一权重映射塔/预测网络1至K的第一预测塔形成中低活类别的任务预测分支。具体地,进行与目标活跃类别匹配的多任务预测处理是指,利用目标活跃类别对应的任务预测分支,进行候选资源数据的各预测任务的指标预测。
相应的,S209可以包括S401-S405。
S401:针对每一候选资源数据,基于多个权重生成网络各自与目标活跃类别匹配的权重映射塔,分别对候选资源数据的融合特征进行权重映射,得到多个任务指标中每一任务指标对应的融合权重参数。
具体地,以图6为例,存在K个预测任务1-K,即具有K个任务指标,若目标活跃类别为中低活类别,对于单个候选资源数据,将其融合特征输入权重生成网络1-K中的第一权重映射塔,以使权重生成网络1-K分别输出任务指标1-K所对应的融合权重参数1-K。示例性的,中低活类别的特征UI输入权重生成网络的第一权重映射塔中。
一些实施例中,融合权重参数可以为权重向量,基于多个融合权重系数形成,权重向量维度基于资源专家模块的资源专家网络的数量a,共享专家网络的数量b和相应预测网络关联连接的独有专家网络的数量c确定,具体地权重向量维度=a+b+c。如图6中,预测网络1输出的融合权重参数的权重向量维度为3,分别包括共享资源特征对应的融合权重系数γ1、共享融合特征对应的融合权重系数γ2和独有专家网络2输出的独有特征的融合权重系数γ3,一个实施例中,融合权重参数中各融合权重系数的累加和为1。
一些实施例中,模型主体结构可以是采用门控机制的共享和定制的多任务结构,权重生成网络可以具体为门控网络,由单层前馈网络组成,经过Softmax激活函数输出各专家网络的融合权重。
S403:基于融合权重参数,将共享资源特征和共享融合特征,分别与每一任务指标对应的目标独有特征加权融合,得到每一任务指标对应的目标特征。
具体地,目标独有特征为多个独有特征中与任务指标关联的至少一个独有特征,即与任务指标对应的预测任务,所需输入的独有特征,如图6中,任务指标1对应预测任务1,任务预测子模型包括预测网络1和权重生成网络1,独有专家网络2输出的独有特征为目标独有特征。可以理解的,若关联两个独有专家网络,则包括2个目标独有特征。
将作为单个预测网络的输入特征进行加权融合,得到目标特征。目标特征可以是对共享资源特征、共享融合特征和至少一个独有特征形成的资源特征矩阵与融合权重参数相乘处理得到的。可以采用下述公式表达,其中,k∈(1,K),是预测任务编号,x表征底层输入特征(融合特征和资源特征),gk(x)表征任务指标k(即预测任务k)对应的目标特征k,wk(x)表征融合权重参数k,是通过线性变换和Softmax层得到的权重向量,用于融合指定的专家网络输出的特征,Sk(x)表征上述资源特征矩阵k。
gk(x)=wk(x)Sk(x)
一个实施例中,其中,ml为预测任务关联的共享专家网络的数量与资源专家模块中资源专家网络的数量之和,如图6中,资源专家模块包括1个资源专家网络,预测任务1关联1个共享专家网络,则ml为2;ms为预测任务关联的独有专家网络的数量,图6示例中,预测任务1关联1个独有专家网络,ms为1;d为融合权重参数的维度;/>表征预测任务k包含的ml个专家网络和ms个特定的独有专家网络的融合参数矩阵。
进一步地,其中,E表征需进行融合处理得到特征,如/>为资源特征矩阵k中独有专家网络(s,1)输出的独有特征。以图6为例,/>对应共享资源特征,/>对应共享融合特征,/>对应独有专家网络2输出的独有特征。
S405:将目标特征输入相关任务指标对应的预测网络中,以基于目标活跃类别对应的预测塔进行相关任务指标对应的指标预测处理,得到每一候选资源数据对应的多个任务指标。
具体地,每一个权重生成网络输出一个预测任务对应的目标特征,将该目标特征输入到其对应预测网络中目标活跃类别对应的预测塔,得到该预测任务的任务指标。如中低活类别的目标特征1输入预测网络1的第一预测塔中。
具体地,K个预测任务的情况下,每一候选资源数据对应K个任务指标,以图6为例,预测任务1的目标特征1(g1(x))输入预测网络1,得到任务指标1,依次类推,得到任务指标1至K。任务指标可以基于下述公式表达。
yk(x)=tk(gk(x))
其中,上式中的tk表示第k个任务的预测塔,yk(x)表征第k个任务针对候选资源数据x的任务指标。
S211:基于多个任务指标,对多个候选资源数据进行数据筛选,得到目标对象对应的目标资源数据。
具体地,以每一候选资源数据的多个任务指标,对该候选资源数据进行资源数据评估,得到候选资源数据的目标指标,目标指标相当于候选资源数据的评分,目标指标表征候选资源数据,与目标对象和预设下发任务间的综合关联程度;目标指标的值越大,表征综合关联程度越高,候选资源数据为目标资源数据的几率越高,反之越低。确定出目标资源数据后,将其作为推荐数据,针对目标对象进行推送下发。目标资源数据可以为目标序列,一些场景下,目标序列可以将各资源元素依序展示,形成多个资源展示页面。
实际应用中,S211可以包括S501-S505。
S501:将候选资源数据对应的多个任务指标中,与预设下发任务关联的任务指标确定为目标任务指标。
具体地,多个预测任务的预测目标可以包括但不限于曝光概率、点击概率、转化概率等,资源筛选可以基于多个任务指标中的一个或多个执行,如以点击为推荐目标的预设下发任务中,可以以曝光概率和点击概率等与点击交互操作相关的任务指标作为目标任务指标。
S503:基于目标任务指标进行每一候选资源数据的指标融合处理,得到多个候选资源数据各自的目标指标。
具体地,将单个候选资源数据的得各目标任务指标进行加权融合处理,得到目标指标。
实际应用中,候选资源数据包括基于预设顺序排序的多个资源元素,为由多个资源元素形成的候选序列,单个任务指标则包括其中每一个资源元素的指标值,即每一目标任务指标包括多个资源元素各自的指标值;相应的,将候选资源数据对应的各目标任务指标中,同一资源元素的各个指标值进行融合计算,得到多个资源元素各自的融合指标值,融合指标值表征基于全部目标任务指标对该资源元素进行评估所得到的评分值,这里的融合计算可以为相乘处理;将多个信息元素各自的融合指标值进行加和处理,得到候选资源数据的目标指标。
一些实施例中,目标指标可以基于下述公式计算,其中,R表征目标指标,j为资源元素标识,h为候选资源数据中资源元素的数量,ωjr表征候选资源数据中资源元素j的目标任务指标r。
一些情况下,资源元素可以包括多种资源类别,如文章和视频等,则针对每一资源类别,对候选特征数据中属于该资源类别的资源元素,进行融合指标值的加和处理,得到每一资源类别对应的资源类别指标,再将候选资源数据对应的各资源类别指标进行加权加和处理,得到目标指标。具体地,以候选资源数据对应的资源类别包括文章和视频为例,目标指标可以基于下述公式计算,其中,R表征目标指标,j为资源元素标识,h1为候选资源数据中属于文章类别的资源元素的数量,h2为候选资源数据中属于视频类别的资源元素的数量,α为权重,可以为小于1的正数。
R=Rarticle+αRvideo
一些情况下,在进行相乘处理前,可以将得到的各目标任务指标进行数值映射,如归一化处理,以提高结果的可靠性。
S505:基于目标指标从多个候选资源数据中确定出目标资源数据。
具体地,基于目标指标对多个候选资源数据进行由大到小排序,将排序靠前的预设数量个候选资源数据确定为目标资源数据,可以理解的,若预设数量为1,则排序第一的候选资源数据为目标资源数据,若预设数量大于1,则获取预设数量个候选资源数据后,对其中的元素进行去重处理,得到目标资源数据。
基于上述部分或全部实施方式,本申请还提供一种目标预测模型的训练方法,目标预测模型是基于第一活跃类别的样本对象的对象属性数据、关联的样本资源数据和多个预测任务对应的任务标签,以第一活跃类别对应的网络分支作为教师模型、以第二活跃类别对应的网络分支作为学生模型,对初始预测模型进行基于蒸馏学习的多任务指标的预测约束训练,以及协同基于第二活跃类别的样本对象的对象属性数据、关联的样本资源数据和多个预测任务对应的任务标签,对初始预测模型中第二活跃类别对应的网络分支进行多任务指标的预测约束训练所得到的。其中,网络分支包括特征嵌入模块,多特征提取模块中的资源专家模块和融合专家模块中一个活跃类别对应的特征提取分支,以及多任务预测模块中该活跃类别对应的任务预测分支,如图6中特征嵌入模块/资源专家模块/共享专家网络1的第一特征映射塔/独有专家网络2至n的第一特征映射塔/权重生成网络1至K的第一权重映射塔/预测网络1至K的第一预测塔形成中低活类别对应的网络分支。具体地,请参考图8,训练方法可以包括下述步骤S601-S611。
S601:获取样本训练集。
具体地,样本训练集包括至少两种活跃类别的样本对象对应的对象属性数据,样本对象关联的样本资源数据,以及样本资源数据对应的多个任务标签,任务标签与任务指标一一对应,基于预测任务一一对应,至少两种活跃类别包括第一活跃类别和至少一个第二活跃类别,第一活跃类别表征的交互活跃度高于第二活跃类别。任务标签表征样本对象针对样本资源数据在相应预测任务上的真值,如表征样本对象是否点击了样本资源数据。相类似的,样本资源数据可以为样本序列,包括多个资源元素。示例性的,第一活跃类别为高活类别,第二活跃类别为中低活类别,或者,第一活跃类别为高活类别,两个第二活跃类别分别为中活类别和低活类别。
S603:将第一活跃类别的样本对象的对象属性数据和关联的样本资源数据输入初始预测模型,联合进行至少两种活跃类别各自对应的多任务指标的预测,得到第一活跃类别下,样本资源数据对应的多个第一任务指标,以及每一第二活跃类别下,样本资源数据对应的多个第二任务指标。
可以理解地,第一任务指标和第二任务指标的获取方式与前述任务指标的生成方式相类似。多个第一任务指标由第一活跃类别对应的特征映射塔、权重映射塔和预测塔生成,相类似的,每一第二活跃类别对应的特征映射塔、权重映射塔和预测塔,生成相应的多个第二任务指标。如图6中,第一特征映射塔、第一权重映射塔和第一预测塔可以用于针对中低活对象,生成多个第一任务指标,第二特征映射塔、第二权重映射塔和第二预测塔可以用于针对高活对象,生成多个第二任务指标。需要说明的是,若包括多个第二活跃类别,则在各网络中增加拆塔数量,如两个第二活跃类别,则特征映射塔、权重映射塔和预测塔分别为三个。
实际应用中,S603可以包括S701-S707。
S701:将第一活跃类别的样本对象的对象属性数据和关联的样本资源数据输入初始预测模型的特征嵌入模块,得到样本对象属性特征和样本资源特征,并将样本对象属性特征和样本资源特征融合,得到样本融合特征。
S703:对样本对象属性特征进行特征掩码处理,得到各第二活跃类别各自对应的模拟属性特征,并将模拟属性特征与样本资源特征融合,得到各第二活跃类别各自的样本模拟融合特征。
可以理解的,这里的特征嵌入处理和特征融合与前述相类似,再次不做赘述。
具体地,特征掩码处理可以为对padding操作,如样本对象属性特征中包括多种属性数据对应的特征,随机对其中的部分属性数据对应的特征进行赋0操作,以遮挡部分特征,用于模拟低活特征,随机概率可以基于统计的第二活跃类别相对于第一活跃类别的特征缺失比例确定,如基于中低活类别相对高活对象的特征缺失比例确定。如此,基于不同活跃类别的特征分布差异,随机的对高活对象的特征掩码,达到高活对象特征分布接近较低活跃度的对象特征分布的目的,从而增加训练数据,缓解模型过拟合问题。
S705:以样本资源特征和样本融合特征作为输入,基于初始预测模型的多特征提取模块和多任务预测模块,进行第一活跃类别对应的多任务指标的预测,得到样本资源数据对应的多个第一任务指标。
S707:以样本资源特征和样本模拟融合特征作为输入,基于初始预测模型的多特征提取模块和多任务预测模块,进行每一第二活跃类别对应的多任务指标的预测,得到每一第二活跃类别下,样本资源数据对应的多个第二任务指标。
具体地,针对第一活跃类别对象(如高活对象),以同一样本资源数据的样本资源特征/样本融合特征/样本模拟融合特征形成特征组,同组的样本资源特征输入资源专家模块,样本融合特征输入第一活跃类别的特征映射塔(如第二特征映射塔),样本模拟融合特征输入第二活跃类别的特征映射塔(如第一特征映射塔),得到同一样本资源数据的共享资源特征,第一活跃类别的特征映射塔输出的多个第一候选特征,以及多个第二活跃类别的特征映射塔输出的多个第二候选特征。
S605:将第二活跃类别的样本对象的对象属性数据和关联的样本资源数据输入初始预测模型,进行第二活跃类别对应的多任务指标的预测,得到每一第二活跃类别下,样本资源数据对应的多个第三任务指标。
与前文类似的,采用资源专家模块、共享专家网络中第一活跃类别对应的特征提取塔、独有专家网络中第一活跃类别对应的特征提取塔进行特征提取,并将输出通过第一活跃类别对应的权重映射塔和预测塔进行任务指标预测,得到第一任务指标。第二任务指标和第三任务指标的获取方式和S705相类似,不再赘述。
S607:基于多个任务标签、多个第一任务指标和每一第二活跃类别对应的多个第二任务指标,确定第一目标损失。
具体地,第一目标损失为基于蒸馏学习的模型训练所对应的损失。
S609:基于多个任务标签和每一第二活跃类别对应的多个第三任务指标,确定各第二活跃类别各自对应的第二目标损失。
具体地,第二目标损失为一种第二活跃类别的单网络分支的模型训练所对应的损失。
S611:根据第一目标损失更新初始预测模型的整体网络参数,整体网络参数包括共享网络参数和与各活跃类别各自对应的分支网络参数,根据每一第二目标损失更新共享网络参数和相关第二活跃类别对应的分支网络参数,直至满足训练结束条件,得到目标预测模型。
具体地,满足训练结束条件可以为达到预设迭代次数,或第一目标损失和第二目标损失满足预设损失条件。根据蒸馏学习得到的第一目标损失更新整体网络参数,根据一种第二活跃类别对应的第二目标损失,更新该第二活跃类别对应的分支网络参数和共享网络参数,第一活跃类别对应的分支网络参数、以及其它第二活跃类别对应的分支网络参数固定不变。
在中低活对象和高活对象场景中,能够在模型头部和尾部单独拆分中低活预估模块,重点对中低活对象建模,并采用高活对象模拟中低活对象的方案,按照一定概率随机对高活对象的特征掩码,增加训练样本,避免中低活对象数据不足引入的模型过拟合问题,进一步提升中低活对象的目标预估效果。
实际应用中,S607可以包括S801-S811。
S801:根据任务标签和任务标签对应的第一任务指标,确定多个第一任务指标各自对应的第一任务损失。
具体地,在第一活跃类别下,针对每一预测任务进行损失计算,将预测网络中相应预测塔输出的第一任务指标,与该样本对象的在该预测任务上的任务标签带入该预测任务的损失函数,得到第一任务损失,如预测网络1的第二预测塔输出的高活类别对象的第一任务指标a1,与第一任务指标a1对应的任务标签a1计算得到第一任务损失a1,K个预测任务对应K个第一任务损失。
S803:对各第一任务损失进行聚合处理,得到第一聚合损失。
具体地,可以将K个第一任务损失中的部分或全部第一任务损失进行聚合处理,得到第一聚合损失,若K个预测任务为同类型的任务,如均为分类任务,则将全部第一任务损失进行聚合处理。
S805:根据任务标签和任务标签对应的第二任务指标,确定每一第二活跃类别下,多个第二任务指标各自对应的第一子任务损失。
具体地,第一子任务损失与第一任务损失的获取方式相类似,如预测网络1的第一预测塔输出的中低活类别对象的第二任务指标b1,与第二任务指标b1对应的任务标签b1计算得到第一子任务损失b1,K个预测任务对应K个第一子任务损失。在分类任务中,第一子任务损失可以为交叉熵损失。
S807:根据同一任务标签对应的第一任务指标和第二任务指标进行损失计算,得到每一第二活跃类别下,多个第二任务指标各自对应的第二子任务损失。
具体地,在同一预测任务中,以预测网络中第一活跃类别对应的预测塔的输出作为模拟标签,结合该预测网络中第二活跃类别对应的预测塔的输出,进行损失计算,如均方误差损失计算,得到第二子任务损失,该第二子任务损失为蒸馏学习的软损失。如针对预测任务1,预测网络1的第二预测塔输出的高活类别对象的第一任务指标a1作为模拟标签,计算第一预测塔输出的中低活类别对象的第二任务指标b1对应的第二子任务损失,K个预测任务对应K个第二子任务损失。如此,为活跃度较低的类别对应的类别塔提供更多的label信息,引入蒸馏学习,为活跃度较低的类别塔提供软loss,使模拟样本的输出更接近高活对象塔,避免过拟合,起到高活模型辅助中低活模型收敛的作用,提高针对中低活对象的预测准确率。
S809:对同一第二任务指标对应的第一子任务损失和第二子任务损失进行融合损失计算,得到每一第二活跃类别下,多个第二任务指标各自对应的第二任务损失。
具体地,这里的融合损失计算可以为加和处理。同一第二任务指标对应的第一子任务损失和第二子任务损失可以例如为,针对同一预测任务,预测网络1对高活对象1的同一样本资源数据的特征组(样本资源特征/样本融合特征/样本模拟融合特征)输出第一任务指标和第二任务指标,基于上述方式计算得到的第一子任务损失和第二子任务损失。
S811:在每一第二活跃类别下,对各第二任务损失进行聚合处理,得到第二聚合损失。
与第一聚合损失相类似的,可以将K个第二任务损失中的部分或全部第二任务损失进行聚合处理,得到第二聚合损失,若K个预测任务为同类型的任务,如均为分类任务,则将全部第二任务损失进行聚合处理。
进一步地,共享网络参数包括特征嵌入网络的网络参数、资源专家模块的网络参数和共享专家网络的网络参数。分支网络参数包括独有专家网络中特征映射塔的网络参数、权重映射塔的网络参数和预测塔的网络参数;S611中根据第一目标损失更新初始预测模型的整体网络参数可以包括S901-S905:
S901:根据第一聚合损失和第二聚合损失,调整共享网络参数。
具体地,可以将第一聚合损失和第二聚合损失融合,得到总聚合损失,以调整特征嵌入网络的网络参数、资源专家模块的网络参数,并基于第一聚合损失调整共享专家网络中第一活跃类别的特征映射塔(如图6中第二特征映射塔)的网络参数,基于第二聚合损失调整共享专家网络中第二活跃类别的特征映射塔(如图6中第一特征映射塔)的网络参数,以实现参数更新。
S903:根据第一任务损失,调整第一活跃类别对应的分支网络参数中,相关第一任务指标对应的独有专家网络的特征映射塔的网络参数、权重映射塔的网络参数和预测塔的网络参数。
具体地,除共享网络参数外,每一预测任务具备自身的分支网络参数,每一预测任务(即任务指标)与至少一个独有专家网络、一个权重生成网络和一个预测网络关联,则形成该预测任务的分支网络参数。
针对一个预测任务的第一任务损失,将该预测任务的网络分支中,独有专家网络中第一活跃类别对应的特征映射塔、第一活跃类别对应的权重映射塔的网络参数和预测塔的网络参数进行更新。如根据预测任务1的第一任务损失,更新独有专家网络2中第二特征映射塔、权重生成网络1的第二权重映射塔和预测网络1的第二预测塔的网络参数。
S905:根据第二任务损失,调整相关第二活跃类别对应的分支网络参数中,与相关第二任务指标对应的独有专家网络中特征映射塔的网络参数、权重映射塔的网络参数和预测塔的网络参数。
具体地,与S903相类似的,如根据预测任务1的第二任务损失,更新独有专家网络2中第一特征映射塔、权重生成网络1的第一权重映射塔和预测网络1的第一预测塔的网络参数。
如此,通过聚合损失、不同活跃类别的任务损失,进行共享网络参数和独有网络参数的更新,使模型能够充分学习对象和资源数据的多维度信息和多维度相关性,同时通过单独拆塔,实现不同活跃类别的建模优化,实现精细化建模,优化数据预测和评估的针对性和准确性。
一些实施例中,多个预测任务包括分类任务和回归任务,则引入的损失函数的形式总体可以分为两类,一类是分类任务,如曝光、点击和转化等,另一类是回归任务,如对总时长预测等。
相应的,S803可以包括:从各第一任务损失中筛选出分类任务对应的第一任务损失;对分类任务对应的第一任务损失进行聚合处理,得到第一聚合损失,
进一步地,S803可以包括:从各第二任务损失中筛选出分类任务对应的第二任务损失;对每一第二活跃类别下,分类任务对应的第二任务损失进行聚合处理,得到第二聚合损失。
以图6为例,预测网络1和2属于分类任务,预测网络k属于回归任务。
如此,将多个预测任务中的回归任务对应的预测网络,与资源专家网络、共享专家网络和特征嵌入模块间进行梯度截断处理,避免其梯度信息回传,排除回归任务的损失对共享网络参数的影响,以最大化相似任务之间的协同提升,最小化不同类别任务之间的干扰。具体地,引入曝光和点击等相似的分类任务,起到多个相近任务协同学习的作用,同时,对于时长等其他的任务,采用梯度截断的方式截断其梯度信息对共享模块的影响,显著提升各任务的预测效果。
基于上述部分或全部实施方式,一些实施例中,请参考图7,预测任务还可以分为短期任务和长期任务,长期任务的任务指标生成需结合部分短期任务的特征生成。短期任务可以例如为前述的点击率、曝光率、转化率等任务,长期任务可以例如为下刷概率任务等,下刷概率是指对象针对推荐的资源序列所形成的多个显示页面,进行翻页操作等的概率。如图7所示,虚线框定的预测网络对应短期任务,预测网络k-1和预测网络k对应长期任务,预测网络k-1和预测网络k均需结合短期任务的预测网络中的中间特征进行任务预测。其预测的任务指标可以基于下述公式表达,yk(x)′为预测任务k的对候选资源数据x的任务指标,fa(x)表征预测网络a的中间特征,可以为预测网络a的前馈网络输出的特征,预测网络a可以指代一个或多个短期任务的预测网络。如此,提供权衡考量短期收益和长期收益的指标,提高数据评估效果。
yk(x)′=tk(gk(x)+fa(x))
综上,本申请的技术方案可以应用于经过召回、粗排、精排三个阶段筛选出少量的Item后送入重排环节的场景,对生成的多个序列预测各目标的分数,然后对各序列的预测分数进行融合,选择最优序列推荐给目标对象。由于目标预测模型的输入是根据某对象生成的完整的推荐序列以及对象属性数据,因此,该目标预测模型与一般的point wise、listwise方法相比,能够知悉更多的特征信息,模型具备从局部和全局的角度提取信息的可能,提升了Item点击等目标预估的准确率;使用多任务模型联合输出各种对象操作预测的可能性,实现不同任务之间的信息迁移和共享,起到1+1>2的效果,同时简化了模型的运维流程,显著提高模型的开发、维护效率。上述方案可以应用于新闻推荐系统等场景中,在保证打散策略的情况下生成推荐的文章序列,然后基于上述方案进行预测评估,考虑了整个序列的局部和全局信息,使得模型对曝光、点击、深度转化等目标的预测更为准确。
本申请实施例还提供了一种资源数据筛选装置800,基于目标预测模型实现,目标预测模型包括特征嵌入模块、多特征提取模块和多任务预测模块,如图9所示,图9示出了本申请实施例提供的一种资源数据筛选装置的结构示意图,装置可以包括下述模块。
类别获取模块10:用于获取目标对象的目标活跃类别;
特征获取模块20:用于基于特征嵌入模块,获取目标对象的对象属性特征和目标对象关联的多个候选资源数据各自的资源特征;
特征融合模块30:用于将资源特征与对象属性特征融合,得到多个候选资源数据各自的融合特征;
特征提取模块40:用于对多个候选资源数据中的每一候选资源数据,将资源特征和融合特征输入多特征提取模块,进行与目标活跃类别匹配的多网络特征提取,得到资源特征对应的共享资源特征和融合特征对应的多个候选特征;
预测模块50:用于将共享资源特征、多个候选特征和融合特征输入多任务预测模块,对每一候选资源数据进行与目标活跃类别匹配的多任务预测处理,得到多个候选资源数据各自对应的多个任务指标;
数据筛选模块60:用于基于多个任务指标,对多个候选资源数据进行数据筛选,得到目标对象对应的目标资源数据。
一些实施例中,多特征提取模块包括资源专家模块和融合专家模块,融合专家模块包括至少两种活跃类别各自对应的特征提取分支,活跃类别是基于对象的交互活跃度划分的;特征提取模块40包括:
资源特征提取子模块:用于将候选资源数据的资源特征输入资源专家模块,进行资源特征提取,得到共享资源特征;
多网络特征提取子模块:用于将候选资源数据的融合特征,输入融合专家模块中与目标活跃类别匹配的特征提取分支,进行多网络特征提取,得到融合特征对应的多个候选特征。
一些实施例中,融合专家模块包括共享专家网络和多个独有专家网络,共享专家网络和独有专家网络均包括至少两种活跃类别各自对应的特征映射塔,共享专家网络和多个独有专家网络的同种特征映射塔形成相关活跃类别对应的特征提取分支,多个候选特征包括共享融合特征和多个独有特征;多网络特征提取子模块包括:
特征提取单元:用于将融合特征输入共享专家网络中与目标活跃类别匹配的特征映射塔,以进行特征提取,得到共享融合特征;
多网络提取单元:用于将候选资源数据的融合特征,分别输入多个独有专家网络中与目标活跃类别匹配的特征映射塔,进行多网络特征提取,得到融合特征对应的多个独有特征。
一些实施例中,多任务预测模块包括多个权重生成网络和多个预测网络,权重生成网络、预测网络和任务指标一一对应,权重生成网络包括至少两种活跃类别各自对应的权重映射塔,预测网络包括至少两种活跃类别各自对应的预测塔;预测模块50包括:
权重映射子模块:用于针对每一候选资源数据,基于多个权重生成网络各自与目标活跃类别匹配的权重映射塔,分别对候选资源数据的融合特征进行权重映射,得到多个任务指标中每一任务指标对应的融合权重参数;
加权融合子模块:用于基于融合权重参数,将共享资源特征和共享融合特征,分别与每一任务指标对应的目标独有特征加权融合,得到每一任务指标对应的目标特征,目标独有特征为多个独有特征中与任务指标关联的至少一个独有特征;
指标预测子模块:用于将目标特征输入相关任务指标对应的预测网络中,以基于目标活跃类别对应的预测塔进行相关任务指标对应的指标预测处理,得到每一候选资源数据对应的多个任务指标。
一些实施例中,数据筛选模块60包括:
目标指标确定子模块:用于将候选资源数据对应的多个任务指标中,与预设下发任务关联的任务指标确定为目标任务指标;
指标融合子模块:用于基于目标任务指标进行每一候选资源数据的指标融合处理,得到多个候选资源数据各自的目标指标,目标指标表征候选资源数据,与目标对象和预设下发任务间的综合关联程度;
目标资源确定子模块:用于基于目标指标从多个候选资源数据中确定出目标资源数据。
一些实施例中,候选资源数据包括基于预设顺序排序的多个资源元素,每一目标任务指标包括多个资源元素各自的指标值;指标融合子模块:包括:
融合计算单元:用于将候选资源数据对应的各目标任务指标中,同一资源元素的各个指标值进行融合计算,得到多个资源元素各自的融合指标值;
加和处理单元:用于将多个信息元素各自的融合指标值进行加和处理,得到候选资源数据的目标指标。
一些实施例中,特征获取模块20包括:
获取子模块:用于获取目标对象的对象属性数据和多个候选资源数据;
特征嵌入子模块:用于将对象属性数据和多个候选资源数据输入特征嵌入模块,分别对对象属性数据和多个候选资源数据进行特征嵌入,得到对象属性特征和多个候选资源数据各自的资源特征。
一些实施例中,装置还包括:
样本获取模块:用于获取样本训练集,样本训练集包括至少两种活跃类别的样本对象对应的对象属性数据,样本对象关联的样本资源数据,以及样本资源数据对应的多个任务标签,任务标签与任务指标一一对应,至少两种活跃类别包括第一活跃类别和至少一个第二活跃类别,第一活跃类别表征的交互活跃度高于第二活跃类别;
第一指标预测模块:用于将第一活跃类别的样本对象的对象属性数据和关联的样本资源数据输入初始预测模型,联合进行至少两种活跃类别各自对应的多任务指标的预测,得到第一活跃类别下,样本资源数据对应的多个第一任务指标,以及每一第二活跃类别下,样本资源数据对应的多个第二任务指标;
第二指标预测模块:用于将第二活跃类别的样本对象的对象属性数据和关联的样本资源数据输入初始预测模型,进行第二活跃类别对应的多任务指标的预测,得到每一第二活跃类别下,样本资源数据对应的多个第三任务指标;
第一损失模块:用于基于多个任务标签、多个第一任务指标和每一第二活跃类别对应的多个第二任务指标,确定第一目标损失;
第二损失模块:用于基于多个任务标签和每一第二活跃类别对应的多个第三任务指标,确定各第二活跃类别各自对应的第二目标损失;
训练模块:用于根据第一目标损失更新初始预测模型的整体网络参数,整体网络参数包括共享网络参数和与各活跃类别各自对应的分支网络参数,根据每一第二目标损失更新共享网络参数和相关第二活跃类别对应的分支网络参数,直至满足训练结束条件,得到目标预测模型。
一些实施例中,第一指标预测模块包括:
特征嵌入子模块:用于将第一活跃类别的样本对象的对象属性数据和关联的样本资源数据输入初始预测模型的特征嵌入模块,得到样本对象属性特征和样本资源特征,并将样本对象属性特征和样本资源特征融合,得到样本融合特征;
特征掩码子模块:用于对样本对象属性特征进行特征掩码处理,得到各第二活跃类别各自对应的模拟属性特征,并将模拟属性特征与样本资源特征融合,得到各第二活跃类别各自的样本模拟融合特征;
第一多预测子模块:用于以样本资源特征和样本融合特征作为输入,基于初始预测模型的多特征提取模块和多任务预测模块,进行第一活跃类别对应的多任务指标的预测,得到样本资源数据对应的多个第一任务指标;
第二多预测子模块:用于以样本资源特征和样本模拟融合特征作为输入,基于初始预测模型的多特征提取模块和多任务预测模块,进行每一第二活跃类别对应的多任务指标的预测,得到每一第二活跃类别下,样本资源数据对应的多个第二任务指标。
一些实施例中,第一损失模块包括:
第一任务损失子模块:用于根据任务标签和任务标签对应的第一任务指标,确定多个第一任务指标各自对应的第一任务损失;
第一聚合损失子模块:用于对各第一任务损失进行聚合处理,得到第一聚合损失;
第一子任务损失子模块:用于根据任务标签和任务标签对应的第二任务指标,确定每一第二活跃类别下,多个第二任务指标各自对应的第一子任务损失;
第二子任务损失子模块:用于根据同一任务标签对应的第一任务指标和第二任务指标进行损失计算,得到每一第二活跃类别下,多个第二任务指标各自对应的第二子任务损失;
第二任务损失子模块:用于对同一第二任务指标对应的第一子任务损失和第二子任务损失进行融合损失计算,得到每一第二活跃类别下,多个第二任务指标各自对应的第二任务损失;
第二聚合损失子模块:用于在每一第二活跃类别下,对各第二任务损失进行聚合处理,得到第二聚合损失。
一些实施例中,共享网络参数包括特征嵌入网络的网络参数、资源专家模块的网络参数和共享专家网络的网络参数,分支网络参数包括独有专家网络中特征映射塔的网络参数、权重映射塔的网络参数和预测塔的网络参数;训练模块包括:
共享参数调整子模块:用于根据第一聚合损失和第二聚合损失,调整共享网络参数;
第一分支调整子模块:用于根据第一任务损失,调整第一活跃类别对应的分支网络参数中,相关第一任务指标对应的独有专家网络的特征映射塔的网络参数、权重映射塔的网络参数和预测塔的网络参数;
第二分支调整子模块:用于根据第二任务损失,调整相关第二活跃类别对应的分支网络参数中,与相关第二任务指标对应的独有专家网络中特征映射塔的网络参数、权重映射塔的网络参数和预测塔的网络参数。
一些实施例中,多个预测任务包括分类任务和回归任务,第一聚合损失子模块包括:
第一损失筛选单元:用于从各第一任务损失中筛选出分类任务对应的第一任务损失;
第一聚合单元:用于对分类任务对应的第一任务损失进行聚合处理,得到第一聚合损失;
第二聚合损失子模块包括:
第二损失筛选单元:用于从各第二任务损失中筛选出分类任务对应的第二任务损失;
第二聚合单元:用于对每一第二活跃类别下,分类任务对应的第二任务损失进行聚合处理,得到第二聚合损失。
需要说明的是,上述装置实施例与方法实施例基于相同的实施方式。
本申请实施例提供了一种资源数据筛选设备,该调度设备可以为终端或服务器,包括处理器和存储器,该存储器中存储有至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的资源数据筛选方法。
存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及资源数据筛选。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
本申请实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置等电子设备中执行。图10是本申请实施例提供的一种资源数据筛选方法的电子设备的硬件结构框图。如图10所示,该电子设备900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,CPU)910(处理器910可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器930,一个或一个以上存储应用程序923或数据922的存储介质920(例如一个或一个以上海量存储设备)。其中,存储器930和存储介质920可以是短暂存储或持久存储。存储在存储介质920的程序可以包括一个或一个以上模块,每个模块可以包括对电子设备中的一系列指令操作。更进一步地,中央处理器910可以设置为与存储介质920通信,在电子设备900上执行存储介质920中的一系列指令操作。电子设备900还可以包括一个或一个以上电源960,一个或一个以上有线或无线网络接口950,一个或一个以上输入输出接口940,和/或,一个或一个以上操作系统921,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
输入输出接口940可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括电子设备900的通信供应商提供的无线网络。在一个实例中,输入输出接口940包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口940可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图10所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,电子设备900还可包括比图10中所示更多或者更少的组件,或者具有与图10所示不同的配置。
本申请的实施例还提供了一种计算机可读存储介质,存储介质可设置于电子设备之中以保存用于实现方法实施例中一种资源数据筛选方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的资源数据筛选方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的方法。
由上述本申请提供的资源数据筛选方法、装置、设备、服务器、终端、存储介质和程序产品的实施例可见,本申请的技术方案结合目标对象的对象属性特征、关联的多个候选资源数据各自的资源特征和多个候选资源数据各自的融合特征,在目标预测模型中执行目标对象所属目标活跃类别所对应的多网络特征提取操作,进而得到该活跃类别匹配的共享资源特征和多个候选特征,然后,再对共享资源特征、多个候选特征和融合特征进行目标活跃类别匹配的多任务预测操作,得到每一候选资源数据的多个任务指标,以实现该目标活跃类别相应的资源数据的评估,在确保高活跃对象的资源评估和内容推荐效果的前提下,显著提升低活跃对象的相关评估和推荐效果;此外,对候选资源的资源特征进行单独的特征提取,得到共享资源特征,并结合对象属性特征、资源特征进行融合和进一步特征提取,得到候选特征,在充分学习资源信息、资源与对象间的相关性信息的前提下,实现资源评估,提升评估的输入信息维度和全面性,优化资源数据筛选准确性和推荐效果。
需要说明的是:上述本申请实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备和存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指示相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (15)
1.一种资源数据筛选方法,其特征在于,基于目标预测模型实现,所述目标预测模型包括特征嵌入模块、多特征提取模块和多任务预测模块,所述方法包括:
获取目标对象的目标活跃类别;
基于所述特征嵌入模块,获取所述目标对象的对象属性特征和所述目标对象关联的多个候选资源数据各自的资源特征;
将所述资源特征与所述对象属性特征融合,得到所述多个候选资源数据各自的融合特征;
对所述多个候选资源数据中的每一候选资源数据,将所述资源特征和所述融合特征输入所述多特征提取模块,进行与所述目标活跃类别匹配的多网络特征提取,得到所述资源特征对应的共享资源特征和所述融合特征对应的多个候选特征;
将所述共享资源特征、所述多个候选特征和所述融合特征输入所述多任务预测模块,对所述每一候选资源数据进行与所述目标活跃类别匹配的多任务预测处理,得到所述多个候选资源数据各自对应的多个任务指标;
基于所述多个任务指标,对所述多个候选资源数据进行数据筛选,得到所述目标对象对应的目标资源数据。
2.根据权利要求1所述的方法,其特征在于,所述多特征提取模块包括资源专家模块和融合专家模块,所述融合专家模块包括至少两种活跃类别各自对应的特征提取分支,所述活跃类别是基于对象的交互活跃度划分的;
所述对所述多个候选资源数据中的每一候选资源数据,将所述资源特征和所述融合特征输入所述多特征提取模块,进行与所述目标活跃类别匹配的多网络特征提取,得到所述资源特征对应的共享资源特征和所述融合特征对应的多个候选特征包括:
将所述候选资源数据的资源特征输入所述资源专家模块,进行资源特征提取,得到所述共享资源特征;
将所述候选资源数据的融合特征,输入所述融合专家模块中与所述目标活跃类别匹配的特征提取分支,进行多网络特征提取,得到所述融合特征对应的多个候选特征。
3.根据权利要求2所述的方法,其特征在于,所述融合专家模块包括共享专家网络和多个独有专家网络,所述共享专家网络和所述独有专家网络均包括至少两种活跃类别各自对应的特征映射塔,所述共享专家网络和所述多个独有专家网络的同种特征映射塔形成相关活跃类别对应的特征提取分支,所述多个候选特征包括共享融合特征和多个独有特征;
所述将所述候选资源数据的融合特征,输入所述融合专家模块中与所述目标活跃类别匹配的特征提取分支,进行多网络特征提取,得到所述融合特征对应的多个候选特征包括:
将所述融合特征输入所述共享专家网络中与所述目标活跃类别匹配的特征映射塔,以进行特征提取,得到所述共享融合特征;
将所述候选资源数据的融合特征,分别输入所述多个独有专家网络中与所述目标活跃类别匹配的特征映射塔,进行多网络特征提取,得到所述融合特征对应的多个独有特征。
4.根据权利要求3所述的方法,其特征在于,所述多任务预测模块包括多个权重生成网络和多个预测网络,所述权重生成网络、所述预测网络和所述任务指标一一对应,所述权重生成网络包括至少两种活跃类别各自对应的权重映射塔,所述预测网络包括至少两种活跃类别各自对应的预测塔;
所述将所述共享资源特征、所述多个候选特征和所述融合特征输入所述多任务预测模块,对所述每一候选资源数据进行与所述目标活跃类别匹配的多任务预测处理,得到所述多个候选资源数据各自对应的多个任务指标包括:
针对所述每一候选资源数据,基于多个权重生成网络各自与所述目标活跃类别匹配的权重映射塔,分别对所述候选资源数据的融合特征进行权重映射,得到所述多个任务指标中每一任务指标对应的融合权重参数;
基于所述融合权重参数,将所述共享资源特征和所述共享融合特征,分别与所述每一任务指标对应的目标独有特征加权融合,得到所述每一任务指标对应的目标特征,所述目标独有特征为所述多个独有特征中与所述任务指标关联的至少一个独有特征;
将所述目标特征输入相关任务指标对应的预测网络中,以基于所述目标活跃类别对应的预测塔进行所述相关任务指标对应的指标预测处理,得到所述每一候选资源数据对应的多个任务指标。
5.根据权利要求1-4中任一项所述的方法,其特征在于,基于所述多个任务指标,对所述多个候选资源数据进行数据筛选,得到所述目标对象对应的目标资源数据包括:
将所述候选资源数据对应的多个任务指标中,与预设下发任务关联的任务指标确定为目标任务指标;
基于所述目标任务指标进行所述每一候选资源数据的指标融合处理,得到所述多个候选资源数据各自的目标指标,所述目标指标表征所述候选资源数据,与所述目标对象和所述预设下发任务间的综合关联程度;
基于所述目标指标从所述多个候选资源数据中确定出所述目标资源数据。
6.根据权利要求5所述的方法,其特征在于,所述候选资源数据包括基于预设顺序排序的多个资源元素,每一所述目标任务指标包括所述多个资源元素各自的指标值;
所述基于所述目标任务指标进行所述每一候选资源数据的指标融合处理,得到所述多个候选资源数据各自的目标指标包括:
将所述候选资源数据对应的各目标任务指标中,同一资源元素的各个指标值进行融合计算,得到所述多个资源元素各自的融合指标值;
将所述多个信息元素各自的融合指标值进行加和处理,得到所述候选资源数据的目标指标。
7.根据权利要求1-4中任一项所述的方法,其特征在于,所述基于所述特征嵌入模块,获取所述目标对象的对象属性特征和所述目标对象关联的多个候选资源数据各自的资源特征包括:
获取所述目标对象的对象属性数据和所述多个候选资源数据;
将所述对象属性数据和所述多个候选资源数据输入所述特征嵌入模块,分别对所述对象属性数据和所述多个候选资源数据进行特征嵌入,得到所述对象属性特征和所述多个候选资源数据各自的资源特征。
8.根据权利要求1-4中任一项所述的方法,其特征在于,所述方法还包括:
获取样本训练集,所述样本训练集包括至少两种活跃类别的样本对象对应的对象属性数据,所述样本对象关联的样本资源数据,以及所述样本资源数据对应的多个任务标签,所述任务标签与所述任务指标一一对应,所述至少两种活跃类别包括第一活跃类别和至少一个第二活跃类别,所述第一活跃类别表征的交互活跃度高于所述第二活跃类别;
将所述第一活跃类别的样本对象的对象属性数据和所述关联的样本资源数据输入所述初始预测模型,联合进行所述至少两种活跃类别各自对应的多任务指标的预测,得到所述第一活跃类别下,所述样本资源数据对应的多个第一任务指标,以及每一第二活跃类别下,所述样本资源数据对应的多个第二任务指标;
将第二活跃类别的样本对象的对象属性数据和所述关联的样本资源数据输入所述初始预测模型,进行所述第二活跃类别对应的多任务指标的预测,得到每一第二活跃类别下,所述样本资源数据对应的多个第三任务指标;
基于所述多个任务标签、所述多个第一任务指标和所述每一第二活跃类别对应的多个第二任务指标,确定第一目标损失;
基于所述多个任务标签和所述每一第二活跃类别对应的多个第三任务指标,确定各第二活跃类别各自对应的第二目标损失;
根据所述第一目标损失更新所述初始预测模型的整体网络参数,所述整体网络参数包括共享网络参数和与各活跃类别各自对应的分支网络参数,根据每一第二目标损失更新所述共享网络参数和相关第二活跃类别对应的分支网络参数,直至满足训练结束条件,得到所述目标预测模型。
9.根据权利要求8所述的方法,其特征在于,所述将所述第一活跃类别的样本对象的对象属性数据和所述关联的样本资源数据输入所述初始预测模型,联合进行所述至少两种活跃类别各自对应的多任务指标的预测,得到所述第一活跃类别下,所述样本资源数据对应的多个第一任务指标,以及每一第二活跃类别下,所述样本资源数据对应的多个第二任务指标包括:
将所述第一活跃类别的样本对象的对象属性数据和所述关联的样本资源数据输入所述初始预测模型的特征嵌入模块,得到所述样本对象属性特征和样本资源特征,并将所述样本对象属性特征和样本资源特征融合,得到样本融合特征;
对所述样本对象属性特征进行特征掩码处理,得到各第二活跃类别各自对应的模拟属性特征,并将所述模拟属性特征与所述样本资源特征融合,得到各第二活跃类别各自的样本模拟融合特征;
以所述样本资源特征和所述样本融合特征作为输入,基于所述初始预测模型的多特征提取模块和多任务预测模块,进行所述第一活跃类别对应的多任务指标的预测,得到所述样本资源数据对应的多个第一任务指标;
以所述样本资源特征和所述样本模拟融合特征作为输入,基于所述初始预测模型的多特征提取模块和多任务预测模块,进行每一第二活跃类别对应的多任务指标的预测,得到每一第二活跃类别下,所述样本资源数据对应的多个第二任务指标。
10.根据权利要求8所述的方法,其特征在于,所述基于所述多个任务标签、所述多个第一任务指标和所述每一第二活跃类别对应的多个第二任务指标,确定第一目标损失包括:
根据所述任务标签和所述任务标签对应的第一任务指标,确定所述多个第一任务指标各自对应的第一任务损失;
对各第一任务损失进行聚合处理,得到第一聚合损失;
根据所述任务标签和所述任务标签对应的第二任务指标,确定所述每一第二活跃类别下,所述多个第二任务指标各自对应的第一子任务损失;
根据同一任务标签对应的第一任务指标和第二任务指标进行损失计算,得到所述每一第二活跃类别下,所述多个第二任务指标各自对应的第二子任务损失;
对同一第二任务指标对应的第一子任务损失和第二子任务损失进行融合损失计算,得到所述每一第二活跃类别下,所述多个第二任务指标各自对应的第二任务损失;
在所述每一第二活跃类别下,对各第二任务损失进行聚合处理,得到第二聚合损失。
11.根据权利要求10所述的方法,其特征在于,所述共享网络参数包括特征嵌入网络的网络参数、资源专家模块的网络参数和共享专家网络的网络参数,所述分支网络参数包括独有专家网络中特征映射塔的网络参数、权重映射塔的网络参数和预测塔的网络参数;
所述根据所述第一目标损失更新所述初始预测模型的整体网络参数包括:
根据所述第一聚合损失和所述第二聚合损失,调整所述共享网络参数;
根据所述第一任务损失,调整所述第一活跃类别对应的分支网络参数中,相关第一任务指标对应的独有专家网络的特征映射塔的网络参数、权重映射塔的网络参数和预测塔的网络参数;
根据所述第二任务损失,调整相关第二活跃类别对应的分支网络参数中,与相关第二任务指标对应的独有专家网络中特征映射塔的网络参数、权重映射塔的网络参数和预测塔的网络参数。
12.根据权利要求10所述的方法,其特征在于,多个预测任务包括分类任务和回归任务,所述对各第一任务损失进行聚合处理,得到第一聚合损失包括:
从所述各第一任务损失中筛选出所述分类任务对应的第一任务损失;
对所述分类任务对应的第一任务损失进行聚合处理,得到所述第一聚合损失;
所述在所述每一第二活跃类别下,对各第二任务损失进行聚合处理,得到第二聚合损失包括:
从所述各第二任务损失中筛选出所述分类任务对应的第二任务损失;
对所述每一第二活跃类别下,所述分类任务对应的第二任务损失进行聚合处理,得到所述第二聚合损失。
13.一种资源数据筛选装置,其特征在于,基于目标预测模型实现,所述目标预测模型包括特征嵌入模块、多特征提取模块和多任务预测模块,所述装置包括:
类别获取模块:用于获取目标对象的目标活跃类别;
特征获取模块:用于基于所述特征嵌入模块,获取所述目标对象的对象属性特征和所述目标对象关联的多个候选资源数据各自的资源特征;
特征融合模块:用于将所述资源特征与所述对象属性特征融合,得到所述多个候选资源数据各自的融合特征;
特征提取模块:用于对所述多个候选资源数据中的每一候选资源数据,将所述资源特征和所述融合特征输入所述多特征提取模块,进行与所述目标活跃类别匹配的多网络特征提取,得到所述资源特征对应的共享资源特征和所述融合特征对应的多个候选特征;
预测模块:用于将所述共享资源特征、所述多个候选特征和所述融合特征输入所述多任务预测模块,对所述每一候选资源数据进行与所述目标活跃类别匹配的多任务预测处理,得到所述多个候选资源数据各自对应的多个任务指标;
数据筛选模块:用于基于所述多个任务指标,对所述多个候选资源数据进行数据筛选,得到所述目标对象对应的目标资源数据。
14.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-12中任一项所述的资源数据筛选方法。
15.一种计算机设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1-12中任一项所述的资源数据筛选方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211534753.1A CN117216117A (zh) | 2022-11-29 | 2022-11-29 | 资源数据筛选方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211534753.1A CN117216117A (zh) | 2022-11-29 | 2022-11-29 | 资源数据筛选方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117216117A true CN117216117A (zh) | 2023-12-12 |
Family
ID=89037598
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211534753.1A Pending CN117216117A (zh) | 2022-11-29 | 2022-11-29 | 资源数据筛选方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117216117A (zh) |
-
2022
- 2022-11-29 CN CN202211534753.1A patent/CN117216117A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111931062B (zh) | 一种信息推荐模型的训练方法和相关装置 | |
CN111177575B (zh) | 一种内容推荐方法、装置、电子设备和存储介质 | |
CN109919316B (zh) | 获取网络表示学习向量的方法、装置和设备及存储介质 | |
CN110266745B (zh) | 基于深度网络的信息流推荐方法、装置、设备及存储介质 | |
CN113254792B (zh) | 训练推荐概率预测模型的方法、推荐概率预测方法及装置 | |
US20180203857A1 (en) | Automated data exploration and validation | |
CN111291170B (zh) | 一种基于智能客服的会话推荐方法及相关装置 | |
CN111506820B (zh) | 推荐模型、方法、装置、设备及存储介质 | |
CN111382190B (zh) | 一种基于智能的对象推荐方法、装置和存储介质 | |
CN112221159B (zh) | 一种虚拟道具推荐方法、装置及计算机可读存储介质 | |
EP4350572A1 (en) | Method, apparatus and system for generating neural network model, devices, medium and program product | |
CN111241394A (zh) | 数据处理方法、装置、计算机可读存储介质及电子设备 | |
CN113360777B (zh) | 内容推荐模型训练方法、内容推荐方法及相关设备 | |
CN111949886A (zh) | 一种用于信息推荐的样本数据生成方法和相关装置 | |
CN110222838B (zh) | 文档排序方法、装置、电子设备及存储介质 | |
CN114297338B (zh) | 文本匹配方法、装置、存储介质和程序产品 | |
CN113641835B (zh) | 多媒体资源推荐方法、装置、电子设备及介质 | |
CN112269943B (zh) | 一种信息推荐系统及方法 | |
CN110598127B (zh) | 一种群组推荐方法及装置 | |
CN116992151A (zh) | 一种基于双塔图卷积神经网络的在线课程推荐方法 | |
CN116957128A (zh) | 业务指标预测方法、装置、设备和存储介质 | |
CN113935251B (zh) | 用户行为预测模型的生成方法、用户行为预测方法及装置 | |
CN115203568A (zh) | 一种基于深度学习模型的内容推荐方法、相关装置及设备 | |
CN117216117A (zh) | 资源数据筛选方法、装置、电子设备和存储介质 | |
CN114298118B (zh) | 一种基于深度学习的数据处理方法、相关设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |