CN115131052A

CN115131052A - 一种数据处理方法、计算机设备和存储介质

Info

Publication number: CN115131052A
Application number: CN202110335353.7A
Authority: CN
Inventors: 张思远
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2022-09-30

Abstract

本申请实施例公开了一种数据处理方法、计算机设备和存储介质，该方法包括：获取用户集，该用户集包括N个用户以及N个用户中每个用户的用户画像特征；从用户集中确定目标用户，并从用户集中获取目标用户的互动用户，互动用户包括目标用户；获取该目标用户与该互动用户之间的互动亲密度、以及目标用户与候选广告数据之间的广告互动行为信息；根据互动亲密度、广告互动行为信息和互动用户的用户画像特征，生成目标用户与互动用户之间的关联权重值；根据关联权重值和互动用户的用户画像特征，生成目标用户的用户特征向量，目标用户的用户特征向量用于确定对目标用户进行投放的广告数据。采用本申请，可以提高广告数据的投放效率。

Description

一种数据处理方法、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种数据处理方法、计算机设备和存储介质。

背景技术

随着各种应用平台的不断兴起，应用平台中的用户数量也在日渐增加，因此，在各个应用平台中对用户进行广告投放以进行广告宣传的操作越发普遍。

现有技术中，广告数据通常是由指定的广告投放用户进行投放的，系统在对该广告投放用户的广告数据进行投放时，通常需要通过与该广告投放用户历史投放过的广告数据具有互动行为的用户的相关用户数据对模型进行训练，后续就可以通过训练得到的模型来确定对哪部分用户投放该广告投放用户的广告数据。由于广告投放用户通常有多个，系统需要对每个广告投放用户分别训练其所对应的模型，进而才能通过训练得到的每个广告投放用户各自对应的模型来确定其广告数据的投放人群。

由此可见，现有技术中需要耗费大量的时间训练各个广告投放用户各自对应的模型，进而才能通过训练得到的各个广告投放用户各自对应的模型分别确定各个广告投放用户的广告数据的投放人群，导致广告数据的投放效率低。

发明内容

鉴于上述问题，本申请实施例提供了一种数据处理方法、计算机设备和存储介质，可以提高广告数据的投放效率。

本申请实施例一方面提供了一种数据处理方法，包括：

获取用户集；用户集包括N个用户以及N个用户中每个用户的用户画像特征，其中，N为正整数；

从用户集中确定目标用户，并从用户集中获取目标用户的互动用户；互动用户包括目标用户；

获取目标用户与互动用户之间的互动亲密度，获取目标用户与候选广告数据之间的广告互动行为信息；

根据互动亲密度、广告互动行为信息和互动用户的用户画像特征，生成目标用户与互动用户之间的关联权重值；

根据关联权重值和互动用户的用户画像特征，生成目标用户的用户特征向量；目标用户的用户特征向量用于确定对目标用户进行投放的广告数据。

本申请实施例一方面提供了一种数据处理装置，包括：

获取模块，用于获取用户集；用户集包括N个用户以及N个用户中每个用户的用户画像特征，其中，N为正整数；

确定模块，用于从用户集中确定目标用户，并从用户集中获取目标用户的互动用户；互动用户包括目标用户；

获取模块，还用于获取目标用户与互动用户之间的互动亲密度，获取目标用户与候选广告数据之间的广告互动行为信息；

生成模块，用于根据互动亲密度、广告互动行为信息和互动用户的用户画像特征，生成目标用户与互动用户之间的关联权重值；

生成模块，还用于根据关联权重值和互动用户的用户画像特征，生成目标用户的用户特征向量；目标用户的用户特征向量用于确定对目标用户进行投放的广告数据。

本申请实施例一方面提供了一种计算机设备，包括：网络接口、处理器和存储器，网络接口、处理器与存储器相连接，网络接口用于提供数据通信功能，存储器用于存储计算机程序，处理器用于调用计算机程序，以执行本申请实施例中一方面中所描述的部分或全部步骤。

相应的，本申请实施例提供了一种存储介质，存储介质存储计算机程序，计算机程序包括程序指令，由一个或多个处理器加载并执行程序指令，以执行本申请实施例中一方面中的数据处理方法。

相应的，本申请提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行一方面的数据处理方法。

可以看出，本申请实施例中，通过用户的用户画像特征、目标用户和互动用户之间的互动亲密度以及目标用户和候选广告数据之间的广告互动行为信息，生成目标用户和互动用户之间的关联权重值，进而利用关联权重值、互动用户画像特征生成目标用户的用户特征向量，其中，互动亲密度将目标用户的不同互动用户区分开来，且关联权重值也体现了不同互动用户的画像特征向量对目标用户的用户特征向量的重要程度，引入广告互动行为信息辅助生成用户特征向量，可以使得用户特征向量的表达信息更丰富准确，进而有效提高广告数据投放的准确性。由于后续可以直接根据所生成的用户特征向量确定为用户进行投放的广告数据，因此也可以提升广告数据的投放效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种数据处理系统的架构示意图；

图2是本申请实施例提供的一种人群扩展提取模块的界面示意图；

图3是本申请实施例提供的一种数据处理方法的流程示意图；

图4是本申请实施例提供的一种语言表征模型的结构示意图；

图5是本申请实施例提供的一种注意力机制的结构示意图；

图6是本申请实施例提供的一种生成用户特征向量的场景示意图；

图7是本申请实施例提供的一种社交扩散算法的流程示意图；

图8是本申请实施例提供的一种数据处理方法的流程示意图；

图9是本申请实施例提供的一种数据处理方法的流程示意图；

图10是本申请实施例提供的一种数据处理装置的结构示意图；

图11是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，在不做特别说明的情况下，一般表示前后关联对象是一种“或”的关系。

本申请提供的技术方案属于人工智能技术中的机器学习，同时涉及云基础技术的大数据，下面对本申请提供的数据处理方案涉及的技术进行简要阐述。

云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术(Cloudtechnology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

其中，云基础技术类包括的大数据(Big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临，大数据也吸引了越来越多的关注，大数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。如本申请中的用户画像特征、用户特征向量都可存储在云技术中的分布式文件系统中。

另外，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。例如本申请中可以通过机器学习来生成用户的用户特征向量。

为了更好地理解本申请实施例的方案，下面先对本申请实施例可能涉及的相关术语和概念进行介绍。

人群定向：广告主在投放广告之前，需要在投放端圈定候选人群作为定向条件。人群定向是投放广告的首要步骤。

社交扩散：当广告已有的互动人群较少无法直接用于人群定向时，需要社交扩散功能从大盘人群中选出更多潜在的互动人群组成定向条件。社交扩散目标为最大化广告在朋友圈社交互动率以及广告的点击率。这里社交互动指一条广告在朋友圈收到的用户点赞和评论。

用户embedding:用户的特征一般以离散高维稀疏的方式存储于底层数据库。为了高效处理线上服务，需要把用户的高维稀疏画像特征映射到低维稠密空间，称为用户embedding。

用户画像：指根据用户的属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型，是真实用户的虚拟代表，描绘抽象一个自然人的属性，作为用户属性的集合，用户画像可以描述某一目标用户群体而不指代特定的某个人，也可以作为特定用户的特征标识。作为各类描述用户数据变量的集合，用户画像可以应用在广告系统、个性化推荐、活动营销等方面。

BERT：英文全称为BidirectionalEncoder Representations fromTransformers，意为来自变换器的双向编码器表征量，一种语言表征模型。

广告定向服务中的一个重要组件是人群扩散。当广告主需要在社交平台投放广告的时候，除了考虑广告在该社交平台的点击率，还要考虑广告获得更多的用户互动(点赞和评论)。传统的人群扩散算法因为只是基于用户自身的特征进行计算，忽略了用户之间的社交互动关系，所以无法满足在朋友圈场景下社交扩散需求。现有的社交扩散算法综合了用户社交影响力得分(反映用户能带来的潜在社交互动次数)和用户兴趣得分(基于用户自身特征以及亲密好友的特征计算)来寻找目标人群。虽然能同时提高点击率和互动次数，但是存在两方面的问题：一方面模型训练和预测时间长。现有算法需要对每个广告主的社交扩散任务单独生成训练样本，训练用户兴趣得分模型，然后对大盘用户分别计算兴趣得分和社交影响力得分，最后选出综合得分最大的用户生成社交扩散人群。因为每一个流程都是一个离线计算的任务，所以一次任务的时间都需要1小时以上，同时需要消耗大量的计算资源。另一方面没有考虑不同亲密好友特征在用户兴趣得分中的重要程度。现有算法直接把用户最亲密好友特征进行平均后进行模型训练，这会导致不同用户的好友特征并没有区分度，给兴趣得分模型引入了额外的噪音，降低了用户兴趣得分预测的准确性。

为解决上述问题，本申请实施例提出一种基于用户嵌入向量(embedding)的快速社交扩散方法，通过预先计算用户及其亲密好友的向量特征，省略了对每个广告主单独进行模型训练的时间，同时大大减少了模型预测的时间。其中，在预计算阶段，本申请实施例提出一种基于图注意力模型的社交互动打分模型，可以根据用户对每个好友的互动强度，以及用户和好友的画像特征，共同决定好友特征在用户表示时候的重要程度；在预测阶段，本申请实施例直接从数据库中读取带有好友特征的用户embedding信息，构成种子用户的embedding向量，然后直接用这个种子用户向量在广告召回阶段通过阈值过滤的方法确定请求广告的用户是否是社交扩散用户。相比当前需要使用号码包的方式进行人群定向的方式，本申请实施例极大减少了人群定向从提取到生效的时间，同时因为注意力机制的引入，本申请实施例能同时提高社交扩散人群投放广告的点击率和互动率。

请参阅图1，图1是本申请实施例提供的一种数据处理系统的架构示意图。如图1所示，该数据处理系统的架构可以包括服务器100以及终端设备101，终端设备101可以包括多个，每个终端设备101可以与上述服务器100进行网络连接，网络连接可以包括有线连接或无线连接，以便于每个终端设备可以通过该网络连接与服务器100进行数据交互，以及服务器100可以接收到来自于每个终端设备的业务数据。

其中，终端设备101可以用于向用户展示业务数据，该业务数据具体可以包括种子人群数量、目标扩散人群数量级、广告投放平台、人群扩展倾向等内容，从大体上分类可以包括广告数据和用户数据，广告数据例如是广告类别、广告ID、广告主ID、广告的曝光率、点击率、互动率等，用户数据例如是用户ID、用户的画像标签、扩散人群标签等。终端设备101还可以存储部分业务数据，例如从服务器100中拉取种子人群离线存储到终端设备101中，除此，终端设备101均可以集成安装目标应用，用于管理广告数据和用户数据，是一种数据管理平台，当然，该目标应用也可以以网页形式运行在终端设备101上，服务器100可以对目标应用产生的业务数据进行存储，并和各个终端设备101进行数据交互，例如用户通过目标应用可以上传用户数据给服务器100，也可以从服务器100下载用户数据或广告数据。

本申请实施例中，服务器100可以根据广告主上传的种子人群从大盘用户中筛选出相似用户，这些相似用户构成扩散人群，广告主可以将广告绑定给该扩散人群，系统在广告召回阶段召回对相似用户绑定的广告，作为用户的投放广告候选集，再从中选取部分合适的广告投放给用户。具体可以包括：服务器100上运行有社交扩散模型，把预测用户社交扩散得分的任务建模成一个二分类的问题，可以综合大盘用户中各个用户的画像特征、用户之间的互动亲密度以及样本数据中包括的用户和广告之间的互动信息这三部分数据来对模型进行训练，将最终得到的用户特征向量存储到数据引擎中，模型预测时通过该用户特征向量不仅可以确定广告主对应的种子向量，还可以进一步根据种子向量和用户特征向量确定相似用户，将其作为扩散人群。在广告召回系统中，召回广告主对扩散人群绑定的广告。在这个过程中，通过互动亲密度区分好友的重要程度，使得好友特征在用户特征向量的表示中权重占比不同，从而更准确地刻画用户特征向量，使得根据用户特征向量快速确定目标扩散人群，并使得投放广告数据效益更高。

以上方案主要是用于广告营销服务的数据管理平台中新建人群的一个模块：“人群扩展”，请参见图2，图2是本申请实施例提供的一种人群扩展提取模块的界面示意图，如图2所示，广告主可以在种子人群20浏览到上传的种子人群的属性，在目标人群数量21可以设置预期的扩散人数，是否包含种子人群也可以由广告主在包含种子人群22中自主选定，决定在最终的广告投放中是否投放给种子人群。当用户扩展倾向选择社交互动，投放平台选择朋友圈的时候，后台会调用上述社交扩散算法生成一个目标人群数量大小的人群包存入Hadoop分布式文件系统(Hadoop Distributed File System，HDFS)中，然后这个人群包会被推送到广告的投放端，作为用户自定义人群被用于广告定向。

在实际过程中，可基于区块链网络来部署该数据处理系统，即可将服务器100、用户终端101均部署在区块链网络中，或者将用户终端101部署在区块链网络外，将服务器100部署在区块链网络内等等。当将服务器100部署在区块链网络内，且服务器100是由多个物理服务器构成的服务器集群或者分布式系统时，每个物理服务器均可作为区块链网络中的节点。其中，此处所提及的区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。其本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块。在本申请所公开的数据处理方法，其中这些数据(如每个用户的用户特征向量、用户画像特征、互动亲密度等)可保存于区块链上。

本申请实施例中的终端设备可以包括：智能手机、平板电脑、笔记本电脑、桌上型电脑、智能电视、台式计算机、智能手表等智能终端设备，但并不局限于此。

可以理解的是，本申请实施例提供的方法可以由计算机设备执行，计算机设备包括但不限于上述服务器100。其中，服务器100可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

请参阅图3，图3是本申请实施例提供的一种数据处理方法的流程示意图，该实施例中的执行主体可以是一个计算机设备或者是多个计算机设备构成的集群，该计算机设备可以是终端设备，也可以是服务器，此处，以本实施例中的执行主体为服务器为例进行说明。如图3所示，该数据处理方法包括但不限于以下步骤S301-步骤S305：

步骤S301，获取用户集。

在一种可能的实施例中，用户集可以包括N个用户，这里的N为正整数，在N个用户中，每个用户都有自己的画像特征，称之为用户画像特征，用户画像特征对用户能实现准确的描述，具体数据表达形式通常采用向量形式。一个用户的用户画像特征可以包括该用户多维度的用户特征，包括年龄特征、职业特征以及兴趣标签特征等。示例的，用户画像的相关描述为：女、25岁、白领、211大学、互联网行业设计工作、单身、居住地北京、摇滚乐发烧友，对该用户画像对应的描述词语或句子采用相应方法，如词向量提取可以得到用户画像特征。每个用户可以有唯一的标识作为用户标识，即用户ID，示例的，社交平台用户的登录账号即可作为用户ID。综上，用户集可以是具备互动功能的平台中拥有用户标识的用户或者应用客户端的用户，例如注册社交平台账号的用户，通过在社交平台的活动记录日志，可以分析出对应的用户画像特征。对于用户集中包括的内容，在此不做限定。

步骤S302，从用户集中确定目标用户，并从用户集中获取目标用户的互动用户。

在一种可能的实施例中，通俗地讲，用户集即是大盘用户，可以基于该大盘用户实现广告定向或者其他服务。当需要对用户集中的用户进行相应处理时，可以从用户集中随机选定用户作为目标用户进行处理。在用户集是社交平台的所有注册用户时，用户和用户之间存在一定的联系，例如用户和用户之间相互关注，为好友关系，由此，每个用户都有好友列表，在这个好友列表中的每个好友也是用户集中的用户。当从用户集中确定好目标用户，也就可以得到该目标用户对应的互动好友作为互动用户，这里的互动可以是目标用户和互动用户之间的点赞和评论的互动，即互动用户对目标用户在社交平台上发布的社交动态进行点赞或评论，或者目标用户对互动用户在社交平台上发布的社交动态点赞或评论。由于目标用户也可以对自己发布的社交动态点赞或评论，因此可以将目标用户也视为自己的互动用户，这样互动用户可以包括目标用户和与目标用户有互动的好友。

步骤S303，获取目标用户与互动用户之间的互动亲密度，获取目标用户与候选广告数据之间的广告互动行为信息。

在一种可能的实施例中，对目标用户发布的社交动态有互动行为的用户作为互动用户，由于互动的频繁程度，可以用目标用户和互动用户之间的互动亲密度来衡量，表示目标用户和互动用户之间的亲密关系，对于不同的互动用户，即目标用户的不同好友，互动亲密度可能不同，对于互动亲密度的具体表达形式通常是数值的大小。对互动亲密度的获取方式可以参下述内容描述。由于互动用户包括目标用户，对应的，目标用户与互动用户之间的互动亲密度不仅有目标用户和互动好友之间的互动亲密度，还有目标用户和目标用户自身的互动亲密度。

作为一种可选的实施方式，对目标用户和互动用户之间的互动亲密度的获取方式可以包括：首先，获取目标用户与互动用户之间的用户互动行为信息，根据该用户互动行为信息获取目标用户与互动用户之间的互动次数。用户互动行为信息可以包括互动用户对目标用户的点赞和评论的互动行为所产生数据，包括互动次数，如点赞和评论的总次数5次作为互动次数。然后，获取用户互动行为信息对应的互动时间点，获取该互动时间点与当前时间点之间的时间差值。用户互动行为信息可以对应目标用户和互动用户之间的一个或多个互动时间点，互动时间点可以是互动日期，以天为单位，即互动用户对目标用户存在互动行为的具体的一天，可选的，互动时间点还可以是以小时或分或秒为单位进行统计，在此不做限制。用户互动行为信息和互动时间点(如互动日期)可以存储于用户的流水日志中，例如2021年2月1日互动用户对目标用户有点赞或评论行为中任一种或两种，后台数据日志会记录该互动时间点为2021年2月1日。当前时间点可以是互动亲密度计算的时间起点，和互动时间点的单位对应，例如当前时间点为2021年3月1日，若设置具体周期(如每周、每月或每天)进行计算，以当前时间点为起点，根据过去一个周期的单位时间内用户互动行为信息可以得到互动次数对应的时间差值。示例的，当前时间点为2021年3月1日，以28天为周期，以天为单位时间统计互动次数，互动时间点2021年2月1日的互动次数为5，对应的时间差值为当前时间点3月1日和互动时间点2月1日之间间隔的天数28，接着，可以根据时间差值确定时间衰减权重，再根据时间衰减权重对互动次数进行加权，得到互动亲密度。对于时间衰减权重的确定可以按照如下表达式(1)

其中，α为人工设置的固定值，通常取0.5，T_i表示互动时间点，T_cur表示当前时间点。

利用上述示例，互动次数和时间衰减权重之间的加权即5×W_t，若目标用户和互动用户在一个周期内只有这一个值，那么可以将5×W_t作为互动亲密度。通常而言，一个周期内(如一个月、一个周或一天)内的用户互动行为信息包括多个互动时间点之下的互动次数，每个互动时间点和当前时间点都存在时间差值，每个时间差值有时间衰减权重，还有对应的互动次数，可以将多个互动时间点下的互动次数和时间衰减权重加权求和，再进行归一化得到互动亲密度。简单地说，就是计算有互动的用户之间每天的互动次数行为序列，然后按照互动日期和当前日期直接的天数差计算时间衰减权重，最后输出互动次数按照时间衰减权重加权求和再归一化得到的与好友之间的亲密度系数(即互动亲密度)。

举例来说，若目标用户与互动用户之间在2021年2月1日至2021年3月1日期间有5天在互动，分别是2月1日、2月5日、2月6日、2月14日、2月15日，且按照时互动时间点的先后顺序每天的互动次数为5、2、3、4、6，按照互动日期和当前日期的天数差分别是28、24、23、15、14，对应的时间衰减权重分别为e^-28α、e^-24α、e^-23α、e^-15α、e^-14α，将互动次数与时间衰减权重一一对应进行加权再求和，具体为：W_t＝5e^-28α+2e^-24α+3e^-23α+4e^-15α+6e^-11α，最终将对W_t进行归一化操作，得到互动亲密度。通过归一化将数据映射到0～1范围内，使得数据处理更加快速便捷。

作为一种扩展的方式，可以对用户单位时间内(如过去一个月内)对广告的互动行为进行统计，并用该统计数据计算亲密度系数，也就是将目标用户的好友对目标用户在广告下的互动行为，例如在投放广告下回应目标用户的评论，或者同目标用户一起对该条投放广告点赞的行为，或者对目标用户的评论进行点赞的行为作为互动行为数据来确定互动亲密度。

除了互动用户和目标用户之间的互动行为，目标用户和候选广告数据之间也存在互动行为，和用户之间的互动行为不同的是，广告互动行为除了对广告的点赞和评论，还有对广告的点击，这样的互动行为会产生广告互动行为信息，例如目标用户对出现在社交动态展示页面的广告点击、点赞和评论的行为，其中，点赞和评论可统称为互动。候选广告数据即准备投放在目标用户终端的多条广告，或者准备再次投放在用户终端的多条广告，其中每条广告包括例如广告标识(即广告ID)、广告主设置的广告曝光频率等数据。

步骤S304，根据互动亲密度、广告互动行为信息和互动用户的用户画像特征，生成目标用户与互动用户之间的关联权重值。

在一种可能的实施例中，目标用户和互动用户之间的关联权重值的具体生成过程可以包括以下步骤：首先将互动亲密度和互动用户的画像特征输入初始预测模型中，通过初始预测模型中的注意力机制结构，生成目标用户和互动用户之间的初始关联权重值。由于互动用户可以包括目标用户，因此互动用户画像特征包括目标用户的用户画像特征和该目标用户的互动好友的用户画像特征，每个用户的用户画像特征都是低维的嵌入向量(或编码向量)embedding，具体的确定方式是通过BERT模型对高维的原始画像特征进行处理得到的。这是因为直接使用用户和好友的原始特征输入模型训练，训练的计算资源和耗时都会特别长，因此先使用非监督学习的方法对所有用户的原始画像特征做embedding生成一个16维的向量作为用户画像特征，BERT模型是基于Transformer的双向编码器表示算法，是在自然语言处理领域用于对词token和句子编码的模型，当应用于用户画像特征embedding场景，对用户的离散原始画像特征做embedding的时候，需要先把用户的画像特征中每个特征index(索引)当成一个"词"，把每个用户按照index升序排列之后的画像特征当成一个"句子"输入BERT的预训练任务。其中，每个特征index是对用户角色的刻画词，是与用户画像标签中的词语对应的特征，例如用户1的画像标签包括：女、25岁、白领、211大学、互联网行业设计工作、单身、居住地北京、摇滚乐发烧友等，那么每一个对该用户描述的词语对应的画像特征其实都是一个特征index，这样共同构成用户的原始画像特征。由上可知，用户之间并没有像句子直接的上下文关系，因此可以只使用遮蔽语言模型(Masked LanguageModel，MLM)这个自监督任务进行预训练，得到最终的用户画像特征，而不涉及BERT的具体下游任务。具体来说，对每个用户的原始画像特征，可以随机覆盖掉15％的index，然后使用用户其余的画像特征预测被覆盖掉的所有index，如句子“my dog is cute”，利用mask随机覆盖后可以是“my dog is[masked]”。请参见图4，图4是本申请实施例提供的一种语言表征模型BERT的部分结构示意图。如图4所示，与原始BERT不同的是，对每个index只使用词嵌入编码向量(token embeddings)作为模型输入的第一层，没有使用分割编码向量(segmentembeddings)和位置编码向量(position embeddings)。预训练完成之后，使用原始BERT中表示每个句子向量的特殊分类嵌入词[CLS]作为每个用户的画像特征embedding。

初始预测模型是使用了注意力机制的模型，初始关联权重值可以通过该注意力机制对输入的互动亲密度和BERT模型得到的用户画像特征处理得到。以基于注意力的节点分类网络，即图注意力网络(Graph Attention Networks，GAT)作为示例，该模型可以针对不同的相邻节点的重要性进行预测，性能较好并且对于扰动更加鲁棒。单个的图注意力层(Graph Attentional Layer，GAL)的输入为节点特征向量集，对应本申请实施例，即互动用户的用户画像特征和各自的互动亲密度拼接成的特征向量，具体处理中，请参见图5，图5是本申请实施例提供的一种注意力机制结构的示意图，如图5所示，注意力机制应用在图注意力层，首先根据拼接了互动亲密度的互动用户的用户画像特征向量集进行自注意self-attention处理，得到注意力互相关系数，具体表达式如下式(2)：

e_ij＝a(Wh_i,Wh_j)，j∈N_i (2)

其中，a是一个

的映射，h_i是目标用户i的用户画像特征，h_j是该目标用户的互动好j友的用户画像特征与互动亲密度拼接后的特征向量，W是一个权值矩阵，被所有h_i共享。N_i表示目标用户i的互动用户集合，将每个目标用户作为一个节点，那么目标用户i即节点i，N_i为节点i的邻接点集，节点i也属于N_i中的一部分，也即目标用户i也可以视为自己的互动好友。对于注意力a的分配，本申请实施例是分配在互动好友的画像特征向量集上的。

将得到的注意力互相关系数e_ij通过softmax层输出，得到初始关联权重值，具体表达式如下式(3)：

其中，α_ij是目标用户i和互动用户j之间的初始关联权重值，e_ij为自注意机制处理的注意力系数，e_ik是目标用户i和互动用户k之间的注意力系数。

上述初始关联权重值是互动好友权重的计算。使用到用户自身的embeding(即目标用户的用户画像特征)，好友的embedding(即互动用户中除目标用户外的用户画像特征)以及亲密度(即互动亲密度)作为输入，经过一个三层的神经网络计算得到，其中输入的h_i和h_j都是相应互动亲密度和画像特征拼接构成的特征向量。

然后根据该初始关联权重值生成目标用户的初始用户特征向量。具体可参见图6，图6是本申请实施例提供的一种生成用户特征向量的场景示意图，如图6所示，原始的图注意力模型使用多头注意力机制对每个邻居节点特征的重要性进行建模，其中的h₁为BERT模型生成的拼接了自身与自身之间的互动亲密度的目标用户画像特征向量，h₁到h₆为拼接了目标用户和对应互动好友之间亲密度的互动好友画像特征向量，α为每个互动好友向量对用户h₁向量的重要性，这里使用多头注意力计算α，图中用不同颜色表示不同权重，可以让权重具有更好的鲁棒性，默认多头注意力的头数是3。在图注意力模型包括的多层图注意力层中，每层的输入和输出都是一个节点特征向量集，只是每层输出的新的节点特征向量集中每个节点的特征向量维度可以不等于输入节点特征向量的维度，这里生成的目标用户的初始用户特征向量对应图6中的h₁′，可以将其存入数据引擎中，在训练过程中还需要根据关联权重值的更新而对其进行更新。

接着获取候选广告数据的广告特征向量，根据初始用户特征向量、广告互动行为信息和获取到的广告特征向量修正初始预测模型的模型参数，得到目标预测模型。在初始预测模型中，输入的广告互动行为信息是从广告流水日志中抽取的训练样本得到的，可以从最近一天的社交平台的广告流水中找出点击和有互动行为的用户，每个用户组成一条(用户ID，广告ID，是否点击，是否互动)的正样本，这里正样本至少对广告有点击或互动一次，然后把其他曝光广告用户当作负样本(即对广告即没有点击也没有互动的用户)，其中是否点击和是否互动都可以采用数值1和0作为样本标签，即没有点击(或互动)为0，有点击(或互动)为1。因为通常情况下，互动的用户比例一般只有点击用户的1％，所以可以使用过采样技术以1:5的比例扩充互动样本的数量，例如当抽取到的样本中有互动样本1份(用户0074，广告1135，0，1)，通过复制5份相同的互动样本添加到训练样本中，这样做可以解决训练过程中数据分布不均衡的问题，提高模型训练的准确度。

上述训练样本(包括正样本和负样本)输入初始预测模型中，具体是根据训练样本中所包括的用户ID和广告ID可以从相应的数据引擎中确定对应的初始用户特征向量和广告特征向量，根据初始用户特征向量和广告特征向量可以确定目标用户针对候选广告数据的互动预测值，表示目标用户对候选广告数据的点击或互动的可能性，具体实现方式可以是通过计算初始用户特征向量和广告特征向量之间的余弦相似度，并将该相似度经过softmax层得到一个0～1之间的概率值作为互动预测值，可选的，也可以直接用余弦相似度作为互动预测值衡量目标用户对候选广告数据点击和互动的可能性。根据互动预测值和广告互动行为信息，可以确定初始预测模型的预测损失值，由于广告互动行为信息包括前述所提及的样本标签，表示用户对广告是否存在互动或点击行为，这个样本标签作为参考标准，可以根据该标签所携带的0或1与互动预测值进行损失计算，得到预测损失值，损失计算的具体方式可以是常规的交叉熵计算，在此不再赘述，对于具体方式也不做进一步地限定。将得到的预测损失值反向传播至初始预测模型，基于回传的预测损失值可以修正初始预测模型的模型参数，在最终损失值收敛时，停止对初始模型的训练，进而得到目标预测模型。可选的，互动预测值可以是采用双塔模型对用户侧的特征和广告侧的特征进行处理，用户侧的特征即图注意模型最后一层输出的初始用户特征向量，广告侧的特征为候选广告数据的广告特征向量，包括广告的一级类目、二级类目和广告主ID。双塔模型的引入可以使得对相同广告的点击和互动行为的不同用户的用户特征向量在向量空间上更接近，进而能够更快速确定广告投放的目标扩散人群。

在初始预测模型训练完成得到目标预测模型后，可以基于目标预测模型中的注意力机制结构，生成目标用户与互动用户之间的关联权重值，这里的关联权重值是基于初始关联权重值不断更新得到的，因为在初始预测模型的训练过程中，随着预测损失值的回传，模型参数会更新，从而关联权重值也在变化。

步骤S305，根据关联权重值和互动用户的用户画像特征，生成目标用户的用户特征向量。

在一种可能的实施例中，互动用户的用户数量至少有两个，其中一个为目标用户，即至少一个为互动好友，利用关联权重值、互动用户的用户画像特征生成目标用户的用户特征向量的具体步骤可以包括：根据关联权重值对至少两个互动用户的用户画像特征进行加权，得到每个互动用户分别对应的加权画像特征。如上述图6所示，h₁和h₂之间的关联权重值为α₁₂，该关联权重值和互动用户的画像特征进行加权，得到α₁₂h₂，这里的互动用户的用户画像特征是拼接了互动亲密度的画像特征。对每个互动用户分别对应的加权值对不同用户的画像特征向量进行拼接处理，可以得到用户特征向量，具体表达式如下式(4)：

其中，||表示对向量进行拼接，K表示注意力机制个数，k表示K中第k个，σ表示非线性激活函数，

表示第k个注意力机制对应的关联权重值，W^k表示输入的互动用户画像特征的线性变换，h_j表示互动用户j的用户画像特征。

由于最终输出的concate操作可能不那么敏感，也可以直接采用对互动用户的加权画像特征进行平均处理，得到用户特征向量，具体表达式如下：

其中，σ表示非线性激活函数，K表示注意力机制个数，k表示K中第k个，σ表示非线性激活函数，

表示第k个注意力机制对应的关联权重值，W^k表示输入的互动用户画像特征的线性变换，h_j表示用户j的用户画像特征。

根据上述方法生成的用户特征向量可以作为图注意模型的最后的输出，在模型训练之后得到的用户最终的用户特征向量也会被加载进入数据引擎，可选的，目标用户的用户特征向量可以用于确定对目标用户进行投放的广告数据。上述提及的图注意网络模型和双塔模型组合处理数据可以统称为社交扩散模型(或社交扩散打分模型)，其中的逻辑处理算法可称为社交扩散算法，请参见图7，图7是本申请实施例提供的一种社交扩散算法的流程示意图，如图7所示，具体流程可包括步骤①至⑥，其中步骤①到③可以同步进行节省计算时间，步骤①到⑤每天只进行一次，步骤⑥只有在广告主发起社交扩散请求之后再调起。步骤①中从广告流水抽取训练样本包括前述的正样本和负样本，通过样本数据可以获取广告互动行为信息；步骤②用户与互动好友的亲密度计算具体可参见步骤步骤S303中相关内容，步骤③用户画像自监督编码向量对应步骤步骤S304中利用BERT模型实现，但是如果计算资源有限，不能做到每天训练BERT模型生成用户embedding，可以使用主成分分析PCA和词向量映射word2vec这两个算法实现快速训练和生成用户embedding，这是因为PCA和word2vec均有spark的库函数实现方式，可以快速部署在集群中；步骤④的特征拼接包括广告侧特征和用户侧特征，广告侧特征主要用于双塔模型中，用户侧特征使用图注意力网络GAT建模处理。广告侧的特征使用广告的一级类目，二级类目以及广告主id作为特征。用户侧特征由两部分构成：用户本身的画像特征embedding以及用户的互动好友的特征embedding。每个用户的互动好友的特征由好友的画像特征embedding拼接上用户和互动好友之间的亲密度构成。这里为了提示计算效率，规定每个用户最多考虑的互动好友数量为250。如果有超过250个互动好友，就只考虑亲密度最高的250个好友作为用户的互动好友特征数据输入。另外，如果想进一步提升效果，可以把用户的互动好友特征扩展到用户的二阶互动好友特征，也就是用户互动好友的互动好友的特征也考虑进来；步骤⑤的模型训练过程可参见步骤步骤S304与步骤S305的相关内容；步骤⑥的模型预测和上线广告召回可参见下述图8和图9对应的方法实施例，在此不做赘述。

利用该模型可以将预测用户社交扩散得分的任务建模成一个二分类问题，即对输入的用户判断是否是属于该广告主的扩散用户或可以理解为用户对广告主的广告是否有点击或互动行为。通过采取集中训练的方式给最近有投放需求的所有广告主训练一个统一的社交扩散打分模型，减少了给每个广告主单独训练模型的时间，把点击样本和互动样本混合当作模型的正样本，利用线上已有广告主的点击和互动样本分布学习点击打分和互动打分在最终打分中的权重，省去人工确定权重带来的次优扩散结果，也能实现每个广告主获得不同权重打分的效果，同时引入图注意力模型对好友亲密程度以及不同好友画像特征差异进行建模，给每个用户生成embedding用于预测。

需要说明的是，可以以获取目标用户的用户特征向量同样的原理获取到用户集中每个用户的用户特征向量，进而可以以同样的方式确定对每个用户进行投放的广告。

综上，本申请实施例至少有如下优点：

通过目标用户和互动用户之间的互动亲密度、广告互动行为信息以及互动用户的画像特征，生成目标用户和互动用户之间的关联权重值，然后根据关联权重值和拼接了互动亲密度的用户画像特征生成目标用户的用户特征向量，在这个过程中，针对不同广告主可以训练一个统一的目标预测模型，利用有效的计算资源满足全量广告主寻找目标扩散人群需求，同时用广告互动行为信息训练模型的点击打分和互动打分的权重，可以为每个广告主自动寻找最优权重，此外，将不同互动用户和目标用户之间的互动亲密度加入对应的互动用户画像特征向量，将不同互动好友的特征区分开来，输入初始预测模型进行训练得到的初始关联权重值随着损失值的回传不断更新后得到最终的关联权重值，根据关联权重值则将不同好友特征对目标用户的用户特征向量表示的重要程度区分开来，由于模型中引入具备注意力机制的图注意力网络，可以使得模型更加健壮，训练后得到的目标预测模型对用户的社交扩散打分更加准确，进而使得最终得到的用户特征向量也更具有鲁棒性，以及该特征向量表达的信息更加准确和丰富，以使得最终利用该用户特征向量确定广告数据投放后，可以有效提高用户对投放广告的点击率和互动率。

请参阅图8，图8是本申请实施例提供的一种数据处理方法的流程示意图，该实施例中的执行主体可以是一个计算机设备或者是多个计算机设备构成的集群，该计算机设备可以是终端设备，也可以是服务器，此处，以本实施例中的执行主体为服务器为例进行说明。如图8所示，该数据处理方法包括但不限于以下步骤S801-步骤S804：

步骤S801，获取广告数据投放对象的待投放广告数据，将目标用户确定为与广告数据投放对象相关联的候选投放用户。

在一种可能的实施例中，广告数据投放对象是使用广告投放系统进行广告投放的用户，统称为广告主，每一个广告主都有计划投放的广告存储在广告投放系统对应的广告库中，其中的部分或全量广告数据可以作为待投放广告数据准备投放给用户，而广告投放系统可以是应用于应用客户端中的一个功能模块，或者应用客户端中的单独的投放平台，广告库是存储全量广告主的所有广告数据的数据引擎。广告主上传的种子人群中包括的用户可以作为候选投放用户，种子人群中包括的用户也可以称为种子用户，种子用户可以是对广告有点击或互动行为，或者已经成为广告的转化用户，相应地，种子人群也可以包括已点击人群、已互动人群、已转化人群中的一种或多种，可以作为人群扩散的参考标准。由于种子用户也属于大盘用户，在选择广告投放用户(即目标扩散人群)的时候，也有可能选取到种子用户进行广告投放，如上述图2所示的投放选择条件的包含种子人群22中，可以选择包括或不包括种子人群，本申请实施例中以包括种子人群为例进行说明，从大盘用户中确定的目标用户则是广告主在初次投放广告后满足筛选条件的种子用户，对于候选投放用户，会有广告主指定相应广告数据或已经投放过相应广告数据给该候选投放用户，因此和广告主相关联。

步骤S802，根据候选投放用户的用户特征向量与用户集中每个用户的用户特征向量之间的向量相似度，从用户集中选取候选投放用户的相似用户。

在一种可能的实施例中，当广告主上传了种子人群，可以通过数据引擎快速检索出种子用户的用户特征向量，具体可以通过种子用户的用户标识检索对应用户的用户特征向量，数据引擎中存储有前述实施例训练得到的用户特征向量和用户标识，然后对所有检索出来的用户特征向量做平均池化，可以得到一个与用户特征向量同样维度的种子向量，用来衡量大盘用户(即用户集)中的用户与种子用户相似的程度，通过计算向量之间的距离，并将该距离值和阈值进行比较从大盘用户中确定出与种子用户相似的用户。

作为一种可选的实现方式，确定相似用户的具体步骤可以包括：首先从用户集中选取用户子集，例如用户集中包括10亿用户，随机选取用户子集包括10万用户，然后根据候选投放用户的用户特征向量与用户子集中每个用户的用户特征向量之间的向量相似度，确定用户相似阈值，对多个候选投放用户的用户特征向量进行平均可以得到种子向量，若候选投放用户只有一个，则将该候选投放用户的用户特征向量作为种子向量，根据该种子向量和用户子集中每一个向量的相似度以及广告主指定的目标扩散人群数量和大盘用户的比值，从用户子集中确定出用户相似阈值，示例的，广告主设置的目标扩散人群数量为1亿，在用户集10亿的情况下，相应分位比值为10％，对应用户子集中的10％的数量值则为1万，将种子向量和用户子集中每个用户的用户特征向量相似度由大到小顺序排列，选取位于第1万位的用户对应的相似度作为用户相似阈值，在用户集的10亿用户中按照该用户相似阈值选取1亿用户，最后，将用户集中所对应的用户特征向量与候选投放用户的用户特征向量之间的向量相似度大于用户相似阈值的用户，确定为相似用户，对大盘用户中所有用户的用户特征向量和种子向量之间计算出来的向量相似度作阈值截断，即比较用户相似阈值和向量相似度，将大于用户相似阈值的用户作为目标投放用户，其中，向量相似度可以通过计算两个向量之间的内积得到，确定好相似用户后，可以将相似用户ID输入到一个文件中，可以用于和其他数据绑定实现更多功能。

可以看出，先在较小的随机用户集合里计算种子向量和用户向量的内积，按照目标扩散人群数量占大盘人数的比例计算相应分位的阈值，用这个阈值对大盘用户的打分(即向量相似度)做过滤，保留和种子向量内积大于阈值的用户，这样可以通过排序较小的用户子集确定阈值进而确定相似用户，不用对大盘用户排序确定目标扩散人群，大大地节省了计算资源，减少计算开销，从而加快计算速度。

步骤S803，将候选投放用户和相似用户确定为待投放广告数据的目标投放用户。

在一种可能的实施例中，待投放广告数据是广告主指定给目标投放用户的广告投放数据。候选投放用户作为种子用户，对广告贡献的转化率可能更高，可以给广告主在更低的成本下带来更高的收益，因此投放广告过程中种子用户是可以和从大盘用户中筛选出来的相似用户一同作为目标投放用户，也就是说，在广告主设置的目标扩散人群数量中，很大概率能从大盘用户中选中种子用户，这样可以包括种子人群，即前述所提及的人群扩散模块选择目标扩散人群包括种子人群，当然目标投放用户也可以不包括种子用户，对应的，目标扩散人群不包括种子人群。这些满足广告投放条件(即和种子向量之间的向量相似度大于相似度阈值)的目标投放用户属于相应广告主的扩散人群，对于不同的广告主，扩散人群也会有所不同，由于考虑到用户对广告的点击和互动，该目标扩散人群也可以称之为社交扩散人群。

步骤S804，将待投放广告数据投放至目标投放用户所属设备。

在一种可能的实施例中，待投放广告数据可以通过广告投放系统投放给目标投放用户所属设备，目标投放用户所属设备可以是手机、平板电脑、电话手表、台式电脑等终端设备，在此对目标投放用户所属设备不做限制。在本实施例中，因为可以把目标预测模型生成的embedding向量(即用户特征向量)预先存入数据引擎当中，可支持种子人群快速检索和计算出种子人群embedding(即种子向量)，最后可以利用种子人群embedding通过随机阈值截断或者最近邻搜索技术找出目标客户进行广告投放，上述步骤S801-步骤S804对应的内容是图7所示的社交扩散算法的流程图中由广告主发起社交扩散模型请求之后调起的模型预测和上线召回广告模块。

本申请实施例在数据管理平台MI的人群扩展功能提取的58个号码包(总曝光62807501)，实验组(直接使用本方案进行社交扩散)相比对照组(当前MI人群扩散模块线上服务的算法)投放广告的曝光量提升84.5％，点击量提升177％，互动量提升164％，点击率提升50％，平均单个点击扣费(Cost Per Click，CPC)下降11.6％。

综上，本申请实施例至少有以下优点：

从广告主上传的种子人群从数据引擎中存储的用户特征向量集中快速确定出种子向量，根据种子向量和用户集中各用户的用户特征向量相似度，确定候选投放用户的相似用户，进而确定出目标投放用户，其中，采用阈值截断的方式，通过用户子集确定的阈值在用户集中选取相似用户，避免了大盘用户相似度的排序，从而有效提高了目标扩散人群生成的速度，节省计算资源。

请参阅图9，图9是本申请实施例提供的一种数据处理方法的流程示意图，该实施例中的执行主体可以是一个计算机设备或者是多个计算机设备构成的集群，该计算机设备可以是终端设备，也可以是服务器，此处，以本实施例中的执行主体为服务器为例进行说明。如图9所示，该数据处理方法包括但不限于以下步骤S901-步骤S903：

步骤S901，获取广告数据投放对象的候选广告数据集。

在一种可能的实施例中，可以从广告库中获取广告主(广告数据投放对象)管理的广告数据作为候选广告数据集，其中每个候选广告数据包括广告的类目、广告ID等相关数据，候选广告数据集和待投放广告数据集不同之处，在于候选广告数据集并不能直接投放给目标投放用户，还需要经过一系列的处理和筛选才能够投放给目标投放用户，例如对广告进行召回处理。

步骤S902，建立候选广告数据集与目标投放用户之间的绑定关系。

在一种可能的实施例中，在用阈值截断的方式确定出目标投放用户之后，还需要将广告主的候选广告数据集与目标投放用户绑定，作为广告主指定给目标投放用户的广告，广告主的候选广告数据集和目标投放用户之间建立了绑定关系，只要获取到其中任意一个数据，就可以拉取到绑定的所有数据。目标投放用户作为广告主设定的目标扩散人群中的用户，可以把这个目标扩散人群作为对应目标投放用户身上的一个标签。示例的，广告主A的的目标扩散人群标签为Ad1，那么根据广告主A的种子人群确定的目标投放用户有标签Ad1，广告主B的目标扩散人群标签都为Ad2，则根据广告主B的种子人群确定的目标投放用户有标签Ad2，每个广告主对应的目标扩散人群标签和目标投放用户的ID可以绑定在一起，这样用户集中的目标用户身上可能绑定了多个目标扩散人群的标签，分别对应不同的广告主。因此对目标投放用户绑定的候选广告数据集，也可以视为对这个目标投放用户所属的目标扩散人群绑定的候选广告数据集。

步骤S903，当获取到广告数据召回指令时，从与目标投放用户具有绑定关系的候选广告数据集中，召回对目标投放用户进行投放的广告数据。

在一种可能的实施例中，进入广告召回系统的标签支路，当大盘用户中带有指定标签的用户出现在社交平台时，例如带有广告主B的目标扩散人群标签的Ad2用户在刷新社交动态信息时，该目标用户所属设备会发送广告数据召回请求给相应的服务器，广告召回系统对应的服务器获取到广告数据召回指令时，会将目标用户绑定的所有候选广告数据集(也即这个目标扩散人群绑定的候选广告数据集)召回，然后对这些候选广告数据集进行粗排、精排、策略展示等操作，筛选出对目标投放用户投放的广告数据集。

作为一种可选的方式，还可以直接将种子向量推送到广告召回系统的人工神经网络(Artificial Neural Network，ANN)支路，当作绑定广告的召回向量，当目标用户出现在社交平台的时候，ANN支路会从数据引擎中检索出用户的社交扩散embedding向量(即目标用户的用户特征向量)，然后再利用最近邻检索技术(Nearest Neighbor Search，NN)检索出最相似的种子向量以及绑定的广告。和标签支路不同，ANN支路不是预先记录目标用户属于目标扩散人群的标签，而是实时判断目标用户是否属于广告主的目标扩散人群，是否能携带对应的标签。其中，最近邻检索就是根据数据的相似性，从数据库中寻找与目标数据最相似的项目，在此处即利用向量之间的相似性，从多个广告主对应的召回向量中选择最相似的召回向量，该召回向量是广告主上传的种子人群对应的种子向量，对其目标扩散人群绑定的广告即是该目标用户绑定的广告，由此，广告召回系统可以召回绑定的广告。

综上，本申请实施例至少有以下优点：

通过广告召回系统不同的支路，包括标签支路和人工神经网络支路对用户的相关数据执行不同的处理，进而对该用户所属的目标扩散人群绑定的广告实现快速召回。具体的，在标签支路。利用候选广告数据集和目标投放用户的绑定关系以及目标投放用户携带的目标扩散人群标签，根据标签和候选广告数据集的对应关系，召回候选广告数据，通过给目标投放用户打标签，可以在目标投放用户出现时快速定位到候选广告集进行召回，在人工神经网络支路，利用最近邻技术对向量之间的关系进行处理，检索出目标投放用户的最相似的种子用户所对应的候选广告数据集，进行召回处理，避免了预先打标签的做法，实时判断出现的用户的目标扩散人群标签，相比于标签支路的处理更加便捷。

请参阅图10，图10是本申请实施例提供的一种数据处理装置的结构示意图，该数据处理装置可以是运行于图1所示的服务器100中的一个计算机程序(包括程序代码)，例如数据处理装置为一个应用软件；该数据处理装置可以用于执行本申请实施例提供的数据处理方法中的相应步骤。该数据处理装置包括：获取模块1001、确定模块1002、生成模块1003，其中：

获取模块1001，用于获取用户集；用户集包括N个用户以及N个用户中每个用户的用户画像特征，其中，N为正整数；

确定模块1002，用于从用户集中确定目标用户，并从用户集中获取目标用户的互动用户；互动用户包括目标用户；

获取模块1001，还用于获取目标用户与互动用户之间的互动亲密度，获取目标用户与候选广告数据之间的广告互动行为信息；

生成模块1003，用于根据互动亲密度、广告互动行为信息和互动用户的用户画像特征，生成目标用户与互动用户之间的关联权重值；

生成模块1003，还用于根据关联权重值和互动用户的用户画像特征，生成目标用户的用户特征向量；目标用户的用户特征向量用于确定对目标用户进行投放的广告数据。

在一实施例中，获取模块1001，具体用于：获取目标用户与互动用户之间的用户互动行为信息，根据用户互动行为信息获取目标用户与互动用户之间的互动次数；获取用户互动行为信息对应的互动时间点，获取互动时间点与当前时间点之间的时间差值；根据时间差值确定时间衰减权重，根据时间衰减权重对互动次数进行加权，得到互动亲密度。

在一实施例中，生成模块1003，具体用于：将互动亲密度和互动用户的用户画像特征，输入初始预测模型；基于初始预测模型中的注意力机制结构，生成目标用户与互动用户之间的初始关联权重值，根据初始关联权重值生成目标用户的初始用户特征向量；获取候选广告数据的广告特征向量；根据初始用户特征向量、广告特征向量和广告互动行为信息，修正初始预测模型的模型参数，得到目标预测模型；基于目标预测模型中的注意力机制结构，生成目标用户与互动用户之间的关联权重值。

在一实施例中，生成模块1003，具体用于：根据初始用户特征向量和广告特征向量确定目标用户针对候选广告数据的互动预测值；根据互动预测值和广告互动行为信息，确定初始预测模型的预测损失值；基于预测损失值修正初始预测模型的模型参数，得到目标预测模型。

在一实施例中，生成模块1003，具体还用于：根据关联权重值对至少两个互动用户的用户画像特征进行加权，得到每个互动用户分别对应的加权画像特征；对每个互动用户分别对应的加权画像特征进行拼接处理，得到用户特征向量；或者对每个互动用户分别对应的加权画像特征进行平均处理，得到用户特征向量。

在一实施例中，该数据处理装置还包括选取模块1004和投放模块1005，其中：

获取模块1001，用于获取广告数据投放对象的待投放广告数据，将目标用户确定为与广告数据投放对象相关联的候选投放用户；

选取模块1004，用于根据候选投放用户的用户特征向量与用户集中每个用户的用户特征向量之间的向量相似度，从用户集中选取候选投放用户的相似用户；

确定模块1002，用于将候选投放用户和相似用户确定为待投放广告数据的目标投放用户；

投放模块1005，用于将待投放广告数据投放至目标投放用户所属设备。

在一实施例中，选取模块1004，具体用于从用户集中选取用户子集；根据候选投放用户的用户特征向量与用户子集中每个用户的用户特征向量之间的向量相似度，确定用户相似阈值；将用户集中所对应的用户特征向量与候选投放用户的用户特征向量之间的向量相似度大于用户相似阈值的用户，确定为相似用户。

在一实施例中，该数据处理装置还包括建立模块1006和召回模块1007，其中：

获取模块1001，用于获取广告数据投放对象的候选广告数据集；

建立模块1006，用于建立候选广告数据集与目标投放用户之间的绑定关系；

召回模块1007，用于当获取到广告数据召回指令时，从与目标投放用户具有绑定关系的候选广告数据集中，召回对目标投放用户进行投放的广告数据。

可以理解的是，本申请实施例所描述的数据处理装置的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

请参见图11，图11是本申请实施例提供的一种计算机设备的结构示意图，该计算机设备可以包括处理器1101、存储器1102、网络接口1103和至少一个通信总线1104。其中，处理器1101用于调度计算机程序，可以包括中央处理器、控制器、微处理器；存储器1102用于存储计算机程序，可以包括高速随机存取存储器，非易失性存储器，例如磁盘存储器件、闪存器件；网络接口1103提供数据通信功能，通信总线1104负责连接各个通信元件。

其中，处理器1101可以用于调用存储器中的计算机程序，以执行如下操作：

在一实施例中，处理器1101具体用于：获取目标用户与互动用户之间的用户互动行为信息，根据用户互动行为信息获取目标用户与互动用户之间的互动次数；获取用户互动行为信息对应的互动时间点，获取互动时间点与当前时间点之间的时间差值；根据时间差值确定时间衰减权重，根据时间衰减权重对互动次数进行加权，得到互动亲密度。

在一实施例中，处理器1101具体用于：将互动亲密度和互动用户的用户画像特征，输入初始预测模型；基于初始预测模型中的注意力机制结构，生成目标用户与互动用户之间的初始关联权重值，根据初始关联权重值生成目标用户的初始用户特征向量；获取候选广告数据的广告特征向量；根据初始用户特征向量、广告特征向量和广告互动行为信息，修正初始预测模型的模型参数，得到目标预测模型；基于目标预测模型中的注意力机制结构，生成目标用户与互动用户之间的关联权重值。

在一实施例中，处理器1101具体用于：根据初始用户特征向量和广告特征向量确定目标用户针对候选广告数据的互动预测值；根据互动预测值和广告互动行为信息，确定初始预测模型的预测损失值；基于预测损失值修正初始预测模型的模型参数，得到目标预测模型。

在一实施例中，处理器1101具体用于：根据关联权重值对至少两个互动用户的用户画像特征进行加权，得到每个互动用户分别对应的加权画像特征；对每个互动用户分别对应的加权画像特征进行拼接处理，得到用户特征向量；或者对每个互动用户分别对应的加权画像特征进行平均处理，得到用户特征向量。

在一实施例中，处理器1101还用于：获取广告数据投放对象的待投放广告数据，将目标用户确定为与广告数据投放对象相关联的候选投放用户；根据候选投放用户的用户特征向量与用户集中每个用户的用户特征向量之间的向量相似度，从用户集中选取候选投放用户的相似用户；将候选投放用户和相似用户确定为待投放广告数据的目标投放用户；将待投放广告数据投放至目标投放用户所属设备。

在一实施例中，处理器1101具体用于：从用户集中选取用户子集；根据候选投放用户的用户特征向量与用户子集中每个用户的用户特征向量之间的向量相似度，确定用户相似阈值；将用户集中所对应的用户特征向量与候选投放用户的用户特征向量之间的向量相似度大于用户相似阈值的用户，确定为相似用户。

在一实施例中，处理器1101还用于：获取广告数据投放对象的候选广告数据集；建立候选广告数据集与目标投放用户之间的绑定关系；当获取到广告数据召回指令时，从与目标投放用户具有绑定关系的候选广告数据集中，召回对目标投放用户进行投放的广告数据。

具体实现中，本申请实施例中所描述的处理器1101、存储器1102及网络接口1103可执行本申请实施例提供的一种数据处理方法中所描述的计算机设备的实现方式，也可执行本申请实施例提供的一种数据处理装置中所描述的实现方式以及有益效果，在此不再赘述。

本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行如本申请实施例的数据处理方法。其具体实现方式可参考前文描述，此处不再赘述。

本申请实施例还提供了一种计算机程序产品或计算机程序，计算机程序产品或计算机程序包括计算机指令，计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取计算机指令，处理器执行计算机指令，使得计算机设备执行如本申请实施例的数据处理方法。其具体实现方式可参考前文描述，此处不再赘述。

需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random AccessMemory，RAM)、磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种数据处理方法，其特征在于，包括：

获取用户集；所述用户集包括N个用户以及所述N个用户中每个用户的用户画像特征，其中，N为正整数；

从所述用户集中确定目标用户，并从所述用户集中获取所述目标用户的互动用户；所述互动用户包括所述目标用户；

获取所述目标用户与所述互动用户之间的互动亲密度，获取所述目标用户与候选广告数据之间的广告互动行为信息；

根据所述互动亲密度、所述广告互动行为信息和所述互动用户的用户画像特征，生成所述目标用户与所述互动用户之间的关联权重值；

根据所述关联权重值和所述互动用户的用户画像特征，生成所述目标用户的用户特征向量；所述目标用户的用户特征向量用于确定对所述目标用户进行投放的广告数据。

2.如权利要求1所述的方法，其特征在于，所述获取所述目标用户与所述互动用户之间的互动亲密度，包括：

获取所述目标用户与所述互动用户之间的用户互动行为信息，根据所述用户互动行为信息获取所述目标用户与所述互动用户之间的互动次数；

获取所述用户互动行为信息对应的互动时间点，获取所述互动时间点与当前时间点之间的时间差值；

根据所述时间差值确定时间衰减权重，根据所述时间衰减权重对所述互动次数进行加权，得到所述互动亲密度。

3.如权利要求1或2任一项所述的方法，其特征在于，所述根据所述互动亲密度、所述广告互动行为信息和所述互动用户的用户画像特征，生成所述目标用户与所述互动用户之间的关联权重值，包括：

将所述互动亲密度和所述互动用户的用户画像特征，输入初始预测模型；

基于所述初始预测模型中的注意力机制结构，生成所述目标用户与所述互动用户之间的初始关联权重值，根据所述初始关联权重值生成所述目标用户的初始用户特征向量；

获取所述候选广告数据的广告特征向量；

根据所述初始用户特征向量、所述广告特征向量和所述广告互动行为信息，修正所述初始预测模型的模型参数，得到目标预测模型；

基于所述目标预测模型中的注意力机制结构，生成所述目标用户与所述互动用户之间的所述关联权重值。

4.如权利要求3所述的方法，其特征在于，所述根据所述初始用户特征向量、所述广告特征向量和所述广告互动行为信息，修正所述初始预测模型的模型参数，得到目标预测模型，包括：

根据所述初始用户特征向量和所述广告特征向量确定所述目标用户针对所述候选广告数据的互动预测值；

根据所述互动预测值和所述广告互动行为信息，确定所述初始预测模型的预测损失值；

基于所述预测损失值修正所述初始预测模型的模型参数，得到所述目标预测模型。

5.如权利要求1所述的方法，其特征在于，所述互动用户的用户数量为至少两个；所述根据所述关联权重值和所述互动用户的用户画像特征，生成所述目标用户的用户特征向量，包括：

根据所述关联权重值对至少两个互动用户的用户画像特征进行加权，得到每个互动用户分别对应的加权画像特征；

对所述每个互动用户分别对应的加权画像特征进行拼接处理，得到所述用户特征向量；或者

对所述每个互动用户分别对应的加权画像特征进行平均处理，得到所述用户特征向量。

6.如权利要求1所述的方法，其特征在于，所述方法还包括：

获取广告数据投放对象的待投放广告数据，将所述目标用户确定为与所述广告数据投放对象相关联的候选投放用户；

根据所述候选投放用户的用户特征向量与所述用户集中每个用户的用户特征向量之间的向量相似度，从所述用户集中选取所述候选投放用户的相似用户；

将所述候选投放用户和所述相似用户确定为所述待投放广告数据的目标投放用户；

将所述待投放广告数据投放至所述目标投放用户所属设备。

7.如权利要求6所述的方法，其特征在于，所述根据所述候选投放用户的用户特征向量与所述用户集中每个用户的用户特征向量之间的向量相似度，从所述用户集中选取所述候选投放用户的相似用户，包括：

从所述用户集中选取用户子集；

根据所述候选投放用户的用户特征向量与所述用户子集中每个用户的用户特征向量之间的向量相似度，确定用户相似阈值；

将所述用户集中所对应的用户特征向量与所述候选投放用户的用户特征向量之间的向量相似度大于所述用户相似阈值的用户，确定为所述相似用户。

8.如权利要求6所述的方法，其特征在于，所述方法还包括：

获取所述广告数据投放对象的候选广告数据集；

建立所述候选广告数据集与所述目标投放用户之间的绑定关系；

当获取到广告数据召回指令时，从与所述目标投放用户具有所述绑定关系的所述候选广告数据集中，召回对所述目标投放用户进行投放的广告数据。

9.一种计算机设备，其特征在于，包括：网络接口、处理器和存储器，所述网络接口、处理器与存储器相连接，所述网络接口用于提供数据通信功能，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以执行如权利要求1-8任一项所述的数据处理方法。

10.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行权利要求1-8任一项所述的数据处理方法。