CN113010772B

CN113010772B - 一种数据处理方法、相关设备及计算机可读存储介质

Info

Publication number: CN113010772B
Application number: CN202110197766.3A
Authority: CN
Inventors: 陈昊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-02-22
Filing date: 2021-02-22
Publication date: 2024-04-09
Anticipated expiration: 2041-02-22
Also published as: CN113010772A

Abstract

本发明实施例提供了一种数据处理方法、相关设备及计算机可读存储介质，其中方法包括：获取多个用户中每个用户的特征表示数据，通过调用信息聚合模型对该多个用户的特征表示数据在多个用户分类上进行处理，实现对用户信息的分类聚合，并得到每个用户的特征描述向量，特征描述向量包括每个用户的邻居用户的特征表示数据在每个用户分类上的聚合结果，基于该多个用户的特征描述向量确定任一用户的待推荐用户，通过对用户特征进行分类聚合使得用户描述向量的信息维度更加丰富，可以提升用户描述向量的准确度，进而提升好友推荐的准确度和成功率。

Description

一种数据处理方法、相关设备及计算机可读存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种数据处理方法、相关设备及计算机可读存储介质。

背景技术

随着互联网技术的快速发展，人们之间的交往愈加密切。除了专注于沟通交流的社交软件，游戏软件、音视频软件等越来越多的应用开始提供交友功能，以满足现代社会各年龄人士解决社交问题的刚需。与此同时，软件推荐的好友候选列表的准确率，以及匹配的成功率成为影响交友软件用户体验的主要方面。目前，大多是基于地理位置、用户描述信息等维度的信息获取可能匹配的好友，并推荐给用户，然而地理位置对匹配结果的影响过于严重，并且需要依赖用户主动进行筛选，匹配成功率较低；用户描述信息的信息量仍然不够丰富，推荐好友的准确度也不理想，难以达到用户的预期。可见，如何提升好友推荐的准确度和成功率已成为亟待解决的问题。

发明内容

本发明实施例提供一种数据处理方法、相关设备及计算机可读存储介质，通过对用户特征进行分类聚合可以提升用户描述向量的准确度，进而提升好友推荐的准确度和成功率。

第一方面，本发明实施例提供了一种数据处理方法，所述方法包括：

获取多个用户中每个用户的特征表示数据。

调用信息聚合模型对所述多个用户的特征表示数据在多个用户分类上进行处理，以得到所述每个用户的特征描述向量，所述特征描述向量包括所述每个用户的邻居用户的特征表示数据在每个用户分类上的聚合结果。

基于所述多个用户的特征描述向量确定目标用户的待推荐用户，所述目标用户为所述多个用户中的任意一个。

第二方面，本发明实施例提供了一种数据处理装置，所述装置包括：

获取模块，用于获取多个用户中每个用户的特征表示数据。

处理模块，用于调用信息聚合模型对所述多个用户的特征表示数据在多个用户分类上进行处理，以得到所述每个用户的特征描述向量，所述特征描述向量包括所述每个用户的邻居用户的特征表示数据在每个用户分类上的聚合结果。

确定模块，用于基于所述多个用户的特征描述向量确定目标用户的待推荐用户，所述目标用户为所述多个用户中的任意一个。

可选的，所述处理模块，具体用于：

利用信息聚合模型中每个用户分类对应的聚合方法对所述每个用户的特征表示数据进行处理，得到所述每个用户在所述每个用户分类的表示向量。

根据所述每个用户在所述每个用户分类的表示向量以及图网络中对应的邻居用户属于所述每个用户分类的概率，获取所述邻居用户的特征表示数据在所述每个用户分类上的第一聚合结果。

根据所述第一聚合结果获取所述每个用户的特征描述向量。

可选的，所述处理模块，具体用于：

根据所述第一聚合结果以及所述邻居用户在所述每个用户分类的表示向量，调整所述邻居用户属于所述每个用户分类的概率。

根据所述每个用户在所述每个用户分类的表示向量以及调整后的属于所述每个用户分类的概率，获取所述邻居用户的特征表示数据在所述每个用户分类上的第二聚合结果。

根据所述第二聚合结果获取所述每个用户的特征描述向量。

可选的，所述处理模块，具体用于：

针对所述多个用户中的任一用户以及所述多个用户分类中的任一用户分类，获取所述任一用户在图网络中的邻居用户。

根据所述任一用户和所述邻居用户在所述任一用户分类的表示向量以及所述邻居用户属于所述每个用户分类的概率，获取所述邻居用户的特征表示数据在所述任一用户分类上的第一聚合结果。

可选的，所述处理模块，具体用于：

调用信息聚合模型对所述多个用户的特征表示数据在多个用户分类上进行处理，以得到所述每个用户的中间描述向量。

调用所述信息聚合模型对所述多个用户的中间描述向量在所述多个用户分类上进行处理，以得到所述每个用户的特征描述向量。

可选的，所述获取模块，具体用于：

获取图网络包括的多个用户的关系描述数据，所述关系描述数据用于表示所述多个用户中任意两个用户之间的亲密度。

利用词向量嵌入方法对所述关系描述数据进行处理，得到所述多个用户中每个用户的特征表示数据。

可选的，所述获取模块，具体用于：

利用词向量嵌入方法对所述关系描述数据进行处理，得到所述多个用户中每个用户的嵌入向量。

根据所述每个用户的嵌入向量、用户描述信息以及辅助信息确定所述每个用户的特征表示数据。

可选的，所述获取模块，具体用于：

获取图网络包括的多个用户中任意两个用户之间的交互特征数据。

根据所述交互特征数据确定所述任意两个用户之间的亲密度，并根据所述任意两个用户之间的亲密度建立关系描述矩阵。

将所述关系描述矩阵作为所述图网络包括的多个用户的关系描述数据。

可选的，所述获取模块，具体用于：

根据所述关系描述数据分别以所述多个用户中的每个用户为起点，在所述图网络中进行随机游走，得到多条游走路径。

利用词向量嵌入方法对所述多条游走路径包括的用户的标识进行处理，得到所述每个用户的嵌入向量。

可选的，所述装置还包括训练模块，其中：

所述获取模块，还用于获取训练样本集，所述训练样本集包括存在联系的用户对以及不存在联系的用户对。

所述训练模块，用于利用所述训练样本集对图卷积神经网络和多层感知机神经网络进行训练，得到信息聚合模型以及特征匹配模型。

可选的，所述训练模块，具体用于：

利用图卷积神经网络和多层感知机神经网络对所述训练样本集进行处理，得到所述训练样本集的预测结果，所述图卷积神经网络包括多个用户分类中每个用户分类对应的聚合方法。

根据所述训练样本集的真实结果和所述预测结果确定损失值。

根据所述损失值对所述图卷积神经网络中每个用户分类对应的聚合方法进行调整，得到信息聚合模型。

根据所述损失值对所述多层感知机神经网络的网络参数进行调整，得到特征匹配模型。

可选的，所述确定模块，具体用于：

调用特征匹配模型对所述多个用户的特征描述向量进行匹配处理，得到目标用户与所述多个用户中其他用户之间的匹配度。

根据所述匹配度确定所述目标用户的待推荐用户。

第三方面，本发明实施例提供了一种计算机设备，所述计算机设备包括处理器和存储装置，所述处理器和所述存储装置相互连接，其中，所述存储装置用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，用以执行第一方面所述的数据处理方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行，用以执行第一方面所述的数据处理方法。

第五方面，本发明实施公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面所述的数据处理方法。

本发明实施例中，可以获取多个用户中每个用户的特征表示数据，通过调用信息聚合模型对该多个用户的特征表示数据在多个用户分类上进行处理，实现对用户信息的分类聚合，并得到每个用户的特征描述向量，特征描述向量包括每个用户的邻居用户的特征表示数据在每个用户分类上的聚合结果，基于该多个用户的特征描述向量确定任一用户的待推荐用户，通过对用户特征进行分类聚合使得用户描述向量的信息维度更加丰富，可以提升用户描述向量的准确度，进而提升好友推荐的准确度和成功率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种数据处理系统的架构示意图；

图2是本发明实施例提供的一种数据处理方法的流程示意图；

图3a是本发明实施例提供的一种图网络的结构示意图；

图3b是本发明实施例提供的一种图网络中用户关系网的结构示意图；

图3c是本发明实施例提供的一种分类聚合的结果示意图；

图4是本发明实施例提供的另一种数据处理方法的流程示意图；

图5是本发明实施例提供的一种数据处理方法的整体实现流程的示意图；

图6是本发明实施例提供的一种数据处理装置的结构示意图；

图7是本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

人工智能(Artificial Intelligence，AI)技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

计算机视觉技术(Computer Vision，CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术，是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

GCN：图卷积神经网络(Graph Convolutional Neural Networks)是一种可以对图结构的数据进行特征提取的神经网络。这一类以图结构进行存储的数据包括知识图谱，社交网络，生物分子结构等。GCN通过直接在图数据上进行卷积操作，可以获得图中每个节点的嵌入表征，从而服务于节点分类、连接预测、图分类等任务。

本申请实施例提供的方案主要涉及人工智能的机器学习、计算机视觉以及自然语言处理等技术，具体通过如下实施例进行说明：

请参见图1，是本发明实施例提供的一种数据处理系统的架构示意图，该数据处理系统包括计算机设备10和用户终端20，其中：

计算机设备10可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。用户终端20可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载智能终端等，但并不局限于此。用户终端20以及计算机设备10可以通过有线或无线通信方式进行直接或间接地连接，本发明在此不做限制。

具体的，计算机设备10，用于提供即时通讯、游戏、音视频等各种应用的后台服务，可以针对每个应用的全网用户构建图网络，图网络可以反映出用户之间的好友关系，还可以通过连线对应的权重反映出用户之间的亲密度。可以根据用户描述信息、辅助信息(如头像、发表的动态消息、个人空间设置的标签等)、用户在图网络中的关系网获取每个用户的特征表示数据，并将图网络中每个用户的邻居用户的特征表示数据向该用户聚合，得到用户的特征描述向量，并且是将各个邻居用户按照不同的用户分类进行分类聚合的，从而使得用户描述向量的信息维度更加丰富，提升用户描述向量的准确度，基于每个用户的特征描述向量可以为每个用户确定出推荐用户，从而提升好友推荐的准确度和成功率，并可以将推荐用户的用户标识发送给用户终端20。

用户终端20，用于提供可视化的用户界面与用户进行交互，用户界面可以是社交应用的应用界面，也可以是游戏应用的应用界面，还可以是音视频应用的应用界面，可以接收计算机设备10发送的推荐用户的用户标识，并在用户界面中展示推荐用户的用户标识。

在实际过程中，可基于区块链网络来部署该数据处理系统，即可将计算机设备10、用户终端20均部署在区块链网络中，或者将用户终端20部署在区块链网络外，将计算机设备10部署在区块链网络内等等。当将计算机设备10部署在区块链网络内，且计算机设备10是由多个物理服务器构成的服务器集群或者分布式系统时，每个物理服务器均可作为区块链网络中的节点。其中，此处所提及的区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。其本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块。在本申请所公开的数据处理方法，其中这些数据(如每个用户的特征表示数据、特征描述向量等)可保存于区块链上。

以下对本发明实施例的技术方案的实现细节进行详细阐述：

请参见图2，是本发明实施例基于图1所示的数据处理系统提供的一种数据处理方法的流程示意图。该数据处理方法包括如下步骤：

201、获取多个用户中每个用户的特征表示数据。

其中，多个用户具体可以是图网络中包括的多个用户，图网络是指描述多个用户之间关联关系的网络，图网络可以包括多个节点，每个节点对应代表一个用户，如果两个用户存在直接联系，则图网络中这两个用户对应的两个节点之间用连线连接起来；如果两个用户不存在直接联系，则图网络中这两个用户对应的两个节点之间不互相连接。

其中，特征表示数据是指将用户各维度的特征信息归集、汇总后的向量化表示。

如图3a所示，图网络中包括用户u0、u1、u2、……、u12共13个用户对应的13个节点，以用户u0为例，与u0存在直接联系的用户包括u1、u2、u3、u4、u5、u6、u7、u8共8个用户，则用户u0对应的节点与u1、u2、u3、u4、u5、u6、u7、u8这8个用户对应的节点有连接，与其他用户对应的节点无连接，其他用户同理。其中，u1、u2、u3、u4、u5、u6、u7、u8这8个用户可以视为用户u0在图网络中的邻居用户，具体可以视为一阶邻居用户。

202、调用信息聚合模型对所述多个用户的特征表示数据在多个用户分类上进行处理，以得到所述每个用户的特征描述向量，所述特征描述向量包括所述每个用户的邻居用户的特征表示数据在每个用户分类上的聚合结果。

具体的，信息聚合模型可以是图卷积神经网络，考虑到通过不同方式认识的好友，对用户往往有着不同的影响，不能一概而论，可以将用户按照建立好友的原因分成多类，也即是可以将每个用户在图网络中的邻居用户划分为多个用户分类，在获取到每个用户的特征表示数据之后，为了丰富用于表示每个用户的特征数据的信息量，从而准确表达每个用户的用户特征，可以调用信息聚合模型将邻居用户的特征向对应用户进行聚合，并且是按照不同的用户分类进行聚合处理，得到邻居用户的特征表示数据在每个用户分类上的聚合结果，然后将每个用户分类上的聚合结果的拼接起来即可作为对应用户的特征描述向量，使得该描述向量的信息维度更加丰富，提升用户描述向量的准确度。

在一些可行的实施方式中，可以调用信息聚合模型进行多次聚合处理，使得用户的多阶邻居用户(如二阶邻居用户、三阶邻居用户等)的特征数据也可以聚合过来。其中，二阶邻居用户可以是指与用户的一阶邻居用户直接相连的用户，如图3a中，对于用户u0，则用户u9、u10、u12视为用户u0的二阶邻居用户，三阶邻居用户同理。考虑到计算复杂度和实际聚合效果，可以对邻居用户的特征表示数据进行两次聚合，具体可以包括：调用信息聚合模型对该多个用户的特征表示数据在多个用户分类上进行处理，以得到每个用户的第一次聚合结果(记为中间描述向量)，此时将每个用户的一阶邻居用户的特征表示数据在不同用户分类上实现了聚合，然后再调用信息聚合模型对该多个用户的中间描述向量在多个用户分类上进行处理，以得到每个用户的特征描述向量，由于在第一次聚合时每个用户都将自己的一阶邻居用户的特征表示数据聚合了过来，则二次聚合后使得每个用户的特征描述向量中都包括了自己的二阶邻居用户的特征表示数据的成分，使得用户描述向量的信息维度更加丰富，进一步提升了用户描述向量的准确度。

203、基于所述多个用户的特征描述向量确定目标用户的待推荐用户，所述目标用户为所述多个用户中的任意一个。

具体的，可以计算任意两个用户的特征描述向量之间的相似度，例如可以计算向量之间的距离并作为相似度，针对任一用户，可以从图网络包括的多个用户中确定出相似度排序靠前的若干个用户作为该任一用户的推荐用户，例如可以将相似度排序在前三的用户作为推荐用户。

进一步的，可以将推荐用户的用户标识发送给用户终端，用户终端可以在用户界面中展示推荐用户的用户标识，从而满足用户的交友需求。

请参见图4，是本发明实施例基于图1所示的数据处理系统提供的另一种数据处理方法的流程示意图。该数据处理方法包括如下步骤：

401、获取图网络包括的多个用户的关系描述数据，所述关系描述数据用于表示所述多个用户中任意两个用户之间的亲密度。

具体的，可以获取图网络包括的多个用户中任意两个用户之间的交互特征数据，交互特征数据可以包括聊天次数、聊天频率、聊天时长、好友动态的互动频率，等等，利用这些交互特征数据可以确定两个用户之间的亲密度，并根据任意两个用户之间的亲密度建立关系描述矩阵，并将关系描述矩阵作为图网络包括的多个用户的关系描述数据。

在一些可行的实施方式中，用户之间的亲密度可以定义为：log(1+t_ij)，其中，t_ij表示两个用户i、j之间的交互特征数据，关系描述矩阵相当于对图网络的数据化表示，通过关系描述矩阵可以得到任意两个用户之间的亲密度。例如图网络包括的用户一共有100个，则关系描述矩阵可以是一个100*100的矩阵，每一行可以表示一个用户与这100个用户中每个用户之间的亲密度。

402、利用词向量嵌入方法对所述关系描述数据进行处理，得到所述多个用户中每个用户的特征表示数据。

具体的，可以采用词向量嵌入的方法，对关系描述数据进行处理，以得到每个用户的特征表示数据。

在一些可行的实施方式中，可以利用关系描述数据、用户的用户描述信息以及辅助信息等多维度数据确定用户的特征表示数据，以增加特征表示数据包含的信息量，丰富用户表示。具体可以包括：可以利用词向量嵌入方法对关系描述数据进行处理，得到每个用户的嵌入向量，然后获取用户的用户描述信息对应的第一向量，以及对如头像、发表的动态消息、个人空间设置的标签等辅助信息进行向量化处理得到对应的第二向量，再将嵌入向量、第一向量和第二向量拼接后作为对应用户的特征表示数据。其中，可以利用图像处理技术对头像处理得到对应向量，利用自然语言处理NLP技术对发表的动态消息进行处理得到对应向量，利用用户标签技术对个人空间设置的标签进行处理得到对应向量。

在一些可行的实施方式中，利用词向量嵌入方法对关系描述数据进行处理，得到每个用户的嵌入向量的具体实现方式可以包括：根据关系描述数据分别以多个用户中的每个用户为起点，在图网络中进行随机游走，得到多条游走路径，利用词向量嵌入方法对多条游走路径包括的用户的标识进行处理，即可得到每个用户的嵌入向量。另外，还可以根据关系描述数据表示的两个用户之间的亲密度来设置不同用户的游走概率，进行带权随机游走，也即是亲密度较高的用户设置较大的游走概率(即权重较大)，亲密度较低的用户设置较小的游走概率(即权重较小)。

403、利用信息聚合模型中每个用户分类对应的聚合方法对所述每个用户的特征表示数据进行处理，得到所述每个用户在所述每个用户分类的表示向量。

具体的，针对划分的多个用户分类，可以利用信息聚合模型中每个用户分类对应的聚合方法对每个用户的特征表示数据进行处理，得到每个用户在每个用户分类的表示向量，该表示向量可以成为隐表示。不同于每个邻居用户都设置相同的聚合方法，本发明实施例针对不同的用户分类，设置不同的聚合方法，可以充分体现不同用户分类的邻居用户对当前用户不同的影响力。其中，聚合方法可以包括权重矩阵W和偏置向量b，利用权重矩阵W和偏置向量b将邻居用户的特征数据向当前用户进行聚合。

例如，可以划分为M个用户分类，对于任一用户分类(假设是用户分类k)，可以利用信息聚合模型中用户分类k对应的聚合方法，对每个用户的特征表示数据进行处理，得到每个用户在用户分类k的表示向量。

404、根据所述每个用户在所述每个用户分类的表示向量以及图网络中对应的邻居用户属于所述每个用户分类的概率，获取所述邻居用户的特征表示数据在所述每个用户分类上的第一聚合结果。

具体的，对于某一用户，该用户的邻居用户中不同的邻居用户属于每个用户分类的概率通常是不同的，根据该用户在每个用户分类的表示向量以及图网络中对应的邻居用户属于每个用户分类的概率，获取邻居用户的特征表示数据在每个用户分类上的第一聚合结果，也即是邻居用户的特征表示数据在每个用户分类上都会得到一个聚合结果(记为第一聚合结果)，该聚合结果实质是一个向量。

405、根据所述第一聚合结果获取所述每个用户的特征描述向量。

具体的，对于任一用户，在得到每个用户分类上的聚合结果(即上述第一聚合结果)之后，可以将在每个用户分类上的第一聚合结果拼接后，作为用户的特征描述向量，可以避免少部分邻居用户的特征信息被淹没，例如第一用户分类包括较多的邻居用户，而第二用户分类包括较少的邻居用户，如果不考虑用户分类直接将全部邻居用户的特征信息向当前用户聚合，则很容易导致第二用户分类包括的较少邻居用户的特征信息被淹没或者说覆盖掉，最终得到的用户描述向量中难以体现第二用户分类包括的较少邻居用户的特征信息，而通过分类聚合可以使得每个邻居用户的特征信息在用户描述向量中都可以充分体现出来，属于不同用户分类的邻居用户之间不存在竞争关系，从而丰富了用户描述向量的信息维度，也提升了用户描述向量的准确度，避免用户描述向量的失真。

在一些可行的实施方式中，将邻居用户的特征表示数据在每个用户分类上进行一次完整的聚合实质上是一个反复迭代的过程，得到聚合结果后可以调整邻居用户属于每个用户分类的概率，并基于调整后的概率再次进行聚合，直到迭代次数满足次数阈值。具体可以包括：根据第一聚合结果以及邻居用户在每个用户分类的表示向量，调整邻居用户属于每个用户分类的概率，根据每个用户在每个用户分类的表示向量以及调整后的属于每个用户分类的概率，获取邻居用户的特征表示数据在每个用户分类上的第二聚合结果，根据第二聚合结果获取每个用户的特征描述向量。

在一些可行的实施方式中，针对多个用户中的任一用户以及多个用户分类中的任一用户分类，可以获取该任一用户在图网络中的邻居用户，根据任一用户和邻居用户在任一用户分类的表示向量以及邻居用户属于每个用户分类的概率，获取邻居用户的特征表示数据在该任一用户分类上的第一聚合结果。以任一用户是用户u，任一用户分类是用户分类k为例，用户u在用户分类k的表示向量z_u，k可以如下：

其中，x_u是用户u的特征表示数据，W_k、b_k分别是用户分类k对应的聚合方法中的权重矩阵和偏置向量，σ是激活函数。

在一些可行的实施方式中，第t次迭代后得到的聚合结果可以表示如下：

其中，z_u,k是用户u在用户分类k的表示向量，G是指上述的图网络，是指用户u的邻居用户v在第(t-1)次迭代后属于用户分类k的概率，z_v,k是用户u的邻居用户v在用户分类k的表示向量。即将每个邻居用户v属于用户分类k的概率与邻居用户v在用户分类k的表示向量相乘，并将所有邻居用户v的相乘结果求和，再与z_u,k求和，然后归一化处理后，得到对于用户u而言，邻居用户v在用户分类k上的聚合结果，通过这种方式可以得到用户u在每个用户分类上的聚合结果。假设用户u是图3a所示的图网络中的用户u0，则用户u0的(一阶)用户关系网可以如图3b所示，邻居用户v可以包括u1、u2、u3、u4、u5、u6、u7、u8共8个(一阶)邻居用户。

需要说明的是，在第一次迭代之前，可以将邻居用户属于每个用户分类的概率初始化为相同，例如，共有K个用户分类，则每个邻居用户属于每个用户分类的概率都初始化为1/K。

另外，在最后一次迭代之前，每次迭代后都需要根据本次迭代后的聚合结果(即上述第一聚合结果)调整邻居用户属于每个用户分类的概率，以用户分类k为例，第t次迭代后，邻居用户v属于用户分类k调整后的概率可以表示如下：

可以理解的是，邻居用户属于每个用户分类的概率都是大于或等于0的，即p_v,k≥0，并且，任一邻居用户属于每个用户分类的概率之和为1，即

假设迭代次数t达到了次数阈值T，则可以将第T次迭代后得到的聚合结果作为在用户分类k的第二聚合结果，即获取在每个用户分类的第二聚合结果(c₁、c₂、c₃、……、c_K)之后，将所有的第二聚合结果拼接即可得到用户u的特征描述向量，即：

y_u＝[c₁,c₂,c₃,…,c_K]

如图3c所示，假设用户分类共有3类，则聚合后得到的用户描述向量包括邻居用户的特征在三个用户分类上的聚合结果，即：

y_u＝[c₁,c₂,c₃]

需要说明的是，以上描述中除了特别说明之外，邻居节点一般是指一阶邻居节点。

在一些可行的实施方式中，可以调用信息聚合模型进行多次上述的聚合过程，使得用户的多阶邻居用户(如二阶邻居用户、三阶邻居用户等)的特征数据也可以聚合过来。具体可以通过叠加多个图卷积层来获取在图网络中距离更远的邻居用户(如二阶邻居用户、三阶邻居用户等)的特征：

其中，f^(l)表示图卷积神经网络层，dropout为一种通常的应对神经网络过拟合的方式。在这里我们假设，经过L层传输最终得到用户的特征描述向量，如果是需要传递到二阶邻居用户的特征即可，则L＝2。

406、基于所述多个用户的特征描述向量确定目标用户的待推荐用户，所述目标用户为所述多个用户中的任意一个。

具体的，调用特征匹配模型对多个用户的特征描述向量进行匹配处理，得到目标用户与多个用户中其他用户之间的匹配度，根据匹配度确定目标用户的待推荐用户，特征匹配模型具体可以是多层感知机神经网络。

在一些可行的实施方式中，可以通过训练得到上述的信息聚合模型以及特征匹配模型。具体实现方式如下：

获取训练样本集，训练样本集包括存在联系的用户对以及不存在联系的用户对，利用训练样本集对图卷积神经网络和多层感知机神经网络(Multi-Layer Perceptron，MLP)进行训练，得到信息聚合模型以及特征匹配模型。

在一些可行的实施方式中，图卷积神经网络包括多个用户分类中每个用户分类对应的聚合方法，聚合方法可以包括权重矩阵W和偏置向量b，不同的用户分类对应的聚合方法的权重矩阵W和偏置向量b可以设置为不同，具体可以是随机初始化不同的聚合方法的权重矩阵W和偏置向量b。利用训练样本集对图卷积神经网络和多层感知机神经网络进行训练，得到信息聚合模型以及特征匹配模型的具体实现方式可以如下：

利用图卷积神经网络和多层感知机神经网络对训练样本集进行处理，得到训练样本集的预测结果，根据训练样本集的真实结果和预测结果确定损失值，根据损失值对图卷积神经网络中每个用户分类对应的聚合方法进行调整，例如调整每个用户分类对应的聚合方法中的权重矩阵W，得到信息聚合模型，并可以根据损失值对多层感知机神经网络的网络参数进行调整，得到特征匹配模型。

在一些可行的实施方式中，预测结果可以是指用户之间的预测匹配度，真实结果可以是指用户之间的真实匹配度，可以利用均方误差(Mean Square Error，MSE)损失函数对预测匹配度和真实匹配度进行计算得到上述的损失值。当然，也可以采用其他类型的损失函数计算损失值，本发明实施例不做限定。

在一些可行的实施方式中，如图5所示，是本发明实施例提供的一种数据处理方法的整体实现流程的示意图。处理过程包括：获取多个用户的关系描述数据，利用词嵌入的方法得到每个用户的特征表示数据，然后利用图卷积神经网络(即信息聚合模型)对每个用户的特征表示数据进行信息分类聚合，得到每个用户的特征描述向量，再利用多层感知机神经网络(即特征匹配模型)对该多个用户的特征描述向量进行匹配处理，即可得到每个用户的推荐用户。

本发明实施例中，可以获取图网络包括的多个用户的关系描述数据，利用词向量嵌入方法对关系描述数据进行处理，得到该多个用户中每个用户的特征表示数据，利用信息聚合模型中每个用户分类对应的聚合方法对该每个用户的特征表示数据进行处理，得到每个用户在所述每个用户分类的表示向量，根据每个用户在每个用户分类的表示向量以及图网络中对应的邻居用户属于该每个用户分类的概率，获取邻居用户的特征表示数据在每个用户分类上的第一聚合结果，根据该第一聚合结果获取每个用户的特征描述向量，基于该多个用户的特征描述向量确定任一用户的待推荐用户，利用邻居用户属于每个用户分类的概率对邻居用户特征进行分类聚合，可以避免少部分邻居用户的特征信息被淹没，例如第一用户分类包括较多的邻居用户，而第二用户分类包括较少的邻居用户，如果不考虑用户分类直接将全部邻居用户的特征信息向当前用户聚合，则很容易导致第二用户分类包括的较少邻居用户的特征信息被淹没或者说覆盖掉，最终得到的用户描述向量中难以体现第二用户分类包括的较少邻居用户的特征信息，而通过分类聚合可以使得每个邻居用户的特征信息在用户描述向量中都可以充分体现出来，属于不同用户分类的邻居用户之间不存在竞争关系，使得用户描述向量的信息维度更加丰富，可以提升用户描述向量的准确度，进而提升好友推荐的准确度和成功率。

请参见图6，是本发明实施例的一种数据处理装置的结构示意图。所述装置包括：

获取模块601，用于获取多个用户中每个用户的特征表示数据。

处理模块602，用于调用信息聚合模型对所述多个用户的特征表示数据在多个用户分类上进行处理，以得到所述每个用户的特征描述向量，所述特征描述向量包括所述每个用户的邻居用户的特征表示数据在每个用户分类上的聚合结果。

确定模块603，用于基于所述多个用户的特征描述向量确定目标用户的待推荐用户，所述目标用户为所述多个用户中的任意一个。

可选的，所述处理模块602，具体用于：

根据所述第一聚合结果获取所述每个用户的特征描述向量。

可选的，所述处理模块602，具体用于：

根据所述第二聚合结果获取所述每个用户的特征描述向量。

可选的，所述处理模块602，具体用于：

可选的，所述获取模块601，具体用于：

可选的，所述装置还包括训练模块604，其中：

所述获取模块601，还用于获取训练样本集，所述训练样本集包括存在联系的用户对以及不存在联系的用户对。

所述训练模块604，用于利用所述训练样本集对图卷积神经网络和多层感知机神经网络进行训练，得到信息聚合模型以及特征匹配模型。

可选的，所述训练模块604，具体用于：

可选的，所述确定模块603，具体用于：

根据所述匹配度确定所述目标用户的待推荐用户。

需要说明的是，本发明实施例的数据处理装置的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

请参见图7，是本发明实施例的一种计算机设备的结构示意图，本发明实施例的所述计算机设备包括供电模块等结构，并包括处理器701、存储装置702以及通信装置703。所述处理器701、存储装置702以及通信装置703之间可以交互数据。

所述存储装置702可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储装置702也可以包括非易失性存储器(non-volatilememory)，例如快闪存储器(flash memory)，固态硬盘(solid-state drive，SSD)等；所述存储装置702还可以包括上述种类的存储器的组合。

所述处理器701可以是中央处理器701(central processing unit，CPU)。在一个实施例中，所述处理器701还可以是图形处理器701(Graphics Processing Unit，GPU)。所述处理器701也可以是由CPU和GPU的组合。在一个实施例中，所述存储装置702用于存储程序指令。所述处理器701可以调用所述程序指令，执行如下操作：

获取多个用户中每个用户的特征表示数据。

可选的，所述处理器701，具体用于：

根据所述第一聚合结果获取所述每个用户的特征描述向量。

可选的，所述处理器701，具体用于：

根据所述第二聚合结果获取所述每个用户的特征描述向量。

可选的，所述处理器701，具体用于：

可选的，所述处理器701，还用于获取训练样本集，所述训练样本集包括存在联系的用户对以及不存在联系的用户对。

所述处理器701，还用于利用所述训练样本集对图卷积神经网络和多层感知机神经网络进行训练，得到信息聚合模型以及特征匹配模型。

可选的，所述处理器701，具体用于：

根据所述匹配度确定所述目标用户的待推荐用户。

具体实现中，本发明实施例中所描述的处理器701、存储装置702以及通信装置703可执行本发明实施例图2或图4提供的一种数据处理方法的相关实施例中所描述的实现方式，也可执行本发明实施例图6提供的一种数据处理装置的相关实施例中所描述的实现方式，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的程序包括一条或一条以上指令，可存储于一计算机存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法的实施例中所执行的步骤。

以上所揭露的仅为本申请部分实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取多个用户中每个用户的特征表示数据；

利用信息聚合模型中每个用户分类对应的聚合方法对所述每个用户的特征表示数据进行处理，得到所述每个用户在所述每个用户分类的表示向量；

根据所述每个用户在所述每个用户分类的表示向量以及图网络中对应的邻居用户属于所述每个用户分类的概率，获取所述邻居用户的特征表示数据在所述每个用户分类上的第一聚合结果；

根据所述第一聚合结果以及所述邻居用户在所述每个用户分类的表示向量，调整所述邻居用户属于所述每个用户分类的概率；根据所述每个用户在所述每个用户分类的表示向量以及调整后的属于所述每个用户分类的概率，获取所述邻居用户的特征表示数据在所述每个用户分类上的第二聚合结果；

根据所述第二聚合结果获取所述每个用户的特征描述向量；

2.根据权利要求1所述的方法，其特征在于，所述根据所述每个用户在所述每个用户分类的表示向量以及图网络中对应的邻居用户属于所述每个用户分类的概率，获取所述邻居用户的特征表示数据在所述每个用户分类上的第一聚合结果，包括：

针对所述多个用户中的任一用户以及所述多个用户分类中的任一用户分类，获取所述任一用户在图网络中的邻居用户；

3.根据权利要求1所述的方法，其特征在于，所述获取多个用户中每个用户的特征表示数据，包括：

获取图网络包括的多个用户的关系描述数据，所述关系描述数据用于表示所述多个用户中任意两个用户之间的亲密度；

4.根据权利要求3所述的方法，其特征在于，所述利用词向量嵌入方法对所述关系描述数据进行处理，得到所述多个用户中每个用户的特征表示数据，包括：

利用词向量嵌入方法对所述关系描述数据进行处理，得到所述多个用户中每个用户的嵌入向量；

5.根据权利要求3或4所述的方法，其特征在于，所述获取图网络包括的多个用户的关系描述数据，包括：

获取图网络包括的多个用户中任意两个用户之间的交互特征数据；

根据所述交互特征数据确定所述任意两个用户之间的亲密度，并根据所述任意两个用户之间的亲密度建立关系描述矩阵；

6.根据权利要求4所述的方法，其特征在于，所述利用词向量嵌入方法对所述关系描述数据进行处理，得到所述多个用户中每个用户的嵌入向量，包括：

根据所述关系描述数据分别以所述多个用户中的每个用户为起点，在所述图网络中进行随机游走，得到多条游走路径；

7.根据权利要求1所述的方法，其特征在于，所述获取多个用户中每个用户的特征表示数据之前，所述方法还包括：

获取训练样本集，所述训练样本集包括存在联系的用户对以及不存在联系的用户对；

利用所述训练样本集对图卷积神经网络和多层感知机神经网络进行训练，得到信息聚合模型以及特征匹配模型。

8.根据权利要求7所述的方法，其特征在于，所述利用所述训练样本集对图卷积神经网络和多层感知机神经网络进行训练，得到信息聚合模型以及特征匹配模型，包括：

利用图卷积神经网络和多层感知机神经网络对所述训练样本集进行处理，得到所述训练样本集的预测结果，所述图卷积神经网络包括多个用户分类中每个用户分类对应的聚合方法；

根据所述训练样本集的真实结果和所述预测结果确定损失值；

根据所述损失值对所述图卷积神经网络中每个用户分类对应的聚合方法进行调整，得到信息聚合模型；

9.根据权利要求1所述的方法，其特征在于，所述基于所述多个用户的特征描述向量确定目标用户的待推荐用户，包括：

调用特征匹配模型对所述多个用户的特征描述向量进行匹配处理，得到目标用户与所述多个用户中其他用户之间的匹配度；

根据所述匹配度确定所述目标用户的待推荐用户。

10.一种数据处理装置，其特征在于，所述装置包括：

获取模块，用于获取多个用户中每个用户的特征表示数据；

处理模块，用于利用信息聚合模型中每个用户分类对应的聚合方法对所述每个用户的特征表示数据进行处理，得到所述每个用户在所述每个用户分类的表示向量；根据所述每个用户在所述每个用户分类的表示向量以及图网络中对应的邻居用户属于所述每个用户分类的概率，获取所述邻居用户的特征表示数据在所述每个用户分类上的第一聚合结果；根据所述第一聚合结果以及所述邻居用户在所述每个用户分类的表示向量，调整所述邻居用户属于所述每个用户分类的概率；根据所述每个用户在所述每个用户分类的表示向量以及调整后的属于所述每个用户分类的概率，获取所述邻居用户的特征表示数据在所述每个用户分类上的第二聚合结果；根据所述第二聚合结果获取所述每个用户的特征描述向量；

11.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储装置，所述处理器和所述存储装置相互连接，其中，所述存储装置用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，用以执行如权利要求1～9中任一项所述的数据处理方法。

12.一种计算机可读存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行，用以执行如权利要求1～9中任一项所述的数据处理方法。

13.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序或计算机指令，所述计算机程序或计算机指令被处理器执行时，用以实现如权利要求1～9中任一项所述的数据处理方法。