CN112232890B

CN112232890B - 数据处理方法、装置、设备及存储介质

Info

Publication number: CN112232890B
Application number: CN202011255817.5A
Authority: CN
Inventors: 何远舵
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-11-11
Filing date: 2020-11-11
Publication date: 2023-07-04
Anticipated expiration: 2040-11-11
Also published as: CN112232890A

Abstract

本申请公开了一种数据处理方法、装置、设备及存储介质，属于人工智能技术领域。本申请实施例中，提出了一种基于用户画像数据分布获取用户之间相似度的方式，以目标随机森林来表示用户画像数据的分布，然后根据目标随机森林，以分类的方式，对需要比较的两个用户的用户画像数据进行相似度分析，该相似度获取以用户画像数据分布为依据，也就无需预处理过程，简化了数据处理流程，能够大大减少数据处理时间，提高数据处理效率。且基于原始的用户画像数据进行分析，体现用户的真实情况，相似度更准确。该相似度基于路径之间公共路径的长度确定，考虑到的数据种类更多，数据处理的颗粒度更细，因而确定的相似度也就更准确。

Description

数据处理方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，特别涉及一种数据处理方法、装置、设备及存储介质。

背景技术

用户画像又称用户角色，作为一种勾画用户、联系用户诉求与设计方向的有效工具，用户画像在各领域得到了广泛的应用。用户画像分析试图利用用户画像数据刻画用户间的相似性，从而实现对用户分类或聚类的业务需求。一般地，用户画像数据包括多种不同的数据，不同的数据来源不同，因而，这些数据的性质各异。

目前，数据处理方法通常采用获取距离的方式来分析用户之间的相似度。考虑到多种数据的性质各异，因而，需要综合多种预处理方法对用户画像数据进行预处理，如缺失值补全、异常值去除、归一化等。预处理后，多种数据均被处理为数值或者向量的形式，从而可以获取两个用户的向量之间的欧氏距离等。

上述方法中增加预处理过程，导致数据处理流程复杂、耗时长、易出错，且一些非数值型的数据经过预处理后，也难以保证相似度计算的有效性。因而，上述方法得到的相似度的准确性差，获取效率低。

发明内容

本申请实施例提供了一种数据处理方法、装置、设备及存储介质，能够提高获取效率，提高相似度的准确性。所述技术方案如下：

一方面，提供了一种数据处理方法，所述方法包括：

获取至少两个用户的用户画像数据，一个用户的所述用户画像数据包括至少两种数据；

基于所述至少两个用户的用户画像数据，获取目标随机森林，所述目标随机森林包括至少一个随机树，所述目标随机森林用于表示所述用户画像数据的分布情况；

获取第一用户和第二用户的目标用户画像数据；

分别根据第一用户和第二用户的目标用户画像数据，以及所述目标随机森林，为所述第一用户和所述第二用户进行分类，得到至少一个第一路径和至少一个第二路径，所述第一路径和所述第二路径为所述目标随机森林中随机树上的路径；所述第一路径基于所述第一用户的目标用户画像数据和所述随机树得到，所述第二路径基于所述第二用户的目标用户画像数据和所述随机树得到；

根据所述至少一个第一路径和所述至少一个第二路径之间公共路径的长度，确定所述第一用户和所述第二用户之间的相似度。

一方面，提供了一种数据处理装置，所述装置包括：

数据获取模块，用于获取至少两个用户的用户画像数据，一个用户的所述用户画像数据包括至少两种数据；

随机森林获取模块，用于基于所述至少两个用户的用户画像数据，获取目标随机森林，所述目标随机森林包括至少一个随机树，所述目标随机森林用于表示所述用户画像数据的分布情况；

所述数据获取模块还用于获取第一用户和第二用户的目标用户画像数据；

分类模块，用于分别根据第一用户和第二用户的目标用户画像数据，以及所述目标随机森林，为所述第一用户和所述第二用户进行分类，得到至少一个第一路径和至少一个第二路径，所述第一路径和所述第二路径为所述目标随机森林中随机树上的路径；所述第一路径基于所述第一用户的目标用户画像数据和所述随机树得到，所述第二路径基于所述第二用户的目标用户画像数据和所述随机树得到；

相似度确定模块，用于根据所述至少一个第一路径和所述至少一个第二路径之间公共路径的长度，确定所述第一用户和所述第二用户之间的相似度。

在一些实施例中，所述随机森林获取模块用于：

对所述至少两个用户的用户画像数据进行采样，得到至少一组用户的用户画像数据，一组用户为所述至少两个用户中的部分或全部用户；

基于所述至少一组用户的用户画像数据，生成至少一个随机树，将所述至少一个随机树组成所述目标随机森林，一组用户的用户画像数据对应一个随机树。

在一些实施例中，所述随机森林获取模块用于：

对于一组用户的用户画像数据，依次根据所述用户画像数据中至少两种数据以及所述至少两种数据对应的分类规则，对所述一组用户进行分类，得到所述一组用户的至少两个分类结果，一个分类结果基于一种数据分类得到；

根据所述一组用户的至少两个分类结果，确定所述一组用户对应的随机树，所述随机树中一个节点对应一个分类结果。

在一些实施例中，所述用户画像数据包括数值型的第一用户画像数据和非数值型的第二用户画像数据；

所述随机森林获取模块用于：

对于所述一组用户中的任一用户，响应于所述至少两种数据中任一种数据为数值型的第一用户画像数据，根据所述第一用户画像数据与目标阈值之间的大小关系，确定所述任一用户基于所述第一用户画像数据的分类结果；

响应于所述任一种数据为非数值型的第二用户画像数据，根据目标概率和所述第二用户画像数据，为所述第二用户画像数据进行分类，得到所述第二用户画像数据的分类结果，将所述第二用户画像数据的分类结果作为所述任一用户的一个分类结果。

在一些实施例中，所述随机树的深度小于深度阈值；或者，所述随机树的叶子节点的数量小于数量阈值。

在一些实施例中，所述相似度确定模块用于：

根据所述至少一个第一路径和所述至少一个第二路径，获取至少一个公共路径的长度，一个公共路径为同一随机树上的第一路径与第二路径重合的路径；

计算所述至少一个公共路径的长度的平均值；

将所述平均值作为所述第一用户和所述第二用户之间的相似度。

在一些实施例中，所述相似度确定模块用于：

计算所述至少一个公共路径的长度之和；

将所述至少一个公共路径的长度之和作为所述第一用户和所述第二用户之间的相似度。

在一些实施例中，所述分类模块用于对于所述目标随机森林中的一个随机树，按照所述随机树中所述至少两种数据的分类规则，分别基于所述第一用户和所述第二用户的目标画像数据对所述第一用户和所述第二用户进行分类，得到所述第一用户和所述第二用户各自基于所述随机树分类的至少两个分类结果，将所述第一用户对应的至少两个分类结果组成所述第一路径，将所述第二用户对应的至少两个分类结果组成所述第二路径。

在一些实施例中，基于一个随机树得到的所述第一路径和所述第二路径之间公共路径为所述第一用户和所述第二用户对应的至少两个分类结果中相同的分类结果；

所述相似度确定模块用于：

对于一个随机树得到的第一路径和第二路径，获取所述第一路径和所述第二路径中相同分类结果的数量作为基于所述随机树所述第一用户和所述第二用户之间的相似度；

根据所述目标随机森林中至少一个随机树对应的相似度，确定所述第一用户和所述第二用户之间的相似度。

在一些实施例中，所述第一用户和所述第二用户中的至少一个为所述至少两个用户中的用户；所述第一用户和所述第二用户中的至少一个为除所述至少两个用户之外的用户。

在一些实施例中，所述装置还包括确定模块，所述确定模块用于执行下述任一项：

响应于所述第一用户和所述第二用户之间的相似度大于相似度阈值，确定所述第二用户为未成年用户，所述第一用户为未成年用户；

响应于所述第一用户和所述第二用户之间的相似度大于相似度阈值，向所述第二用户发送所述目标应用的展示信息，所述第一用户为目标应用的用户；

响应于所述第一用户和所述第二用户之间的相似度大于相似度阈值，根据所述第一用户对应的目标模式类别，确定所述第二用户对应的模式类别为所述目标模式类别，所述模式类别用于指示用户在目标应用中使用频次最高的模式；

响应于所述第一用户和所述第二用户之间的相似度大于相似度阈值，确定所述第二用户的交易习惯信息为目标交易习惯信息，所述第一用户的交易习惯信息为所述目标交易习惯信息。

一方面，提供了一种电子设备，所述电子设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述一个或多个处理器加载并执行以实现上述数据处理方法的各种可选实现方式。

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现上述数据处理方法的各种可选实现方式。

一个方面，提供了一种计算机程序产品或计算机程序，所述计算机程序产品或所述计算机程序包括一条或多条程序代码，所述一条或多条程序代码存储在计算机可读存储介质中。电子设备的一个或多个处理器能够从计算机可读存储介质中读取所述一条或多条程序代码，所述一个或多个处理器执行所述一条或多条程序代码，使得电子设备能够执行上述任一种可能实施方式的数据处理方法。

本申请实施例中，提出了一种基于用户画像数据分布获取用户之间相似度的方式，该方式中通过对多个用户的用户画像数据分析得到目标随机森林，来表示用户画像数据的分布，然后根据目标随机森林，以分类的方式，对需要比较的两个用户的用户画像数据进行分析，两个用户的用户画像数据越相似，越容易被分类为同一类，这样根据两个用户分类得到的路径之间公共路径的长度能够准确获悉用户之间的相似度，该相似度获取以用户画像数据分布为依据，也就无需预处理过程，简化了数据处理流程，能够大大减少数据处理时间，提高数据处理效率。且没有预处理过程，而是基于原始的用户画像数据进行分析，能够更准确的体现用户的真实情况，得到的相似度更准确。另外，该相似度基于路径之间公共路径的长度确定，该路径能够体现出基于每种数据的分类情况，考虑到的数据种类更多，数据处理的颗粒度更细，因而确定的相似度也就更准确。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还能够根据这些附图获得其他的附图。

图1是本申请实施例提供的一种数据处理方法的实施环境的示意图；

图2是本申请实施例提供的一种数据处理方法的流程图；

图3是本申请实施例提供的一种数据处理方法的流程图；

图4是本申请实施例提供的一种伯努利过程的结构示意图；

图5是本申请实施例提供的一种路径获取过程的示意图；

图6是本申请实施例提供的一种数据处理方法的示意图；

图7是本申请实施例提供的一种相似度矩阵的示意图；

图8是本申请实施例提供的一种分类边界的示意图；

图9是本申请实施例提供的一种数据处理装置的结构示意图；

图10是本申请实施例提供的一种电子设备的结构示意图；

图11是本申请实施例提供的一种终端的结构框图；

图12是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请中术语“第一”、“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。还应理解，尽管以下描述使用术语第一、第二等来描述各种元素，但这些元素不应受术语的限制。这些术语只是用于将一元素与另一元素区别分开。例如，在不脱离各种示例的范围的情况下，第一图像能够被称为第二图像，并且类似地，第二图像能够被称为第一图像。第一图像和第二图像都能够是图像，并且在某些情况下，能够是单独且不同的图像。

本申请中术语“至少一个”的含义是指一个或多个，本申请中术语“多个”的含义是指两个或两个以上，例如，多个数据包是指两个或两个以上的数据包。

应理解，在本文中对各种示例的描述中所使用的术语只是为了描述特定示例，而并非旨在进行限制。如在对各种示例的描述和所附权利要求书中所使用的那样，单数形式“一个(‘a’\‘an’)”和“该”旨在也包括复数形式，除非上下文另外明确地指示。

还应理解，本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。术语“和/或”，是一种描述关联对象的关联关系，表示能够存在三种关系，例如，A和/或B，能够表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本申请中的字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，在本申请的各个实施例中，各个过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

还应理解，根据A确定B并不意味着仅仅根据A确定B，还能够根据A和/或其它信息确定B。

还应理解，术语“包括”(也称“includes”、“including”、“comprises”和/或“comprising”)当在本说明书中使用时指定存在所陈述的特征、整数、步骤、操作、元素、和/或部件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元素、部件、和/或其分组。

还应理解，术语“如果”可被解释为意指“当...时”(“when”或“upon”)或“响应于确定”或“响应于检测到”。类似地，根据上下文，短语“如果确定...”或“如果检测到[所陈述的条件或事件]”可被解释为意指“在确定...时”或“响应于确定...”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。

本申请提供的技术方案涉及人工智能技术领域，下面对人工智能进行介绍。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如，在智能家居、数据分析等领域。在本申请实施例中，通过对大量用户画像数据进行分析，确定用户画像数据的分布规律，后续可以基于该分布规律，基于某个用户的用户画像数据分析该用户的特征。相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的大数据处理相关技术，具体通过如下实施例进行说明。

下面对本申请的实施环境进行说明。

图1是本申请实施例提供的一种数据处理方法的实施环境的示意图。该实施环境包括终端101，或者该实施环境包括终端101和数据处理平台102。终端101通过无线网络或有线网络与数据处理平台102相连。

终端101能够是智能手机、游戏主机、台式计算机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器或MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器，膝上型便携计算机中的至少一种。终端101安装和运行有支持数据处理的应用程序，例如，该应用程序能够是系统应用、即时通讯应用、新闻推送应用、购物应用、在线视频应用、社交应用。

该终端101能够独立完成该工作，也能够通过数据处理平台102为其提供数据服务。本申请实施例对此不作限定。

数据处理平台102包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。数据处理平台102用于为支数据处理的应用程序提供后台服务。可选地，数据处理平台102承担主要处理工作，终端101承担次要处理工作；或者，数据处理平台102承担次要处理工作，终端101承担主要处理工作；或者，数据处理平台102或终端101分别能够单独承担处理工作。或者，数据处理平台102和终端101两者之间采用分布式计算架构进行协同计算。

可选地，该数据处理平台102包括至少一台服务器1021以及数据库1022，该数据库1022用于存储数据，在本申请实施例中，该数据库1022中能够存储用户画像数据，为至少一台服务器1021提供数据服务。

服务器能够是独立的物理服务器，也能够是多个物理服务器构成的服务器集群或者分布式系统，还能够是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端能够是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。

本领域技术人员能够知晓，上述终端101、服务器1021的数量能够更多或更少。比如上述终端101、服务器1021能够仅为一个，或者上述终端101、服务器1021为几十个或几百个，或者更多数量，本申请实施例对终端或服务器的数量和设备类型不加以限定。

图2是本申请实施例提供的一种数据处理方法的流程图，该方法应用于电子设备中，该电子设备为终端或服务器，参见图2，该方法包括以下步骤。

201、电子设备获取至少两个用户的用户画像数据，一个用户的该用户画像数据包括至少两种数据。

对于用户画像数据，用户画像又称用户角色，是一种勾画用户、联系用户诉求与设计方向的有效工具。用户画像数据则是指对刻画用户形象的数据，该用户画像数据能够表征用户的属性和行为习惯等。

在一些实施例中，用户画像数据可以包含多种不同数据源的数据，如身高、年龄、性别等自然人特征，游玩游戏时长、等级等游戏行为特征等。

这些数据性质各异，可能混合了有序型数据和无序型数据。有序型数据是指具有一定等级顺序的数据，例如学生成绩包括优、良、中、差这些等级顺序。又例如，年龄通过不同的数值表示，不同的数值具有大小之分。可以理解地，无序型数据则不具有上述等级顺序，例如，性别包括男和女，男和女这两种性别之间并不具有等级之分。

对于上述多种数据，可能混合了数值型数据和非数值型数据。其中，数值型数据是按数字尺度测量的观察值，其结果表现为具体的数值。数值型数据的取值具有大小之分。非数值型数据则是无法通过数值表示的数据，其通过文字或者其他形式来表征用户的特性。例如，性别包括男和女。

因此，也可以称用户画像数据为多源异质数据。其中，多源是指这些数据的数据源包括多种，异质是指这些数据的性质或者本质不同，是指这些数据的含义不同。

202、电子设备基于该至少两个用户的用户画像数据，获取目标随机森林，该目标随机森林包括至少一个随机树，该目标随机森林用于表示该用户画像数据的分布情况。

随机森林指的是利用多棵随机树对样本进行训练并预测的一种分类器。在机器学习中，随机森林是一个包含多个决策树的分类器，如果包括一个决策树，该分类器输出的类别则为该决策树输出的类别，如果包括多个决策树，该分类器输出的类别则为多个决策树输出的类别的众数，也即是多个决策树中输出的类别中数量最多的类别。

该步骤202为基于至少两个用户的用户画像数据构建分类器的过程，在本实施例中，将构建出来的随机森林称为目标随机森林。该目标随机森林用于后续对需要确定相似度的用户进行分类，进而根据分类情况确定两者的相似度。

203、电子设备获取第一用户和第二用户的目标用户画像数据。

该第一用户和第二用户可以为需要比较相似度的两个用户。在一些实施例中，该第一用户和该第二用户中的至少一个为该至少两个用户中的用户，则电子设备可以从上述步骤201中获取到的至少两个用户的用户画像数据中提取到该第一用户和第二用户的目标用户画像数据。

在另一些实施例中，该第一用户和该第二用户中的至少一个为除该至少两个用户之外的用户。相应地，电子设备获取两个用户的目标用户画像数据可以通过多种方式实现，例如，接收其他设备发送的数据。又例如，从第一用户和第二用户所在终端中获取。又例如，从数据库中提取得到。本申请实施例对此不作限定。

204、电子设备分别根据第一用户和第二用户的目标用户画像数据，以及该目标随机森林，为该第一用户和该第二用户进行分类，得到至少一个第一路径和至少一个第二路径，该第一路径和该第二路径为该目标随机森林中随机树上的路径；该第一路径基于该第一用户的目标用户画像数据和该随机树得到，该第二路径基于该第二用户的目标用户画像数据和该随机树得到。

可以理解地，相似用户的用户画像数据比较相似，基于相似的用户画像数据进行分类时，分类情况则会比较相似。在该步骤204中，即根据相同的分类方式，对第一用户和第二用户进行分类，确定两个用户基于目标随机森林的分类情况。

205、电子设备根据该至少一个第一路径和该至少一个第二路径之间公共路径的长度，确定该第一用户和该第二用户之间的相似度。

在确定了两个用户根据目标随机森林的分类情况后，如果分类情况较相似，则二者之间的相似度较高。如果分类情况相差较远，则二者之间的相似度较低。在本实施例中，两个用户基于目标随机森林的分类情况能够通过两个用户在目标随机森林中随机树中的路径来表征，则两个用户的路径之间公共路径也即可表征两个用户的分类情况中相同的分类结果。这样公共路径的长度即可表征分类情况的相似度。

本申请实施例中，提出了一种基于用户画像数据分布获取用户之间相似度的方式，该方式中通过对多个用户的用户画像数据分析得到目标随机森林，来表示用户画像数据的分布，然后根据目标随机森林，以分类的方式，对需要比较的两个用户的用户画像数据进行分析，这样两个用户的用户画像数据越相似，越容易被分类为同一类，这样根据两个用户分类得到的路径之间公共路径的长度能够准确获悉用户之间的相似度，该相似度获取以用户画像数据分布为依据，也就无需预处理过程，简化了数据处理流程，能够大大减少数据处理时间，提高数据处理效率。且没有预处理过程，而是基于原始的用户画像数据进行分析，能够更准确的体现用户的真实情况，得到的相似度更准确。另外，该相似度基于路径之间公共路径的长度确定，该路径能够体现出基于每种数据的分类情况，考虑到的数据种类更多，数据处理的颗粒度更细，因而确定的相似度也就更准确。

图3是本申请实施例提供的一种数据处理方法的流程图，参见图3，该方法包括以下步骤。

301、电子设备获取至少两个用户的用户画像数据，一个用户的该用户画像数据包括至少两种数据。

在本实施例中，电子设备需要基于用户的用户画像数据，对用户的用户画像数据的分布情况进行分析，以此来确定出如何基于用户画像数据对用户进行分类，以通过分类过程，分析出两个用户之间的相似度。

该电子设备获取用户画像数据的过程可以通过多种方式实现，本申请实施例对此不作限定。

在一些实施例中，该用户画像数据可以存储于该电子设备中，电子设备在需要对用户画像数据进行分析时，能够从本次存储中，获取至少两个用户的用户画像数据。

在另一些实施例中，该用户画像数据可以存储于数据库中，电子设备在需要对用户画像数据进行分析时，能够响应于数据获取指令，从该数据库中，提取至少两个用户的用户画像数据。

在本申请实施例中，一个用户的该用户画像数据包括至少两种数据。通过多种数据能够对一个用户从多个角度进行表征，基于多种数据对用户进行相似度分析，能够更准确地分析出两个用户之间的相似度。例如，用户画像数据可以包括用户的身高、年龄、性别、游玩游戏时长、等级等。

302、电子设备对该至少两个用户的用户画像数据进行采样，得到至少一组用户的用户画像数据，一组用户为该至少两个用户中的部分或全部用户。

电子设备在获取到至少两个用户的用户画像数据后，可以对用户的用户画像数据的分布情况进行分析，以确定后续基于什么样的分类方式对用户进行分类。

在生成目标随机森林时，电子设备可以通过采样的方式，选择这些用户中的部分用户，以生成随机树。这样通过多次采样，多次得到部分用户，进而得到多棵随机树。

其中，采样是指从至少两个用户中随机选择部分用户的过程。在一些实施例中，电子设备可以设置有采样所采用的目标数量，在该步骤302中，电子设备可以从至少两个用户中随机选择目标数量的用户作为一组用户。

上述采样过程的执行次数可以为一次，也可以为多次，对应采样得到的用户可以为一组，也可以为多组。

在一些实施例中，上述采样过程可以采用无放回的采样方式，通过无采样过程，将至少两个用户随机划分到多个组。该分组过程随机，不依赖标签，即可得到准确的用户画像数据的分布情况。其中，采样过程是从样本总体中抽取个体的过程，无放回采样是在逐个抽取个体时，每次被抽到的个体不放回总体中参加下一次抽取的采样方法。采用无放回的采样方式时，总体中包括的个体数量在抽样过程中逐渐减小，总体中各个体被抽取的概率因抽取顺序不同而有所不同。

在另一些实施例中，上述采样过程也可以采用有放回的采样方式，在每次采样过程中采样范围均为上述至少两个用户，在多次采样结果中同一个用户可重复被选中。其中，放回采样是指在逐个抽取个体时，每次被抽到的个体放回总体中后再进行下次抽取的采样方法，因而每次采样时总体包括的个体数量不变。通过多次有放回的采样方式，能够得到多组用户，该多组用户均是随机从至少两个用户中采样得到的，因而，可以对至少两个用户的用户画像数据进行准确分析。

303、电子设备基于该至少一组用户的用户画像数据，生成至少一个随机树，将该至少一个随机树组成该目标随机森林。其中，该目标随机森林用于表示该用户画像数据的分布情况。

对于一组用户的用户画像数据，电子设备可以依次根据该用户画像数据中至少两种数据以及该至少两种数据对应的分类规则，对该一组用户进行分类，然后根据该一组用户基于该至少两种数据分类的至少两个分类结果，确定该一组用户对应的随机树，该随机树中一个节点对应基于一种数据分类的一个分类结果。

例如，用户画像数据包括三种数据：身高、性别和年龄。对于一组用户中的每个用户，电子设备可以先根据该用户的身高进行分类，再基于性别进行分类，最后基于年龄进行分类，最终将得到该用户的三个分类结果。这一组用户的随机树的根节点为所有用户，根节点下的子节点则是基于身高得到的分类结果，在每个基于身高得到的分类结果之下的子节点则是基于性别得到的分类结果，以此类推，该随机树的叶子节点为基于年龄得到的分类结果。

上述随机树的每个节点对应一个分类结果，基于每种数据进行分类的过程，也即是对随机树每个节点的子节点进行分析的过程。具体一个节点的子节点时，可以基于一种数据进行分类，根据该种数据的种类确定子节点的数量，当然，该子节点的数量可以与该种数据的种类数量相同，也可以小于该种数据的种类数量。例如，性别的种类数量为2，子节点的数量可以为2。又例如，年龄为数值型数据，小于25岁为第一类，25-50岁为第二类，50以上为第三类。通过限定叶子节点的数量或树的深度，能够控制完成随机树的规模不会过大。

在一些实施例中，该用户画像数据包括数值型的第一用户画像数据和非数值型的第二用户画像数据。对于数值型和非数值型的数据在步骤201中已给出定义，在此对其以示例进行简单介绍。例如，对于身高，身高是按数字尺度测量的观察值，其结果表现为具体的数值，因而其为数值型的第一用户画像数据。例如，对于性别，性别无法通过数值表示，因而其为非数值型的第二用户画像数据。

在该步骤303中，针对不同类型的数据进行分类时，则可以根据这个数据是数值型或非数值型的特征来采用不同的分类方式，这样考虑到这种数据的类型，采用与该类型相符的分类方式，能够对其进行更准确、更细致地分类。而不是统一将其数值化，使得一些非数值型数据被改变而无法准确地对用户进行表征，这样分析出来的用户相似度的真实性和准确性也比较差。

具体地，在分类时，对于该一组用户中的任一用户，电子设备响应于该至少两种数据中任一种数据为数值型的第一用户画像数据，根据该第一用户画像数据与目标阈值之间的大小关系，确定该任一用户基于该第一用户画像数据的分类结果。例如，某个用户的身高为170厘米(cm)，目标阈值为165cm，该用户的身高大于目标阈值，则被分类为第一类。另一个用户的身高为160cm，其身高小于目标阈值，则可以被分类为第二类。

电子设备响应于该任一种数据为非数值型的第二用户画像数据，根据目标概率和该第二用户画像数据，为该第二用户画像数据进行分类，得到该第二用户画像数据的分类结果，将该第二用户画像数据的分类结果作为该任一用户的一个分类结果。

对于非数值型数据，其并不能通过数值的形式表达，自然两个非数值型数据之间也不具有大小之分。在本申请实施例中，能够通过设置条件，来为非数值型数据进行分类。该条件则可以通过设置目标概率，确定该非数值型数据的分类结果。例如：用户喜欢的颜色即为一种非数值型数据。对于这种数据，可以包括多种类别。例如，红、橙、黄、绿、青、蓝、紫、黑、白、…、灰色等。在对这种数据进行分类时，可以结合目标概率，确定每种类别的分类结果。比如，红色被分类为第一类，橙色被分类为第二类，…，灰色被分类为第一类等。

针对非数值型数据，电子设备无需将其转化为数值或者向量，通过分类过程，基于一定的分类规则，将其分类，即可简化数据处理流程，提高处理效率。

该非数值型数据的处理过程可以通过伯努利过程实现，其中，伯努利过程是是一个由有限个或无限个的独立随机变量X1，X2，X3，...，所组成的离散时间随机过程。其中X1，X2，X3，...，满足如下条件：对每个i，Xi等于0或1；对每个i，Xi＝1的概率等于p。其中，该p即为上述目标概率。换言之，伯努利过程是一列独立同分布的伯努利试验。每个Xi的2个结果也被称为“成功”或“失败”。所以当用数字1或0来表示的时候，这个数字被称为第i个试验的成功次数。

在本申请应用伯努利过程时，通过设置目标概率，可以将非数值型数据的多种类别分类为两类，其中，上述取值为0的为一类(第一类)，取值为1的作为另一类(第二类)。具体地，对于该非数值型数据的一种类别，根据目标概率确定该类别为0还是1，以此来确定该类别为第一类还是第二类。例如，该目标概率可以为0.5，针对一种数据，该数据的某个类别取值为1的概率为0.5，该数据的某个类别取值为0的概率也为0.5，通过目标概率为该数据的某个类别确定出取值(0或1)，即可将相同取值的类别作为同一类。当然，上述仅以数字0或1来表示伯努利试验中失败或成功为例进行说明，本领域技术人员也可以通过其他数字来表示，本申请实施例对此不作限定。

在一些实施例中，电子设备可以根据随机树的深度阈值或者叶子节点的数量阈值生成目标随机森林，这样该随机树的深度小于深度阈值；或者，该随机树的叶子节点的数量小于数量阈值。

在此先对树的一些名词进行简单介绍。

根节点是树的一个组成部分，也叫树根。它是一棵树中除本身外所有节点的祖先，根节点没有父节点。若一个节点含有子节点，则这个节点称为其子节点的父节点。一个节点含有的子树的根节点称为该节点的子节点。一个节点含有的子节点的个数称为该节点的度。叶子节点则是度为零的节点，也即是叶子节点没有子节点。树的深度为树中节点的最大层次。相应地，对于随机树的深度，随机树从根节点开始往下数，叶子节点所在的最大层数称为随机树的深度。

通过深度阈值限定随机树的深度，能够保证随机树不会因数据种类过多，而规模很大，这样能够有效控制随机树生成所需时间，提高目标随机森林的获取效率。

一些数据的种类可能比较多，如果全部对这种数据进行分类时，每种种类均分类为一类，则可能会形成很多个叶子节点，最终分类后得到的随机树的叶子节点数量可能会非常多，这样形成随机树的过程耗时比较多，随机树的规模也会很大。通过数量阈值限定叶子节点的数量，能够保证随机树的规模不会过大，提高随机树生成效率，继而提高目标随机森林的获取效率。

上述基于用户画像数据生成目标随机森林的过程，可以理解为：将用户画像数据作为样本，对用户画像数据进行采样得到一组或者多组用户的过程为样本空间分割过程，也可以称为样本空间划分过程，将样本划分到不同的样本空间中，该划分过程随机，因而能够得到准确的用户画像数据的分布情况。

在一种可能实现方式中，通过用户画像数据生成的目标随机森林可以为完全随机森林，相较于普通的随机森林，完全随机森林不依赖样本标签，对样本空间是随机分割的，所以称为“完全随机”。这种随机分割使得相似的用户更难被分割开，继而基于样本空间中用户的用户画像数据生成随机树后，基于该随机树计算两个用户之间的相似度时能够得到更准确的结果。

例如，提供一个具体示例，该示例中以设置有深度阈值(最大深度)，目标随机森林为完全随机森林为例。以该生成过程为随机森林生成算法为例，该算法的输入可以为用户画像数据集D，采样个数s，树最大深度d_max，目标随机森林中完全随机树的个数N，该算法的输出为完全随机森林(Total Random Forest，TRF)。s，d_max，N为正整数。其中，该用户画像数据集中包括多个样本，每个样本为一个用户的用户画像数据。完全随机森林(TRF)中包括多个随机树，可以通过集合TRF来表示该完全随机森林，通过下述步骤，将构建得到的多个随机树T_M。加入集合TRF，即可得到最终的集合TRF，也即是完全随机森林。

该算法的具体步骤可以为步骤(1)至步骤(4)。

步骤(1)、从用户画像数据集D中无放回采样s个样本，记为M，在此称为子样本集M，M中每个样本记为M₀。

步骤(2)、根据子样本集M、树最大深度d_max，构建完全随机树T_M。

其中，步骤(2)可以通过完全随机树的生成算法实现，该生成算法的输入可以为子样本集M，M中每个样本记为M₀，也即是M＝{M₀}。树最大深度d_max，输出可以为一棵完全随机树T_M。该生成算法的步骤可以包括以下步骤1至步骤4。

步骤1、记初始树深度d＝0，初始待分裂节点集合M＝{M₀}。

步骤2、集合M中样本M₀均具有多种用户画像数据，假设每个样本包括用户的W种用户画像数据，其中，W种用户画像数据中包括n种数值型的第一用户画像数据和m种非数值型的第二用户画像数据。W＝n+m。W，n，m均为正整数。可以针对可以按如下步骤2.1至步骤2.3所示的方式确定样本空间的切分方式。假设基于每种用户画像数据，可以将集合M看做多个元素M′，每个元素M′包括集合M中所有样本M₀的一种用户画像数据。

步骤2.1、从n+m种数据中随机选择一种数据，记为f。然后可以在当前待分裂节点处针对这种数据f进行分类，该待分裂节点分裂得到的节点数量与分成的种类数量相同。在分类时候，针对不同类型的数据，可以采用不同的分类方式，具体针对不同类型的数据，可以分别采用下述步骤2.2a和步骤2.2b。

步骤2.2a、如果f是数值型数据(数值型的第一用户画像数据)，将M′中的样本按f的取值的大小顺序去重排列，然后随机选择一个样本M₀的数据f值的取值，记为a.f，则将a.f作为切分准则，能够切分得到集合A＝{f|f＜a.f}。

步骤2.2b、如果f是非数值数据(非数值型的第二用户画像数据)，根据M′中样本统计f的所有可能取值，记为

也即是，f包括N_f种取值，N_f为正整数。然后考虑一个N_f次的基于概率p＝0.5(也即是上述目标概率)的伯努利过程，第i次的结果记为b_i＝{0，1}，则切分准则集合为A＝{f_i|b_i＝1}。该切分准则集合也即是分类规则。1≤i≤N_f，且i为整数。

上述步骤2.2b通过伯努利过程实现，如图4所示，电子设备能够通过随机选择非数值数据的切分准则，也即是分类规则，然后将数据M′分为M′_left和M′_right两种。当然，在此仅以二分类为例说明，该过程也可以分为更多种类型，本申请实施例对此不作限定。

步骤2.3、根据切分准则集合A，将M′分为M′_left＝{x∈M′|x.f∈A}和

也即是，符合切分准则集合A的样本则被分为待分裂节点下的一个节点。该不符合集合A的其它样本则被分为带分裂节点下的另一个节点。

步骤3、更新M为{M′_left，M′_right|M′∈M}，更新树深度d为d+1。d为整数。

步骤4、当d等于d_max时，输出T_M为规则准则集构成的决策树；否则，返回步骤1。

步骤(3)、将T_M加入集合TRF。

步骤(4)、返回步骤(1)直到集合TRF包含N个完全随机树。上述步骤(1)至步骤(3)示出了基于一个子样本集M新树构建一颗完全随机树T_M，并将其加入集合TRF的过程，对于N个子样本集M，可以再通过上述步骤(1)至步骤(3)的过程，得到其他完全随机树，直至完全随机树的数量为N。

步骤302和步骤303为基于该至少两个用户的用户画像数据，获取目标随机森林，该目标随机森林包括至少一个随机树的过程，上述过程中以采用得到至少一组用户后，根据每组用户生成一个随机树为例进行了说明。本实施例中，电子设备还可以不进行采样步骤，而是直接至少两个用户的用户画像数据，生成一个随机树，也即是该目标随机森林包括一个随机树，后续电子设备基于该随机树对两个用户进行分类，以确定相似度。本申请实施例对具体采用哪种方式不作限定。

304、电子设备获取第一用户和第二用户的目标用户画像数据。

对于第一用户和第二用户，这两个用户可以为上述生成目标随机森林时用到的至少两个用户中的用户，也即是，可以为上述步骤301中已获取到用户画像数据的用户。该两个用户也可以为新的用户，不是生成目标随机森林时用到的用户。具体地，该第一用户和该第二用户中的任一个可以为该至少两个用户中的用户，也可以为除该至少两个用户之外的用户。其中，该至少两个用户是作为样本生成目标随机森林的用户。

该第一用户和第二用户与上述至少两个用户的关系不同时，该电子设备获取目标用户画像数据的方式也可以不同。

在一些实施例中，如果第一用户或第二用户为上述至少两个用户中的用户，则电子设备可以从步骤301中获取到的至少两个用户的用户画像数据中，提取第一用户或第二用户的用户画像数据作为该目标用户画像数据。

在另一些实施例中，如果第一用户或第二用户不是至少两个用户中的用户，该电子设备可以从数据库中获取存储的该第一用户或第二用户的目标用户画像数据；或者该电子设备可以从本次存储中，获取第一用户或第二用户的目标用户画像数据。

本申请实施例对该第一用户或第二用户的目标用户画像数据的获取方式不作限定。

305、电子设备根据第一用户的目标用户画像数据，以及该目标随机森林，为该第一用户进行分类，得到至少一个第一路径。

其中，该第一路径为该第一用户的目标用户画像数据在该目标随机森林的随机树中的路径。

通过上述至少两个用户的用户画像数据，根据目标随机森林中的随机树对两个用户进行分析，能够分析出两个用户的用户画像数据之间是否相似，相似度是多少，进而也就知道两个用户之间的相似度。

在对用户画像数据进行分析时，随机树中每个待分裂节点对应一种数据的分类规则，基于这种分类规则，能够对用户进行分类，确定基于该用户的用户画像数据中该种数据基于该分类规则被分为哪一类。如果两个用户的这种数据相似，则可能会被分为同一类。

上述随机树的生成过程可以理解为：初始时，将根节点作为待分裂节点，然后根据该根节点对应的分类规则，将数据分为多个类，每个类作为该根节点分裂得到的多个节点，该多个节点为该根节点的子节点。然后，再将每个子节点作为待分裂节点，根据该待分裂节点对应的分类规则进一步进行分裂。最终对待分裂节点进行分裂得到叶子节点，该叶子节点也即不再进行分裂的节点。

在一些实施例中，该第一路径为基于一个随机树对该第一用户分类得到的至少两个分类结果组成的一个路径；该第二路径为第二用户基于一个随机树分类得到的至少两个分类结果组成的一个路径。上述分类结果为随机树中的节点，则一个第一路径则对应一个节点序列或节点集合，一个第二路径也对应一个节点序列或节点集合。

相应地，该步骤305中，对于该目标随机森林中的一个随机树，电子设备按照该随机树中该至少两种数据的分类规则，基于该第一用户的目标画像数据对该第一用户进行分类，得到该第一用户基于该随机树分类的至少两个分类结果，将该第一用户对应的至少两个分类结果组成该第一路径。

例如，在具体示例中，以获取三个用户(用户x₁，用户x₂，用户x₃)在完全随机树上的路径为例进行说明。如图5所示，该第一路径的获取过程中，输入为完全随机树T_M，用户x₁，用户x₂，用户x₃的用户画像数据，输出为用户x₁，用户x₂，用户x₃在完全随机树T_M上的路径P_T(x₁)、P_T(x₂)、P_T(x₃)。其中，该路径P_T(x₁)、P_T(x₂)、P_T(x₃)为节点序列，一条路径记录了用户落到完全随机树的叶子节点时所经过的完全随机树上所有节点。电子设备可以先初始化路径序列P_T(x₁)、P_T(x₂)、P_T(x₃)为空，初始当前节点A为T_M的根节点，然后将A加入序列P_T(x₁)、P_T(x₂)、P_T(x₃)。然后电子设备将A作为要分析的节点，根据节点A的切分准则集合A，对三个用户的用户画像数据中该节点A对应的那种数据进行分析，确定三个用户分别落入节点A的哪个子节点。其中，该切分准则集合A也即是节点A对应的分类规则，该切分准则集合A为该完全随机树生成时确定，确定方式具体可以参见上述步骤303所示的步骤2.2a和步骤2.2b。节点A包括两个子节点B₁和B₂。用户x₁，用户x₂，用户x₃均落入子节点B₁，将B₁加入序列P_T(x₁)、P_T(x₂)、P_T(x₃)。然后电子设备再将B₁作为要分析的节点，继续对三个用户的用户画像数据进行分析，确定用户x₁落入子节点C₁，用户x₂、用户x₃落入子节点C₂，电子设备可以将C₁加入序列P_T(x₁)，将C₂加入序列P_T(x₂)、P_T(x₃)。C1为叶子节点，对用户x₁的分析终止。然后电子设备再将继续将C₂作为要分析的节点，确定用户x₂落入子节点D₂，用户x₃落入子节点D₁。因而，电子设备可以将D₂加入序列P_T(x₂)，将D₁加入序列P_T(x₃)，D₁和D₂为叶子节点，终止分析。因而，可以得到三个用户在该完全随机树T_M上的路径P_T(x₁)、P_T(x₂)、P_T(x₃)。P_T(x₁)＝(A，B₁，C₁)，P_T(x₂)＝(A，B₁，C₂，D₂)，P_T(x₃)＝(A，B₁，C₂，D₁)。

306、电子设备根据第二用户的目标用户画像数据，以及该目标随机森林，为该第二用户进行分类，得到至少一个第二路径。

该步骤306与上述步骤305同理，在此不多做赘述。

同理地，该第二路径为该第二用户的目标用户画像数据在该目标随机森林的随机树中的路径。

同理地，对于该目标随机森林中的一个随机树，电子设备按照该随机树中该至少两种数据的分类规则，基于该第二用户的目标画像数据对该第二用户进行分类，得到该第二用户基于该随机树分类的至少两个分类结果，将该第二用户对应的至少两个分类结果组成该第二路径。

步骤305和步骤306为分别根据第一用户和第二用户的目标用户画像数据，以及该目标随机森林，为该第一用户和该第二用户进行分类，得到至少一个第一路径和至少一个第二路径的过程，该过程中，通过目标随机森林能够为两个用户分别确定出至少一个路径，后续可以基于该至少一个路径确定两个用户之间的相似度，具体参见下述步骤307。

307、电子设备根据该至少一个第一路径和该至少一个第二路径之间公共路径的长度，确定该第一用户和该第二用户之间的相似度。

电子设备能够根据目标随机森林中的随机树，对两个用户的目标用户画像数据进行分析，通过基于随机树的分类规则分类，确定用户在每次分类的分类结果，能够对用户有所了解。其中，该随机树的分类规则包括该随机树上每个节点的分类规则，每个节点的分类规则也即是该随机树生成时每种数据的分类规则。

可以理解地，如果两个用户之间的相似度较高，两个用户在分类时更容易分到同一类，这样两个用户的分类结果中相同的分类结果就会更多，基于随机树得到的路径之间公共路径也就越长。

基于一个随机树能够确定出第一用户的一条第一路径以及第二用户的一条第二路径，该目标随机森林中包括至少一个随机树，第一路径和第二路径的数量可能为一个，也可能为多个。如果该目标随机森林包括一个随机树，则电子设备可以获取该随机树确定出的第一路径和第二路径之间公共路径的长度，将该长度作为第一用户和第二用户之间的相似度。

该公共路径是指两个路径之间重合的部分。例如，如图5所示，三个用户的路径(也即是节点序列)存在重合的部分，用户x₁，用户x₂，用户x₃分别对应的路径P_T(x₁)、P_T(x₂)、P_T(x₃)之间存在相同的节点。用户x₁和用户x₂的路径P_T(x₁)、P_T(x₂)之间存在相同的节点A和B₁。用户x₁和用户x₃的路径P_T(x₁)、P_T(x₃)之间存在相同的节点A和B₁。用户x₂和用户x₃的路径P_T(x₂)、P_T(x₃)之间存在相同的节点A、B₁和C₂。这些相同的节点即用于表征两个路径的公共路径。

如果该目标随机森林包括多个随机树，则电子设备基于多个随机树，能够确定出多个第一路径和多个第二路径，电子设备基于每个第一路径和该第一路径对应的第二路径能够确定出一个长度，则基于多个第一路径和多个第二路径能够确定出多个长度，也即是每个随机树均对应一个长度，这样电子设备可以综合确定出的多个长度来得到第一用户和第二用户之间的相似度。对于综合方式，电子设备可以采用平均值或求和的方式实现，当然，也可以通过其他方式实现，下面提供两种可能的获取相似度的方式，以此为例对相似度获取过程进行说明。

在方式一中，电子设备根据该至少一个第一路径和该至少一个第二路径，获取至少一个公共路径的长度，一个公共路径为同一随机树上的第一路径与第二路径重合的路径，然后电子设备计算该至少一个公共路径的长度的平均值，将该平均值作为该第一用户和该第二用户之间的相似度。例如，假设目标随机森林包括N个随机树，基于N个随机树，能够得到第一用户的N个第一路径和第二用户的N个第二路径。对于N个第一路径和N个第二路径，能够确定得到N个公共路径，然后电子设备可以获取该N个公共路径的长度。对于公共路径，基于第i个随机树，得到第i个第一路径和第i个第二路径，该第i个第一路径和第i个第二路径之间重合的路径即为第i个公共路径，该第i个第一路径和第i个第二路径为第i个随机树上的路径，该第i个公共路径也是该第i个随机树上的路径。其中，i为1至N中的任一个。然后电子设备可以将N个公共路径的长度求平均，将平均值作为两个用户之间的相似度。

在方式二中，电子设备根据该至少一个第一路径和该至少一个第二路径，获取至少一个公共路径的长度，一个公共路径为同一随机树上的第一路径与第二路径重合的路径，然后电子设备计算该至少一个公共路径的长度之和，将该至少一个公共路径的长度之和作为该第一用户和该第二用户之间的相似度。例如，假设目标随机森林包括N个随机树，基于N个随机树，能够得到第一用户的N个第一路径和第二用户的N个第二路径。对于N个第一路径和N个第二路径，能够确定得到N个公共路径的长度。该N个公共路径的长度的获取过程与上述方式一中同理。然后电子设备可以将N个公共路径的长度求和，将和作为两个用户之间的相似度。

在上述方式一和方式二中，电子设备基于每个随机树均获取得到了一个公共路径的长度，对于至少一个随机树得到的至少一个长度，方式一中将它们的平均值作为相似度，方式二中将它们求和得到相似度，通过综合多个随机树的结果，能够避免某个随机树生成时对不同数据进行分类的顺序导致相似用户分类后公共路径较短的情况，使得确定出的相似度的准确性更高，更符合用户画像数据的真实分布情况。

在一些实施例中，该第一路径为基于一个随机树对该第一用户分类得到的至少两个分类结果组成的一个路径；该第二路径为第二用户基于一个随机树分类得到的至少两个分类结果组成的一个路径。上述分类结果为随机树中的节点，经过的节点组成一个路径，则一个第一路径则对应一个节点序列或节点集合，一个第二路径也对应一个节点序列或节点集合。

相应地，基于一个随机树得到的该第一路径和该第二路径之间公共路径为该第一用户和该第二用户对应的至少两个分类结果中相同的分类结果。也即是，基于第一随机树得到的两个节点序列或两个节点集合中相同的节点。

相应地，该步骤307中，对于一个随机树得到的第一路径和第二路径，电子设备获取该第一路径和该第二路径中相同分类结果的数量作为基于该随机树该第一用户和该第二用户之间的相似度，然后电子设备根据该目标随机森林中至少一个随机树对应的相似度，确定该第一用户和该第二用户之间的相似度。

例如，在图5所示的示例中，对于公共路径长度，可以给出以下定义：

给定两个用户(用户x₁、用户x₂)的路径P_T(x₁)、P_T(x₂)，两者的公共路径长度L(x₁，x₂)是节点序列中最长公共子序列的长度，其中，公共子序列是指该节点序列从头开始落入的节点持续相同的部分。在此将L(x₁，x₂)记为l。对于每一个j＝1，…，l，有P_T(x₁)[j]＝P_T(x₂)[j]，而P_T(x₁)[l+1]≠P_T(x₂)[l+1]。其中，P_T(x₁)[j]是路径P_T(x₁)中第j个节点。P_T((x₂)[j]是路径P_T((x₂)中第j个节点。对于图5示例中三个用户的路径分析可以如表1所示。

表1

样本对	从头开始的最长公共子序列	公共路径长度
			x₁，x₂	A，B₁	2
x₁，x₃	A，B₁	2
			x₂，x₃	A，B₁，C₂	3

如表1所示，三个用户为三个样本，在分析用户两两之间的相似度时，可以将任意两个用户作为一个样本对，进而对样本对进行分析，其中，一个样本对包括两个样本。在对用户x₁和用户x₂进行分析时，用户x₁和用户x₂即为一个样本对。针对各个样本对，能够根据路径确定出上述从头开始的最长公共子序列。在此将该最长公共子序列的长度作为公共路径长度，因而，可以得到样本对用户x₁和用户x₂的从头开始的最长公共子序列为A，B₁，该最长公共子序列包括两个节点，因而其长度为2，用户x₁和用户x₂的公共路径长度即为2。其他样本对同理，在此不一一赘述。由图5可知，用户x₁落入叶子节点C₁，用户x₂落入叶子节点D₂，用户x₃落入叶子节点D₁。如果将确定两个用户是否落入同一个叶子节点作为相似度衡量标准，则会判断这些用户之间均不相似，可能会用0来描述两个用户之间的相似度。本申请实施例中，每个样本对中的用户都没能落入同一个叶子节点，但是都有一个非0值来描述两者间的相似度。通过公共路径长度则能够判断出两个用户在多种数据上的相似度，进而分析两个用户之间的相似度，这样。通过公共路径长度衡量相似度，而不是通过看这些用户是否落在同一个叶子节点来衡量相似度，由于该公共路径包含有对两个用户针对多种数据进行分类的结果，也即是该公共路径能够表征两个用户在多种数据上的相似度，进而实现了更细粒度的相似度刻画。此外，可以看到用户x₂、用户x₃的公共路径长度3大于用户x₁、用户x₂的公共路径长度2，也大于和用户x₁、用户x₃的公共路径长度2。将上述对多个用户在随机树上的路径进行分析时，确定多个用户落入哪个节点的过程可以理解为对多个用户进行切分的过程。如果两个用户落入同一个节点，则可以认为本次切分并未将用户分开；如果两个用户没有落入同一个节点，也即是落入了不同的节点，则可以为本次切分将用户分开了。那么，两个用户的公共路径的长度越长，说明两个用户需要进行更多次的切分才能分开，也说明这两个用户的用户画像数据更相似，两个用户更相似。例如，图5中的用户x₂、用户x₃需要3次切分才分开，而用户x₁、用户x₂需要2次切分才分开，相较于用户x₁、用户x₂，用户x₂、用户x₃之间更相似。

上述相似度获取过程中，输入为完全随机森林(TRF)、用户x₁、用户x₂的用户画像数据xy，输出为用户x₁、用户x₂的相似度，该相似度为两个用户的公共路径长度，可以将该相似度记为sim(x₁，x₂)。该相似度获取过程也即是，电子设备初始化公共路径长度集合L为空集，然后对于TRF中每一个完全随机树T_M，分别计算用户x₁、用户x₂在每一个完全随机树T_M的路径P_T(x₁)、P_T(x₂)，然后根据上述通过最长公共子序列的长度来确定公共路径长度的获取方式，计算两者的公共路径长度L(x1，x2)，并将其加入集合L。这样电子设备计算集合L中所有元素的平均值，将其作为相似度sim(x₁，x₂)返回。

在一些实施例中，电子设备还可以基于对相似度进行归一化处理，得到归一化后的相似度。例如，在上述示例中，在另一种方式中，相似度计算过程还包括：

这样能够将相似度约束到[0，1]之间，实现归一化。可以理解地，任一用户的路径与自己的路径之间公共路径也就是该用户的路径本身，其他用户的路径与该用户的路径之间公共路径最长也是该用户的路径本身，因而，以该用户的路径与自己的路径的公共路径长度作为分母，能够将两个用户之间的相似度约束到[0，1]之间，实现归一化。例如，在上述图5所示的示例中，sim(x₁，x₂)为2，sim(x₁，x₁)为3，/>

则可以为2/3。

上述过程中，针对用户多源异质画像数据的相似度度量问题，提出了一种基于随机森林公共路径的多源异质画像数据相似度度量方法。该方法利用完全随机森林随机划分用户画像样本所在空间，然后用两个用户画像所在子空间的随机森林公共路径平均长度刻画两者的相似性：平均公共路径越长，意味着将两个画像样本分到不同的子空间中所需要的切分次数越多，因此两者越相似。该方法无需对数据做过多预处理，可以直接应用于含缺失、异常、有序型和无序型数据混合的用户多源异质画像特征。

且上述过程无需将非数值型数据数值化，也就不会出现编码后维度过大的情况，能够避免维度诅咒理论解决相关技术中维度诅咒的问题。维度诅咒是指随着样本维度增加，想要保持模型训练后的效果不退化，需要的样本则需要指数级别增加。相关技术中将非数值型数据转化为数值型数据后才能应用距离进行相似度计算，这样通常会显著增加样本特征的维度。例如，将中国的省份进行独热编码后，维度将增加34维，如果对中国的城市进行编码，则会增加332维。根据维度诅咒理论，当前维度过大时，样本间距离的差异将变小，从而可能导致相似度度量失效、机器学习算法失灵，造成维度诅咒的问题。

在一些实施例中，通过上述步骤，能够确定出两个用户之间的相似度，基于该相似度，能够满足用户的业务需求。具体地，电子设备可以根据该第一用户和该第二用户之间的相似度，执行该相似度对应的功能。

例如，电子设备能够基于用户之间的相似度为用户进行聚类或分类，然后基于聚类或分类的结果，可以进一步实现多种业务应用，如未成年检测、玩法聚类、付费习惯分析等等。也即是，电子设备可以基于一些已知用户和未知用户的用户画像数据为用户进行聚类，对于属于同一类的用户中，可以确定未知用户的某种信息可以与已知用户的某种信息相同。下面提供几个具体场景。

在场景一中，电子设备需要对用户进行未成年检测，确定该用户是否为未成年用户，如果该用户为未成年用户，可能执行针对未成年用户的操作，例如，阻止未成年用户的登录操作，提示未成年用户无法登录。具体地，目标应用禁止未成年用户登录，电子设备检测到目标应用的登录操作时，可以获取用户的用户画像数据，然后基于目标随机森林对该用户画像数据与已知未成年用户的用户画像数据进行处理，确定出该用户与已知未成年用户之间的相似度。其中，该用户为第二用户，第一用户为已知未成年用户。电子设备可以响应于该第一用户和该第二用户之间的相似度大于相似度阈值，确定该第二用户为未成年用户，该第一用户为未成年用户。

在场景二中，本申请的方法应用于种子用户扩散。具体地，当一个新游戏上线前，需要寻找该游戏的潜在用户，从而向其推送广告。此时，通常将内测用户和预约用户作为种子用户，为了定位可能的游戏用户，需要寻找与这些种子用户相似的用户。此时，可以根据用户画像数据的相似度计算，找到与种子用户最相似的一部分用户作为扩展用户，进而可以向这些扩展用户推送广告。电子设备可以获取用户的用户画像数据，然后基于目标随机森林对该用户画像数据与种子用户的用户画像数据进行处理，确定出该用户与种子用户之间的相似度。其中，该用户为第二用户，第一用户为种子用户。在此将该游戏应用称为目标应用，该种子用户即为该目标应用的用户。电子设备可以响应于该第一用户和该第二用户之间的相似度大于相似度阈值，向该第二用户发送该目标应用的展示信息，该第一用户为目标应用的用户。其中，该展示信息可以为图像、文字或视频，本申请实施例对该展示信息的文件格式不作限定。

在场景三中，本申请的方法应用于玩法分析。该玩法分析是指通过对用户的用户画像数据进行分析，确定该用户更常用的玩法是什么，属于哪一类玩家。例如，在游戏应用中可以包括很多模式：PVE(Player VS Environment，玩家对战环境)模式和PVP(Playerversus player，玩家对战玩家)模式，可以根据玩家使用这两个模式的频次不同，为玩家赋予不同的模式类别：PVE玩家和PVP玩家。在此仅为一种示例性说明，具体应用的模式以及模式类别可以由相关技术人员根据需求进行设置，本申请实施例对此不作限定。电子设备在需要确定某个用户对应的模式类别时，可以根据用户画像数据，将该用户与已被确定为某种模式类别的用户进行相似度计算，进而确定该用户对应的模式类别。具体地，第一用户对应目标模式类别，电子设备可以获取第一用户和第二用户之间的相似度，响应于该第一用户和该第二用户之间的相似度大于相似度阈值，根据该第一用户对应的目标模式类别，确定该第二用户对应的模式类别为该目标模式类别，该模式类别用于指示用户在目标应用中使用频次最高的模式。

在场景四中，本申请的方法应用于交易习惯分析。电子设备能够根据用户的用户画像数据，分析用户的交易习惯。例如，在游戏应用中可以包括很多模式：PVE(Player VSEnvironment，玩家对战环境)模式和PVP(Player versus player，玩家对战玩家)模式，可以根据玩家使用这两个模式的频次不同，为玩家赋予不同的模式类别：PVE玩家和PVP玩家。在此仅为一种示例性说明，具体应用的模式以及模式类别可以由相关技术人员根据需求进行设置，本申请实施例对此不作限定。电子设备在需要确定某个用户对应的模式类别时，可以根据用户画像数据，将该用户与已被确定为某种模式类别的用户进行相似度计算，进而确定该用户对应的模式类别。具体地，第一用户对应目标模式类别，电子设备可以获取第一用户和第二用户之间的相似度，响应于该第一用户和该第二用户之间的相似度大于相似度阈值，确定该第二用户的交易习惯信息为目标交易习惯信息，该第一用户的交易习惯信息为该目标交易习惯信息。

如图6所示，上述相似度计算过程包括完全随机森林构建过程和相似度计算过程，在完全随机森林构建过程中，能够用户画像数据601构建得到完全随机森林TRF602，之后在对样本A603和样本B604进行相似度计算时，能够基于构建好的完全随机森林TRF602计算出A-B相似度605。

下面提供一个测试示例。在示例中，展示了上述方法应用于Iris(鸢尾属植物)数据集上的取得的效果。其中，Iris数据集也称鸢尾花卉数据集，是一类多重变量分析的数据集。该数据集包含150个样本，150个样本分属于三种类别，该三种类别分别为Setosa，Versicolour，Virginica。每种类别包括50个样本。每个样本具有四个属性：花萼长度，花萼宽度，花瓣长度，花瓣宽度。将这四个属性作为每个样本的画像数据，然后通过画像数据能够预测每个样本属于哪个类别，以训练模型的分类能力。

在该测试示例中，在构建随机森林时，构建了10个随机树，树最大深度是3，这样通过10个随机树对属于3个类别的150个样本进行分析，且通过限定树的最大深度，能够有效控制计算量，在计算量合适的情况下得到比较准确的结果。通过本申请实施例提供的相似度确定方法，为150个样本确定出两两之间的相似度，上述相似度以相似度矩阵的形式表示，该相似度矩阵可以参见图7。其中，相似度矩阵用于描述任两个样本之间的相似度。该相似度矩阵可以包括150行、150列，每一行或每一列均对应一个样本。例如，相似度矩阵中的点700位于第i行第j列，该点700则标记了第i个样本和第j个样本的相似度。i和j均为1至150中的任一个整数。在图7中，以不同深浅的颜色示出了相似度，颜色越浅，相似度越高，颜色越深，相似度越低。如图7所示，150个样本包括三类：类1、类2和类3，相同类别的样本之间相似度对应颜色最浅，因而相似度最高。类1和类2的样本之间相似度对应颜色相对较深，因而相似度次之，类1和类3的样本之间相似度对应颜色最深，因而相似度最低。当然，该相似度矩阵还可以通过其他方式来标识相似度，例如，可以通过颜色暖和冷的程度来标识相似度。例如，颜色越暖，相似度越高，颜色越冷，相似度越低。图7中并未示出上述颜色冷暖的区分，如果通过颜色冷暖区分，则上述相同类别的样本之间的相似度对应颜色最暖，类1和类2的样本之间相似度对应颜色相对要冷一些，类1和类3的样本之间相似度对应颜色最冷。通过图7可以明显看出，沿对角线形成三个某种图案的方块是来自同一个类的样本，这些样本之间相似度对应颜色最浅，颜色最暖，因而，他们之间的相似度要大于不同类样本之间的相似度。由此可见，上述方法有效度量了样本间的相似度。

如图8所示，以花卉的两种属性数据为例，针对上述相似度矩阵，能够确定出基于相似度的最近邻分类的二维分类边界。其中，分类边界用于将不同种类的样本分离开。在确定分类边界时，能够通过对样本分类，根据分类结果，将不同种类的样本通过分类边界隔开。位于分类边界两侧的样本属于不同种类。最近邻分类是指如果一个样本在特征空间中的多个最邻近的样本中的大多数属于某一个类别，则该样本也属于这个类别。因而，通过相似度矩阵中样本之间的相似度，能够对样本进行分类，确定每个样本属于哪一类，进而描画出分类边界。如图8所示，图8的横纵坐标分别代表一种属性数据，图8中三种颜色的圆圈代表了三类样本，三种颜色的圆圈分别为圆圈801、圆圈802和圆圈803，不同颜色的区域是基于最近邻的分类区域，在图8中，三种颜色的区域分别为分类区域804、分类区域805和分类区域806，各个分类区域之间通过分类边界807划分。通过图8可以看出，通过上述相似度计算方式，能够基本将属于同一类的样本划分到同一分类区域中，准确地将各类样本分类成功。在测试过程中发现，在该数据集上，基于上述方法的最近邻分类的分类准确率高达到0.96。

上述所有可选技术方案，能够采用任意结合形成本申请的可选实施例，在此不再一一赘述。

图9是本申请实施例提供的一种数据处理装置的结构示意图，参见图9，该装置包括：

数据获取模块901，用于获取至少两个用户的用户画像数据，一个用户的该用户画像数据包括至少两种数据；

随机森林获取模块902，用于基于该至少两个用户的用户画像数据，获取目标随机森林，该目标随机森林包括至少一个随机树，该目标随机森林用于表示该用户画像数据的分布情况；

该数据获取模块901还用于获取第一用户和第二用户的目标用户画像数据；

分类模块903，用于分别根据第一用户和第二用户的目标用户画像数据，以及该目标随机森林，为该第一用户和该第二用户进行分类，得到至少一个第一路径和至少一个第二路径，该第一路径和该第二路径为该目标随机森林中随机树上的路径；该第一路径基于该第一用户的目标用户画像数据和该随机树得到，该第二路径基于该第二用户的目标用户画像数据和该随机树得到；

相似度确定模块904，用于根据该至少一个第一路径和该至少一个第二路径之间公共路径的长度，确定该第一用户和该第二用户之间的相似度。

在一些实施例中，该随机森林获取模块902用于：

对该至少两个用户的用户画像数据进行采样，得到至少一组用户的用户画像数据，一组用户为该至少两个用户中的部分或全部用户；

基于该至少一组用户的用户画像数据，生成至少一个随机树，将该至少一个随机树组成该目标随机森林，一组用户的用户画像数据对应一个随机树。

在一些实施例中，该随机森林获取模块902用于：

对于一组用户的用户画像数据，依次根据该用户画像数据中至少两种数据以及该至少两种数据对应的分类规则，对该一组用户进行分类，得到该一组用户的至少两个分类结果，一个分类结果基于一种数据分类得到；

根据该一组用户的至少两个分类结果，确定该一组用户对应的随机树，该随机树中一个节点对应一个分类结果。

在一些实施例中，该用户画像数据包括数值型的第一用户画像数据和非数值型的第二用户画像数据；

该随机森林获取模块902用于：

对于该一组用户中的任一用户，响应于该至少两种数据中任一种数据为数值型的第一用户画像数据，根据该第一用户画像数据与目标阈值之间的大小关系，确定该任一用户基于该第一用户画像数据的分类结果；

响应于该任一种数据为非数值型的第二用户画像数据，根据目标概率和该第二用户画像数据，为该第二用户画像数据进行分类，得到该第二用户画像数据的分类结果，将该第二用户画像数据的分类结果作为该任一用户的一个分类结果。

在一些实施例中，该随机树的深度小于深度阈值；或者，该随机树的叶子节点的数量小于数量阈值。

在一些实施例中，该相似度确定模块904用于：

根据该至少一个第一路径和该至少一个第二路径，获取至少一个公共路径的长度，一个公共路径为同一随机树上的第一路径与第二路径重合的路径；

计算该至少一个公共路径的长度的平均值；

将该平均值作为该第一用户和该第二用户之间的相似度。

在一些实施例中，该相似度确定模块904用于：

计算该至少一个公共路径的长度之和；

将该至少一个公共路径的长度之和作为该第一用户和该第二用户之间的相似度。

在一些实施例中，该第一路径为基于一个随机树对该第一用户分类得到的至少两个分类结果组成的一个路径；该第二路径为第二用户基于一个随机树分类得到的至少两个分类结果组成的一个路径。

在一些实施例中，该分类模块903用于对于该目标随机森林中的一个随机树，按照该随机树中该至少两种数据的分类规则，分别基于该第一用户和该第二用户的目标画像数据对该第一用户和该第二用户进行分类，得到该第一用户和该第二用户各自基于该随机树分类的至少两个分类结果，将该第一用户对应的至少两个分类结果组成该第一路径，将该第二用户对应的至少两个分类结果组成该第二路径。

在一些实施例中，基于一个随机树得到的该第一路径和该第二路径之间公共路径为该第一用户和该第二用户对应的至少两个分类结果中相同的分类结果；

该相似度确定模块904用于：

对于一个随机树得到的第一路径和第二路径，获取该第一路径和该第二路径中相同分类结果的数量作为基于该随机树该第一用户和该第二用户之间的相似度；

根据该目标随机森林中至少一个随机树对应的相似度，确定该第一用户和该第二用户之间的相似度。

在一些实施例中，该第一用户和该第二用户中的至少一个为该至少两个用户中的用户；该第一用户和该第二用户中的至少一个为除该至少两个用户之外的用户。

在一些实施例中，该装置还包括确定模块，该确定模块用于执行下述任一项：

响应于该第一用户和该第二用户之间的相似度大于相似度阈值，确定该第二用户为未成年用户，该第一用户为未成年用户；

响应于该第一用户和该第二用户之间的相似度大于相似度阈值，向该第二用户发送该目标应用的展示信息，该第一用户为目标应用的用户；

响应于该第一用户和该第二用户之间的相似度大于相似度阈值，根据该第一用户对应的目标模式类别，确定该第二用户对应的模式类别为该目标模式类别，该模式类别用于指示用户在目标应用中使用频次最高的模式；

响应于该第一用户和该第二用户之间的相似度大于相似度阈值，确定该第二用户的交易习惯信息为目标交易习惯信息，该第一用户的交易习惯信息为该目标交易习惯信息。

本申请实施例提供的装置，基于用户画像数据分布获取用户之间相似度，通过对多个用户的用户画像数据分析得到目标随机森林，来表示用户画像数据的分布，然后根据目标随机森林，以分类的方式，对需要比较的两个用户的用户画像数据进行分析，两个用户的用户画像数据越相似，越容易被分类为同一类，这样根据两个用户分类得到的路径之间公共路径的长度能够准确获悉用户之间的相似度，该相似度获取以用户画像数据分布为依据，也就无需预处理过程，简化了数据处理流程，能够大大减少数据处理时间，提高数据处理效率。且没有预处理过程，而是基于原始的用户画像数据进行分析，能够更准确的体现用户的真实情况，得到的相似度更准确。另外，该相似度基于路径之间公共路径的长度确定，该路径能够体现出基于每种数据的分类情况，考虑到的数据种类更多，数据处理的颗粒度更细，因而确定的相似度也就更准确。

需要说明的是：上述实施例提供的数据处理装置在数据处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，能够根据需要而将上述功能分配由不同的功能模块完成，即将数据处理装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的数据处理装置与数据处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图10是本申请实施例提供的一种电子设备的结构示意图，该电子设备1000可因配置或性能不同而产生比较大的差异，能够包括一个或一个以上处理器(CentralProcessing Units，CPU)1001和一个或一个以上的存储器1002，其中，该存储器1002中存储有至少一条计算机程序，该至少一条计算机程序由该处理器1001加载并执行以实现上述各个方法实施例提供的数据处理方法。该电子设备还能够包括其他用于实现设备功能的部件，例如，该电子设备还能够具有有线或无线网络接口以及输入输出接口等部件，以便进行输入输出。本申请实施例在此不做赘述。

上述方法实施例中的电子设备能够实现为终端。例如，图11是本申请实施例提供的一种终端的结构框图。该终端1100可以是便携式移动终端，比如：智能手机、平板电脑、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1100还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1100包括有：处理器1101和存储器1102。

处理器1101可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1101可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1101也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1101可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1101还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1102可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1102还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1102中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1101所执行以实现本申请中方法实施例提供的数据处理方法。

在一些实施例中，终端1100还可选包括有：外围设备接口1103和至少一个外围设备。处理器1101、存储器1102和外围设备接口1103之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1103相连。具体地，外围设备包括：射频电路1104、显示屏1105、摄像头组件1106、音频电路1107和电源1109中的至少一种。

外围设备接口1103可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1101和存储器1102。在一些实施例中，处理器1101、存储器1102和外围设备接口1103被集成在同一芯片或电路板上；在一些其他实施例中，处理器1101、存储器1102和外围设备接口1103中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1104用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1104通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1104将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1104包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1104可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1104还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1105用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1105是触摸显示屏时，显示屏1105还具有采集在显示屏1105的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1101进行处理。此时，显示屏1105还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1105可以为一个，设置在终端1100的前面板；在另一些实施例中，显示屏1105可以为至少两个，分别设置在终端1100的不同表面或呈折叠设计；在另一些实施例中，显示屏1105可以是柔性显示屏，设置在终端1100的弯曲表面上或折叠面上。甚至，显示屏1105还可以设置成非矩形的不规则图形，也即异形屏。显示屏1105可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-EmittingDiode，有机发光二极管)等材质制备。

摄像头组件1106用于采集图像或视频。可选地，摄像头组件1106包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1106还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1107可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1101进行处理，或者输入至射频电路1104以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1100的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1101或射频电路1104的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1107还可以包括耳机插孔。

电源1109用于为终端1100中的各个组件进行供电。电源1109可以是交流电、直流电、一次性电池或可充电电池。当电源1109包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1100还包括有一个或多个传感器1110。该一个或多个传感器1110包括但不限于：加速度传感器1111、陀螺仪传感器1112、压力传感器1113、光学传感器1115以及接近传感器1116。

加速度传感器1111可以检测以终端1100建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1111可以用于检测重力加速度在三个坐标轴上的分量。处理器1101可以根据加速度传感器1111采集的重力加速度信号，控制显示屏1105以横向视图或纵向视图进行用户界面的显示。加速度传感器1111还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1112可以检测终端1100的机体方向及转动角度，陀螺仪传感器1112可以与加速度传感器1111协同采集用户对终端1100的3D动作。处理器1101根据陀螺仪传感器1112采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1113可以设置在终端1100的侧边框和/或显示屏1105的下层。当压力传感器1113设置在终端1100的侧边框时，可以检测用户对终端1100的握持信号，由处理器1101根据压力传感器1113采集的握持信号进行左右手识别或快捷操作。当压力传感器1113设置在显示屏1105的下层时，由处理器1101根据用户对显示屏1105的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

光学传感器1115用于采集环境光强度。在一个实施例中，处理器1101可以根据光学传感器1115采集的环境光强度，控制显示屏1105的显示亮度。具体地，当环境光强度较高时，调高显示屏1105的显示亮度；当环境光强度较低时，调低显示屏1105的显示亮度。在另一个实施例中，处理器1101还可以根据光学传感器1115采集的环境光强度，动态调整摄像头组件1106的拍摄参数。

接近传感器1116，也称距离传感器，通常设置在终端1100的前面板。接近传感器1116用于采集用户与终端1100的正面之间的距离。在一个实施例中，当接近传感器1116检测到用户与终端1100的正面之间的距离逐渐变小时，由处理器1101控制显示屏1105从亮屏状态切换为息屏状态；当接近传感器1116检测到用户与终端1100的正面之间的距离逐渐变大时，由处理器1101控制显示屏1105从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图11中示出的结构并不构成对终端1100的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

上述方法实施例中的电子设备能够实现为服务器。例如，图12是本申请实施例提供的一种服务器的结构示意图，该服务器1200可因配置或性能不同而产生比较大的差异，能够包括一个或一个以上处理器(Central Processing Units，CPU)1201和一个或一个以上的存储器1202，其中，该存储器1202中存储有至少一条计算机程序，该至少一条计算机程序由该处理器1201加载并执行以实现上述各个方法实施例提供的数据处理方法。当然，该服务器还能够具有有线或无线网络接口以及输入输出接口等部件，以便进行输入输出，该服务器还能够包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括至少一条计算机程序的存储器，上述至少一条计算机程序由可由处理器执行以完成上述实施例中的数据处理方法。例如，计算机可读存储介质能够是只读存储器(Read-Only Memory，简称：ROM)、随机存取存储器(Random Access Memory，简称：RAM)、只读光盘(Compact Disc Read-OnlyMemory，简称：CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或该计算机程序包括一条或多条程序代码，该一条或多条程序代码存储在计算机可读存储介质中。电子设备的一个或多个处理器能够从计算机可读存储介质中读取该一条或多条程序代码，该一个或多个处理器执行该一条或多条程序代码，使得电子设备能够执行上述数据处理方法。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

应理解，根据A确定B并不意味着仅仅根据A确定B，还能够根据A和/或其它信息确定B。

本领域普通技术人员能够理解实现上述实施例的全部或部分步骤能够通过硬件来完成，也能够通过程序来指令相关的硬件完成，该程序能够存储于一种计算机可读存储介质中，上述提到的存储介质能够是只读存储器，磁盘或光盘等。

以上描述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取第一用户和第二用户的目标用户画像数据；

对于所述目标随机森林中的一个随机树，按照所述随机树中所述至少两种数据的分类规则，分别基于所述第一用户和所述第二用户的目标画像数据，对所述第一用户和所述第二用户进行分类，得到所述第一用户和所述第二用户各自基于所述随机树分类的至少两个分类结果，将所述第一用户对应的至少两个分类结果组成第一路径，将所述第二用户对应的至少两个分类结果组成第二路径；

根据至少一个所述第一路径和至少一个所述第二路径之间公共路径的长度，确定所述第一用户和所述第二用户之间的相似度。

2.根据权利要求1所述的方法，其特征在于，所述基于所述至少两个用户的用户画像数据，获取目标随机森林，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述至少一组用户的用户画像数据，生成至少一个随机树，包括：

4.根据权利要求3所述的方法，其特征在于，所述用户画像数据包括数值型的第一用户画像数据和非数值型的第二用户画像数据；

所述对于一组用户的用户画像数据，依次根据所述用户画像数据中至少两种数据以及所述至少两种数据对应的分类规则，对所述一组用户进行分类，得到所述一组用户的至少两个分类结果，一个分类结果基于一种数据分类得到，包括：

5.根据权利要求3所述的方法，其特征在于，所述随机树的深度小于深度阈值；或者，所述随机树的叶子节点的数量小于数量阈值。

6.根据权利要求1所述的方法，其特征在于，所述根据至少一个所述第一路径和至少一个所述第二路径之间公共路径的长度，确定所述第一用户和所述第二用户之间的相似度，包括：

根据至少一个所述第一路径和至少一个所述第二路径，获取至少一个公共路径的长度，一个公共路径为同一随机树上的第一路径与第二路径重合的路径；

计算所述至少一个公共路径的长度的平均值；

7.根据权利要求1所述的方法，其特征在于，所述根据至少一个所述第一路径和至少一个所述第二路径之间公共路径的长度，确定所述第一用户和所述第二用户之间的相似度，包括：

计算所述至少一个公共路径的长度之和；

8.根据权利要求1所述的方法，其特征在于，基于一个随机树得到的所述第一路径和所述第二路径之间公共路径为所述第一用户和所述第二用户对应的至少两个分类结果中相同的分类结果；

所述根据至少一个所述第一路径和至少一个所述第二路径之间公共路径的长度，确定所述第一用户和所述第二用户之间的相似度，包括：

9.根据权利要求1所述的方法，其特征在于，所述第一用户和所述第二用户中的至少一个为所述至少两个用户中的用户；所述第一用户和所述第二用户中的至少一个为除所述至少两个用户之外的用户。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括下述任一项：

11.一种数据处理装置，其特征在于，所述装置包括：

分类模块，用于对于所述目标随机森林中的一个随机树，按照所述随机树中所述至少两种数据的分类规则，分别基于所述第一用户和所述第二用户的目标画像数据，对所述第一用户和所述第二用户进行分类，得到所述第一用户和所述第二用户各自基于所述随机树分类的至少两个分类结果，将所述第一用户对应的至少两个分类结果组成第一路径，将所述第二用户对应的至少两个分类结果组成第二路径；

相似度确定模块，用于根据至少一个所述第一路径和至少一个所述第二路径之间公共路径的长度，确定所述第一用户和所述第二用户之间的相似度。

12.根据权利要求11所述的装置，其特征在于，所述随机森林获取模块，用于：

13.根据权利要求12所述的装置，其特征在于，所述随机森林获取模块，用于：

14.根据权利要求13所述的装置，其特征在于，所述用户画像数据包括数值型的第一用户画像数据和非数值型的第二用户画像数据；

所述随机森林获取模块，用于：

15.根据权利要求13所述的装置，其特征在于，所述随机树的深度小于深度阈值；或者，所述随机树的叶子节点的数量小于数量阈值。

16.根据权利要求11所述的装置，其特征在于，所述相似度确定模块，用于：

计算所述至少一个公共路径的长度的平均值；

17.根据权利要求11所述的装置，其特征在于，所述相似度确定模块，用于：

计算所述至少一个公共路径的长度之和；

18.根据权利要求11所述的装置，其特征在于，基于一个随机树得到的所述第一路径和所述第二路径之间公共路径为所述第一用户和所述第二用户对应的至少两个分类结果中相同的分类结果；

所述分类模块，用于：

19.根据权利要求11所述的装置，其特征在于，所述第一用户和所述第二用户中的至少一个为所述至少两个用户中的用户；所述第一用户和所述第二用户中的至少一个为除所述至少两个用户之外的用户。

20.根据权利要求11所述的装置，其特征在于，所述装置还包括确定模块，所述确定模块用于执行下述任一项：

21.一种电子设备，其特征在于，所述电子设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求10任一项所述的数据处理方法。

22.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现如权利要求1至权利要求10任一项所述的数据处理方法。