CN112232889A

CN112232889A - 一种用户兴趣画像扩展方法、装置、设备及存储介质

Info

Publication number: CN112232889A
Application number: CN202011233447.5A
Authority: CN
Inventors: 费昊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2021-01-15

Abstract

本申请实施例公开了一种人工智能领域的用户兴趣画像扩展方法、装置、设备及存储介质，其中该方法包括：获取用于表征目标实体之间的关联关系的目标知识图谱；基于目标知识图谱生成目标实体序列；基于上下文预测算法根据目标实体序列，确定目标知识图谱中目标实体对应的实体向量；根据目标知识图谱中目标实体对应的实体向量之间的相似度、以及目标实体与目标网络平台上的兴趣标签之间的映射关系，确定目标网络平台上的兴趣标签之间的第一相似度；基于第一相似度对目标网络平台上的用户兴趣画像进行扩展。该方法能够快速准确扩展用户兴趣画像，有利于网络平台为用户提供更丰富的个性化服务。

Description

一种用户兴趣画像扩展方法、装置、设备及存储介质

技术领域

本申请涉及人工智能(Artificial Intelligence，AI)技术领域，尤其涉及一种用户兴趣画像扩展方法、装置、设备及存储介质。

背景技术

用户兴趣画像实质上是用户兴趣标签的集合，其能够反映用户感兴趣的内容。在网络大数据时代，很多网络平台需要基于用户兴趣画像为用户提供对应的个性化服务，如个性化推荐、个性化搜索、广告精准推送、智能营销等，如今如何精准地确定用户兴趣画像已成为很多网络平台关注的重点。

相关技术目前主要通过分析用户的点击日志生成用户兴趣画像，具体的，可以根据用户对于网络平台上内容的点击情况，为与所点击的内容对应的标签配置权重，进而选取所对应的权重较高的标签组成该用户的用户兴趣画像。例如，假设用户A经常点击与篮球相关的文章或视频，则服务器可以将标签“篮球”添加至用户A的用户兴趣画像中。

然而，上述用户兴趣画像的生成方式存在以下问题：仅基于用户的点击日志生成用户兴趣画像将会限制用户兴趣画像的多样性，不利于用户兴趣画像的扩展；相应地，基于如此生成的用户兴趣画像为用户提供的个性化服务也会比较单一，影响用户体验。

发明内容

本申请实施例提供了一种用户兴趣画像扩展方法、装置、设备及存储介质，能够快速准确地对用户兴趣画像进行扩展，有利于网络平台为用户提供更丰富的个性化服务。

有鉴于此，本申请第一方面提供了一种用户兴趣画像扩展方法，所述方法包括：

获取目标知识图谱；所述目标知识图谱用于表征目标实体之间的关联关系，所述目标实体是与目标网络平台相关的实体；

基于所述目标知识图谱生成目标实体序列；所述目标实体序列是由所述目标知识图谱中具有关联关系的多个所述目标实体组成的序列；

基于上下文预测算法根据所述目标实体序列，确定所述目标知识图谱中所述目标实体对应的实体向量；

根据所述目标知识图谱中所述目标实体对应的实体向量之间的相似度、以及所述目标实体与所述目标网络平台上的兴趣标签之间的映射关系，确定所述目标网络平台上的兴趣标签之间的第一相似度；

基于所述第一相似度，对所述目标网络平台上的用户兴趣画像进行扩展。

本申请第二方面提供了一种用户兴趣画像扩展装置，所述装置包括：

知识图谱获取模块，用于获取目标知识图谱；所述目标知识图谱用于表征目标实体间的关联关系，所述目标实体是与目标网络平台相关的实体；

实体序列生成模块，用于基于所述目标知识图谱生成目标实体序列；所述目标实体序列是由所述目标知识图谱中具有关联关系的多个所述目标实体组成的序列；

实体向量确定模块，用于基于上下文预测算法根据所述目标实体序列，确定所述目标知识图谱中所述目标实体对应的实体向量；

第一标签相似度确定模块，用于根据所述目标知识图谱中所述目标实体对应的实体向量之间的相似度、以及所述目标实体与所述目标网络平台上的兴趣标签之间的映射关系，确定所述目标网络平台上的兴趣标签之间的第一相似度；

用户画像扩展模块，用于基于所述第一相似度，对所述目标网络平台上的用户兴趣画像进行扩展。

本申请第三方面提供了一种设备，所述设备包括处理器以及存储器：

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序，执行如上述第一方面所述的用户兴趣画像扩展方法的步骤。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述第一方面所述的用户兴趣画像扩展方法的步骤。

本申请第五方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面所述的用户兴趣画像扩展方法的步骤。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例提供了一种用户兴趣画像扩展方法，该方法创新性地提出了一种基于知识图谱对用户兴趣画像进行扩展的方案。具体的，在本申请实施例提供的用户兴趣画像扩展方法中，先获取用于表征目标实体之间的关联关系的目标知识图谱，此处的目标实体是与目标网络平台相关的实体；然后，利用该目标知识图谱中具有关联关系的多个目标实体组成目标实体序列，并基于上下文预测算法根据所组成的目标实体序列，确定目标知识图谱中的目标实体对应的实体向量；进而，根据目标知识图谱中目标实体对应的实体向量之间的相似度、以及目标实体与目标网络平台上的兴趣标签之间的映射关系，确定该目标网络平台上的兴趣标签之间的相似度；最终，基于兴趣标签之间的相似度对目标网络平台上的用户兴趣画像进行扩展。上述方法以涵盖有大量实体及实体间关系的知识图谱为基础，确定知识图谱中各实体之间的相似度，并根据实体与兴趣标签之间的映射关系，将实体之间的相似度转换为兴趣标签之间的相似度，进而基于兴趣标签之间的相似度对用户兴趣画像进行扩展；如此，实现对于用户兴趣画像进行快速准确的扩展，进而，有利于网络平台基于扩展后的用户兴趣画像为用户提供更丰富的个性化服务。

附图说明

图1为本申请实施例提供的用户兴趣画像扩展方法的应用场景示意图；

图2为本申请实施例提供的一种用户兴趣画像扩展方法的流程示意图；

图3为本申请实施例提供的基础知识图谱中示例性的三元组的示意图；

图4为本申请实施例提供的训练skip-gram模型的示意图；

图5为本申请实施例提供的基于基础用户画像矩阵训练SLIM的示意图；

图6为本申请实施例提供的另一种用户兴趣画像扩展方法的流程示意图；

图7为本申请实施例提供的第一种用户兴趣画像扩展装置的结构示意图；

图8为本申请实施例提供的第二种用户兴趣画像扩展装置的结构示意图；

图9为本申请实施例提供的第三种用户兴趣画像扩展装置的结构示意图；

图10为本申请实施例提供的第四种用户兴趣画像扩展装置的结构示意图；

图11为本申请实施例提供的终端设备的结构示意图；

图12为本申请实施例提供的服务器的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如，常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的用户兴趣画像扩展技术，具体通过如下实施例进行说明：

相关技术目前主要通过分析用户的点击日志生成用户兴趣画像，而通过这种方式生成用户兴趣画像可能会限制用户兴趣画像的多样性，进而，对网络平台为用户提供的个性化服务产生影响。

针对上述相关技术存在的问题，本申请实施例提供了一种用户兴趣画像扩展方法，该方法可以基于涵盖有大量实体及实体间关系的知识图谱确定网络平台上的兴趣标签之间的相似度，进而据此对网络平台上已有的用户兴趣画像进行扩展。

具体的，在本申请实施例提供的用户兴趣画像扩展方法中，先获取用于表征目标实体之间的关联关系的目标知识图谱，此处的目标实体是与目标网络平台相关的实体；然后，利用该目标知识图谱中具有关联关系的多个目标实体组成目标实体序列，并基于上下文预测算法根据所组成的目标实体序列，确定目标知识图谱中的目标实体对应的实体向量；进而，根据目标知识图谱中目标实体对应的实体向量之间的相似度、以及目标实体与目标网络平台上的兴趣标签之间的映射关系，确定该目标网络平台上的兴趣标签之间的相似度；最终，基于兴趣标签之间的相似度对目标网络平台上的用户兴趣画像进行扩展。

上述用户兴趣画像扩展方法以涵盖有大量实体及实体间关系的知识图谱为基础，确定知识图谱中各实体之间的相似度，并根据实体与兴趣标签之间的映射关系，将实体之间的相似度转换为兴趣标签之间的相似度，进而基于兴趣标签之间的相似度对用户兴趣画像进行扩展。如此，实现对用户兴趣画像进行快速准确的扩展，进而，有利于网络平台基于扩展后的用户兴趣画像为用户提供更丰富的个性化服务。

应理解，本申请实施例提供的用户兴趣画像扩展方法可以应用于具备数据处理能力的电子设备，如终端设备或服务器。其中，终端设备具体可以为计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assitant，PDA)等；服务器具体可以为应用服务器或Web服务器，在实际部署时，可以为独立的服务器，也可以为集群服务器或云服务器。

为了便于理解本申请实施例提供的用户兴趣画像扩展方法，下面以该用户兴趣画像扩展方法的执行主体为服务器为例，对该用户兴趣画像扩展方法适用的应用场景进行示例性介绍。

参见图1，图1为本申请实施例提供的用户兴趣画像扩展方法的应用场景示意图。如图1所示，该应用场景中包括服务器110、数据库120和数据库130，服务器110可以通过网络访问数据库120和数据库130，或者数据库120和数据库130也可以集成在服务器110中。其中，服务器110用于执行本申请实施例提供的用户兴趣画像扩展方法，数据库120用于存储知识图谱，数据库130用于存储目标网络平台上的用户兴趣画像。

在实际应用中，服务器110可以从数据库120中调取目标知识图谱，该目标知识图谱能够表征目标实体之间的关联关系，此处的目标实体是与目标网络平台相关的实体。目标网络平台可以是以用户兴趣画像为基础为用户提供个性化服务的网络平台，例如，可以是需要为用户推荐文章、视频、音频、商品等信息的网络平台，也可以是需要向用户推送广告的网络平台，本申请在此不对该目标网络平台做任何限定。

服务器110获取到目标知识图谱后，可以采用随机游走算法基于该目标知识图谱生成若干目标实体序列，每个目标实体序列实质上是由目标知识图谱中具有关联关系的多个目标实体组成的序列。然后，服务器110可以采用上下文预测算法(如skip-gram算法等)，根据所生成的目标实体序列确定目标知识图谱中各目标实体各自对应的实体向量。进而，服务器110可以计算目标知识图谱中各目标实体各自对应的实体向量之间的相似度，即针对目标知识图谱中每两个目标实体计算二者对应的实体向量之间的相似度，并根据各目标实体与目标网络平台上各兴趣标签之间的映射关系，将所计算出的实体向量之间的相似度转换为兴趣标签之间的相似度，将该相似度记为兴趣标签之间的第一相似度。

最终，服务器110可以从数据库130中调取目标网络平台上的用户兴趣画像，基于上述兴趣标签之间的第一相似度对用户兴趣画像进行扩展，即根据兴趣标签之间的相似度，在用户兴趣画像中扩展出此前不包括的兴趣标签。

可选的，为了能够更准确地对目标网络平台上的用户兴趣画像进行扩展，服务器110从数据库130中调取出目标网络平台上的用户兴趣画像后，可以基于所调取的用户兴趣画像，确定目标网络平台上各兴趣标签之间的第二相似度；示例性的，服务器110可以基于所调取的用户兴趣画像训练稀疏线性模型(Sparse Linear Model，SLIM)，进而利用训练得到的SLIM表征各兴趣标签之间的第二相似度。

在服务器110既确定了各兴趣标签之间的第一相似度，又确定了各兴趣标签之间的第二相似度的情况下，服务器110可以根据各兴趣标签之间的第一相似度和第二相似度确定各兴趣标签之间的目标相似度，进而，基于各兴趣标签之间的目标相似度对用户兴趣画像进行扩展。

应理解，图1所示的应用场景仅为示例，在实际应用中，本申请实施例提供的用户兴趣画像扩展方法还可以应用于其它应用场景，例如，可以由终端设备执行本申请实施例提供的用户兴趣画像扩展方法。本申请在此不对该用户兴趣画像扩展方法的应用场景做任何限定。

下面通过方法实施例对本申请提供的用户兴趣画像扩展方法进行详细介绍。

参见图2，图2为本申请实施例提供的用户兴趣画像扩展方法的流程示意图。为了便于描述，下述实施例仍以该用户兴趣画像扩展方法的执行主体为服务器为例进行介绍。如图2所示，该用户兴趣画像扩展方法包括以下步骤：

步骤201：获取目标知识图谱；所述目标知识图谱用于表征目标实体之间的关联关系，所述目标实体是与目标网络平台相关的实体。

知识图谱是一种以图状形式表征节点间关联性的知识集合，知识图谱中的节点对应于实体，节点之间的关联关系对应于实体之间的关联关系；例如，“赵丽颖”是知识图谱中的一个实体，“冯绍峰”是知识图谱中的另一个实体，在知识图谱中“赵丽颖”和“冯绍峰”之间通过“配偶”关系关联，“赵丽颖”—“配偶”—“冯绍峰”组成了一个三元组。在实际应用中，对于所包括的节点类型大于1或者节点之间的链接关系大于1的知识图谱，又可以被称为异构信息网络(Heterogeneous Information Network，HIN)。

在本申请实施例提供的技术方案中，服务器可以先获取目标知识图谱，该目标知识图谱能够表征目标实体之间的关联关系，此处的目标实体是与目标网络平台相关的实体。考虑到基于网络中所有信息构建的知识图谱通常是非常庞大的，基于该知识图谱对目标网络平台上的用户兴趣画像进行扩展，需要耗费较多的计算量，并且网络中存在很多与目标网络平台不相关的信息，若在扩展目标网络平台上的用户兴趣画像时将此类信息也纳入考虑范围，只会耗费不必要的计算量；基于此，本申请实施例提供的方法以用于表征与目标网络平台相关的目标实体之间的关联关系的目标知识图谱为基础，对目标网络平台上的用户兴趣画像进行扩展。

应理解，在实际应用中，服务器可以自主地从基础知识图谱中提取目标知识图谱，此处的基础知识图谱是基于网络中所有信息构建的知识图谱；也可以直接从其他设备处获取该目标知识图谱，本申请在此不对服务器获取目标知识图谱的实现方式做任何限定。

下面对服务器从基础知识图谱中提取目标知识图谱的实现方式进行介绍。

服务器可以从基础知识图谱中选取满足预设条件的实体作为目标实体，此处的预设条件包括以下至少一种：实体类型为预设类型、实体流行度超过预设流行度阈值；然后，根据所选取的目标实体在基础知识图谱中的关联关系，确定目标知识图谱。

具体的，基础知识图谱可以由若干具有关联关系的三元组构成，每个三元组由头实体、实体关系和尾实体组成；图3为基础知识图谱中一个示例性的三元组的示意图，如图3所示，该三元组中包括的头实体为“赵丽颖”、实体关系为“配偶”、尾实体为“冯绍峰”。基础知识图谱中每个实体还包括一组与其对应的属性信息，示例性的，每个实体所包括的属性信息包括但不限于实体类型、实体名称、实体流行度等。

服务器从基础知识图谱中提取目标知识图谱时，可以从基础知识图谱中选取满足预设条件的实体作为目标实体。示例性的，服务器可以从基础知识图谱中选取实体类型为预设类型的实体作为目标实体，以目标网络平台为视频播放平台为例，服务器可以设置预设类型包括人物、电影、电视剧、综艺等，进而在基础知识图谱中选取实体类型为上述预设类型的实体作为目标实体；示例性的，服务器也可以从基础知识图谱中选取实体流行度超过预设流行度阈值的实体作为目标实体，仍以目标网络平台为视频播放平台为例，服务器可以设置预设流行度阈值为500，进而在基础知识图谱中选取实体流行度超过500的实体作为目标实体。

应理解，在实际应用中，服务器可以仅基于实体类型筛选目标实体，也可以仅基于实体流行度筛选目标实体，还可以同时基于实体类型和实体流行度筛选目标实体，或者服务器也可以基于其它实体属性信息筛选目标实体，本申请在此不对从基础知识图谱中选取目标实体时依据的预设条件做任何限定。

服务器从基础知识图谱中选取出与目标网络平台相关的目标实体后，可以将所选取的各目标实体在基础知识图谱中的关联关系提取出来，进而，基于所选取的各目标实体以及各目标实体在基础知识图谱中的关联关系，构建适用于为目标网络平台进行用户兴趣画像扩展的目标知识图谱。

步骤202：基于所述目标知识图谱生成目标实体序列；所述目标实体序列是由所述目标知识图谱中具有关联关系的多个所述目标实体组成的序列。

服务器获取到目标知识图谱后，可以基于该目标知识图谱生成若干个目标实体序列。具体的，服务器可以基于目标知识图谱中各目标实体之间的关联关系，利用一系列彼此间具有关联关系的目标实体组成目标实体序列。

在实际应用中，服务器可以采用随机游走(Random Walk)算法基于目标知识图谱生成上述目标实体序列，随机游走算法实质上是一种数学统计模型，基于随机游走算法通常可以生成一连串轨迹，游走过程中每一步都是随机的。考虑到基于随机游走算法的随机性可能会生成大量较长的目标实体序列，因此，为了在一定程度上限制所生成的目标实体序列的数量和长度，可以在基于随机游走算法生成目标实体序列的过程中设置随机游走的条件。

示例性的，基于目标知识图谱生成目标实体序列时，可以通过以下至少一种方式实现：

通过随机游走算法，基于目标知识图谱中具有直接关联关系的目标实体生成目标实体序列。直接关联关系又可以被称为一度关系，例如，对于目标知识图谱中“周润发”—出演—“上海滩”—演员—“赵雅芝”—搭档—“郑少秋”，“周润发”与“上海滩”具有直接关联关系，“上海滩”与“赵雅芝”具有直接关联关系，“赵雅芝”与“郑少秋”也具有直接关联关系，相应地，由这组具有直接关联关系的目标实体组成的目标实体序列为“周润发”—“上海滩”—“赵雅芝”—“郑少秋”。

通过随机游走算法，基于目标知识图谱中隶属于同一上位范围的目标实体生成目标实体序列。即可以利用目标知识图谱中对应于同一上位词的若干目标实体组成目标实体序列，例如，对于目标知识图谱中“赵雅芝”—香港女星—“梅艳芳”—歌手—“周杰伦”，“赵雅芝”和“梅艳芳”隶属于同一上位范围“香港女星”，“梅艳芳”和“周杰伦”隶属于同一上位范围“歌手”，相应地，基于这组隶属于同一上位范围的目标实体组成的目标实体序列为“赵雅芝”—“梅艳芳”—“周杰伦”。

应理解，在实际应用中，采用随机游走算法基于目标知识图谱生成目标实体序列时，还可以根据实际需求设置其它用于限制目标实体序列中目标实体间的关联关系的条件，本申请在此不对针对随机游走算法设置的限制条件做任何限定。

步骤203：基于上下文预测算法根据所述目标实体序列，确定所述目标知识图谱中所述目标实体对应的实体向量。

服务器基于目标知识图谱生成若干个目标实体序列后，可以采用上下文预测算法基于所生成的每个目标实体序列，相应地确定该目标实体序列中的目标实体对应的实体向量，如此，通过上述方式遍历确定目标知识图谱中各目标实体各自对应的实体向量。由于上述目标实体对应的实体向量是服务器通过上下文预测算法基于包括该目标实体的目标实体序列确定的，因此，该目标实体对应的实体向量能够在一定程度上反映其与其它目标实体之间的关联性。

下面对上述确定目标实体对应的实体向量的具体实现方式进行介绍。

服务器可以先对目标知识图谱中各目标实体进行独热(one-hot)编码，从而得到各目标实体各自对应的基础向量；然后，基于目标实体序列中目标实体对应的基础向量对跳字(skip-gram)模型进行训练，在训练该skip-gram模型的过程中可以不断地调整目标实体的嵌入词向量(embedding)；最终，将完成skip-gram模型的训练后目标实体的embedding作为该目标实体对应的实体向量。

skip-gram模型是一种用于根据输入词预测与该输入词在预设窗口内相邻的输出词的模型，例如，对于句子[‘我’，‘爱’，‘北京’，‘天安门’]，如果取‘爱’作为输入词，且设置预设窗口的长度为1，则通过skip-gram模型可以预测与‘爱’相邻的输出词‘我’和‘北京’。

在本申请实施例提供的技术方案中，为了将目标知识图谱中的目标实体转换为可被机器识别的形式，服务器需要先对目标知识图谱中的目标实体进行one-hot编码，得到各目标实体各自对应的基础向量。假设目标知识图谱中包括10000个目标实体，对这10000个目标实体进行one-hot编码，得到的每个目标实体对应的基础向量应当都是一个10000维的向量，基础向量中每个维度上的值只可能是0或1，假设目标实体“赵丽颖”在目标知识图谱中的出现位置为第三个，则“赵丽颖”对应的基础向量应当是一个第三个维度取值为1、其它维度取值都为0的10000维向量。

由于通过one-hot编码得到的基础向量无法反映目标实体之间的相似度，而本申请实施例需要得到一个能够反映目标实体间的关联性的稠密向量(即目标实体对应的实体向量)，因此，本申请实施例需要初始化目标实体对应的embedding，然后在利用目标实体序列中目标实体的基础向量对skip-gram模型进行训练的过程中，不断地更新该目标实体对应的embedding，即调整向量中的权重，在完成对于skip-gram模型的训练后，即可相应地得到能够反映目标实体间的关联性的实体向量。

图4为一种训练skip-gram模型的示意图，如图4所示，在通过skip-gram模型基于某目标实体预测目标实体序列中与该目标实体在预设窗口内相邻的目标实体的过程中，会先将目标实体对应的基础向量输入该skip-gram模型，通过skip-gram模型中的隐藏层可以将目标实体映射为对应的embedding，进而通过skip-gram模型中的输出层输出目标知识图谱中所有目标实体与该目标实体相邻的概率。其中，目标实体的基础向量经过skip-gram模型中的隐藏层处理后得到的向量，即为本申请实施例所需的目标实体对应的实体向量。

步骤204：根据所述目标知识图谱中所述目标实体对应的实体向量之间的相似度、以及所述目标实体与所述目标网络平台上的兴趣标签之间的映射关系，确定所述目标网络平台上的兴趣标签之间的第一相似度。

服务器计算得到目标知识图谱中各目标向量各自对应的实体向量后，可以将目标知识图谱中的各目标实体两两组合，计算每两个目标实体所对应的实体向量之间的相似度。进而，服务器可以获取目标实体与目标网络平台上的兴趣标签之间的映射关系，将目标实体对应的实体向量之间的相似度转换为目标网络平台上的兴趣标签之间的相似度，将如此确定的兴趣标签之间的相似度记为兴趣标签之间的第一相似度。

应理解，上述目标实体与目标网络平台上的兴趣标签之间的映射关系，可以是根据目标实体的实体名称等属性信息确定的。该映射关系可以是在确定兴趣标签之间的第一相似度时临时确定的，也可以是预先确定好的。本申请在此不对目标实体与兴趣标签之间的映射关系的确定方式以及确定时机做任何限定。

应理解，在实际应用中，若两个目标实体被映射至同一兴趣标签，则在确定兴趣标签之间的第一相似度时，可以不考虑这两个目标实体各自对应的实体向量之间的相似度。换言之，上述兴趣标签之间的第一相似度实质上是基于分别映射至不同兴趣标签的目标实体所对应的实体向量之间的相似度确定的。

下面对确定上述目标网络平台上的兴趣标签之间的第一相似度的具体实现方式进行介绍。

服务器可以先根据目标知识图谱中各目标实体各自对应的实体向量，确定实体相似度矩阵，该实体相似度矩阵中的每个元素用于表征该元素所在行对应的目标实体与所在列对应的目标实体之间的相似度。进而，服务器可以根据各目标实体与目标网络平台上各兴趣标签之间的映射关系，将上述实体相似度矩阵转换为第一标签相似度矩阵，该第一标签相似度矩阵中的每个元素用于表征该元素所在行对应的兴趣标签与该元素所在列对应的兴趣标签之间的相似度。

具体的，服务器确定出目标知识图谱中各目标实体各自对应的实体向量后，可以将目标知识图谱中的各目标实体两两组合，得到若干目标实体对；然后，针对每个目标实体对计算其中两个目标实体各自对应的实体向量之间的余弦相似度，作为该目标实体对对应的相似度；进而，基于各个目标实体对各自对应的相似度构建实体相似度矩阵，该实体相似度矩阵既以各个目标实体作为行，又以各个目标实体作为列，实体相似度矩阵中位于第i行、第j列的元素实际上即为第i行对应的目标实体的实体向量与第j列对应的目标实体的实体向量之间的余弦相似度。

应理解，在实际应用中，服务器除了可以利用实体向量之间的余弦相似度构建实体相似度矩阵外，还可以利用基于其它算法计算得到的实体向量之间的相似度构建该实体相似度矩阵，本申请在此不对计算实体向量之间的相似度时采用的相似度算法做任何限定。

服务器构建出实体相似度矩阵后，可以根据各目标实体与目标网络平台上各兴趣标签之间的映射关系，将该实体相似度矩阵转换为用于表征兴趣标签之间的相似度的第一标签相似度矩阵。应理解，服务器在转换第一标签相似度矩阵时，对于两个映射至同一兴趣标签的目标实体所对应的实体向量之间的相似度，可以将该相似度丢弃，不计入第一标签相似度矩阵。

需要说明的是，在实际应用中，为了更准确地基于目标网络平台上各兴趣标签之间的相似度对目标网络平台上的用户兴趣画像进行扩展，本申请实施例提供的方法除了可以从知识图谱的维度出发确定目标网络平台上各兴趣标签之间的相似度，还可以从目标网络平台上已有的用户兴趣画像出发确定目标网络平台上各兴趣标签之间的相似度。

即服务器可以根据目标网络平台上用户的用户兴趣画像，确定该目标网络平台上的兴趣标签之间的第二相似度。具体的，服务器可以获取目标网络平台上部分或全部用户的用户兴趣画像，然后，基于所获取的用户兴趣画像分析兴趣标签之间的相似度，例如，假设用户A的用户兴趣画像中包括兴趣标签1、兴趣标签2、兴趣标签3和兴趣标签4，用户B的用户兴趣画像中包括兴趣标签2、兴趣标签3、兴趣标签4和兴趣标签5，则服务器在分析用户兴趣画像的过程中，可以认为兴趣标签1和兴趣标签5具有一定的相似度；基于上述基本思想，服务器可以根据目标网络平台上目前已有的用户兴趣画像确定目标网络平台上各兴趣标签之间的相似度，如此确定的兴趣标签之间的相似度可被记为兴趣标签之间的第二相似度。

下面确定上述目标网络平台上的兴趣标签之间的第二相似度的具体实现方式进行介绍。

服务器可以先根据目标网络平台上的用户兴趣画像构建基础用户画像矩阵，该基础用户画像矩阵中的每个元素用于表征该元素所在行对应的用户对于该元素所在列对应的兴趣标签的感兴趣程度。进而，服务器可以基于该基础用户画像矩阵训练稀疏线性模型(Sparse Linear Model，SLIM)，并将训练得到的SLIM作为第二标签相似度矩阵，该第二标签相似度矩阵中的每个元素用于表征该元素所在行对应的标签与该元素所在列对应的兴趣标签之间的相似度。

具体的，服务器可以根据目标网络平台上所有用户的用户兴趣画像构建基础用户画像矩阵R(user-tag)，该基础用户画像矩阵中的行代表用户user、列代表兴趣标签tag，基础用户画像矩阵中的每个元素代表该元素所在行对应的用户对于该元素所在列对应的兴趣标签的感兴趣程度。换言之，基础用户画像矩阵中一行元素能够表征一个用户对于目标网络平台上各个兴趣标签的感兴趣程度，基础画像矩阵中一列元素能够表征目标网络平台上所有用户对于一个兴趣标签的感兴趣程度。

图5为基于基础用户画像矩阵训练SLIM的示意图，其基本原理是训练一个矩阵W，使得基础用户画像矩阵R与该矩阵W相乘后仍近似等于该基础用户画像矩阵R。为了避免训练得到对角元素为1、其它元素均为0的平凡无用解，在训练矩阵W时需要使其对角元素保持为0。通过以上方式训练得到的矩阵W实际上即为本申请所需要的第二标签相似度矩阵，该第二标签相似度矩阵中的每个元素可以表征该元素所在行对应的兴趣标签与该元素所在列对应的兴趣标签之间的相似度，例如，第二标签相似度矩阵中位于第i行、第j列的元素，可以表征第i个兴趣标签与第j个兴趣标签之间的相似度。

需要说明的是，在实际应用中，除了可以通过训练SLIM模型的方式基于目标网络平台上的用户兴趣画像得到上述第二标签相似度矩阵外，还可以采用其他方式得到上述第二标签相似度矩阵，例如，采用矩阵分解、embedding等方式基于目标网络平台上的用户兴趣画像生成第二标签相似度矩阵，本申请在此不对生成该第二标签相似度矩阵的方式做任何限定。

步骤205：基于所述第一相似度，对所述目标网络平台上的用户兴趣画像进行扩展。

服务器确定出目标网络平台上各兴趣标签之间的第一相似度后，可以基于该兴趣标签之间的第一相似度，对目标网络平台上的用户兴趣画像进行扩展。其基本原理在于，基于兴趣标签之间的第一相似度，在用户兴趣画像中扩展出与其中原有的兴趣标签较为相似的兴趣标签。

在目标网络平台上各兴趣标签之间的第一相似度表现为上述第一标签相似度矩阵的情况下，服务器可以通过以下方式对目标网络平台上的用户兴趣画像进行扩展：

根据第一标签相似度矩阵和基础用户画像矩阵，确定扩展用户画像矩阵；该基础用户画像矩阵是根据目标网络平台上已有的用户兴趣画像构建的，该基础用户画像矩阵和扩展用户画像矩阵中的每个元素均用于表征该元素所在行对应的用户对于该元素所在列对应的兴趣标签的感兴趣程度。

具体的，服务器可以利用基础用户画像矩阵R乘上第一标签相似度矩阵P，得到扩展用户画像矩阵R’。其中，基础用户画像矩阵R可以是服务器根据目标网络平台上全部用户的用户兴趣画像构建的，该基础用户画像矩阵R中的行对应于用户、列对应于兴趣标签，该基础用户画像矩阵R中的元素R_ij用于表征第i个用户对于第j个兴趣标签的感兴趣程度。第一标签相似度矩阵P是服务器基于目标知识图谱中各目标实体各自对应的实体向量之间的相似度确定的，该第一标签相似度矩阵P中的行和列均对应于兴趣标签，该第一标签相似度矩阵P中的元素P_ij用于表征第i个兴趣标签与第j个兴趣标签之间的相似度。基础用户画像矩阵R乘上第一标签相似度矩阵P得到的扩展用户画像矩阵R’，能够反映在用户兴趣画像中扩展出的兴趣标签，该扩展用户画像矩阵R’与基础用户画像矩阵R相类似，其中的行对应于用户、列对应于兴趣标签，扩展用户画像矩阵R’中的元素R’_ij用于表征经过用户画像扩展处理后第i个用户对于第j个兴趣标签的感兴趣程度。

若服务器此前还根据目标网络平台上的用户兴趣画像，确定了目标网络平台上各兴趣标签之间的第二相似度，则服务器此时可以基于各兴趣标签之间的第一相似度和第二相似度，对目标网络平台上的用户兴趣画像进行扩展。

具体的，服务器可以将目标网络平台上各兴趣标签之间的第一相似度与第二相似度融合起来，得到与目标网络平台上的用户兴趣爱好相匹配、且与目标知识图谱中实体间关系相匹配的各兴趣标签之间的目标相似度，进而，服务器可以根据各兴趣标签之间的目标相似度，对目标网络平台上的用户兴趣画像进行扩展。

在目标网络平台上各兴趣标签之间的第一相似度表现为上述第一标签相似度矩阵，且各兴趣标签之间的第二相似度表现为上述第二标签相似度矩阵的情况下，服务器可以通过以下方式对目标网络平台上的用户兴趣画像进行扩展：

对第一标签相似度矩阵和第二标签相似度矩阵进行加权处理，得到目标标签相似度矩阵；进而，根据该目标标签相似度矩阵和基础用户画像矩阵，确定扩展用户画像矩阵。

具体的，服务器可以先按照预先设置好的权重，对第一标签相似度矩阵P和第二标签相似度矩阵W进行加权求和处理；例如，假设服务器针对第一标签相似度矩阵P设置了权重值x1，针对第二标签相似度矩阵W设置了权重值x2，则服务器可以通过下式计算目标标签相似度矩阵Q：

Q＝P*x1+W*x2

应理解，此处的权重值x1和x2是服务器根据对于第一标签相似度矩阵和第二标签相似度矩阵的关注程度确定的，若在对用户兴趣画像进行扩展时更关注基于目标知识图谱中实体间的关联关系确定的兴趣标签之间的相似度，则可以设置x1大于x2，若在对用户兴趣画像进行扩展时更关注基于目标网络平台上的用户兴趣画像确定的兴趣标签之间的相似度，则可以设置x2大于x1，本申请在此不对所设置的权重值x1和x2做具体限定。

进而，服务器可以利用基础用户画像矩阵R乘上目标标签相似度矩阵Q，得到扩展用户画像矩阵R’。

需要说明的是，在实际应用中，服务器通过上述任意一种方式确定出扩展用户画像矩阵后，需要基于该扩展用户画像矩阵对目标网络平台上已有的用户兴趣画像进行扩展，示例性的，服务器可以基于扩展用户画像矩阵中第i行的元素，对目标网络平台上第i个用户的用户兴趣画像进行扩展。为了使服务器能够更便利地基于该扩展用户画像矩阵对已有的用户兴趣画像进行扩展，服务器生成扩展用户画像矩阵后，可以通过以下实现方式对所生成的扩展用户画像矩阵进行优化处理。

在一种可能的实现方式中，服务器可以针对扩展用户画像矩阵和基础用户画像矩阵中处于相同位置的元素，判断基础用户画像矩阵中处于该位置的元素是否大于第一预设阈值，若是，则可以将扩展用户画像矩阵中处于该位置的元素设置为0。

具体的，若根据基础用户画像矩阵确定用户A对于兴趣标签1感兴趣，根据扩展用户画像矩阵也确定用户A对于兴趣标签1感兴趣，则服务器需要将扩展用户画像矩阵中用于表征用户A对于兴趣标签1的感兴趣程度的元素设置为0，从而避免后续基于扩展用户画像矩阵对用户兴趣标签进行扩展时，再次在用户画像矩阵中添加原有的兴趣标签。

通常情况下，在基础用户画像矩阵中，若某元素不为0，则该元素所在列对应的兴趣标签即应当在该元素所在行对应的用户的用户兴趣画像中，在这种情况下，服务器需要将上述第一预设阈值设置为0。当然，在一些情况下，在基础用户画像矩阵中，只有某元素大于预设值a，该元素所在列对应的兴趣标签才会在该元素所在行对应的用户的用户兴趣画像中，在这种情况下，服务器需要将上述第一预设阈值设置为a。本申请在此不对该第一预设阈值做具体限定。

在另一种可能的实现方式中，服务器可以针对扩展用户画像矩阵中的每个元素，判断该元素是否小于或等于第二预设阈值，若是，则将扩展用户画像矩阵中的该元素设置为0。

具体的，为了保证扩展用户画像矩阵的稀疏性，服务器需要设置一个介于0和1之间的第二预设阈值，对于扩展用户画像矩阵中小于或等于该第二预设阈值的元素，服务器需要将其相应地设置为0。

需要说明的是，若将上述第二预设阈值设置得过低，则将导致扩展用户画像矩阵过于稠密，不利于后续的存储和计算；若将上述第二预设阈值设置得过高，则将导致扩展出的兴趣标签个数过少，用户兴趣画像扩展效果不明显。因此，在实际应用中，可以根据AB测试(ABtest)的结果和工程上对于实现速度的要求来确定上述第二预设阈值，本申请在此不对该第二预设阈值做具体限定。

通过上述两种实现方式对扩展用户画像矩阵进行处理后，该扩展用户画像矩阵中每行内的非零项的所在列对应的兴趣标签，实际上即应当为针对与该行对应的用户扩展出的兴趣标签。

应理解，在实际应用中，除了可以通过上述两种实现方式对扩展用户画像矩阵进行优化处理外，还可以采用其他方式对该扩展用户画像矩阵进行优化处理，本申请在此不对优化处理该扩展用户画像矩阵的方式做任何限定。

为了便于进一步理解本申请实施例提供的用户兴趣画像扩展方法，下面仍以服务器作为执行主体为例，结合图6所示的流程图，对本申请实施例提供的用户兴趣画像扩展方法进行整体示例性介绍。

如图6所示，本申请实施例提供的用户兴趣画像扩展方法主要通过四个步骤实现，分别是步骤1—利用知识图谱生成相似度矩阵P(即上文中的第一标签相似度矩阵)、步骤2—利用用户兴趣画像生成相似度矩阵W(即上文中的第二标签相似度矩阵)、步骤3—融合相似度矩阵、步骤4—生成扩展用户兴趣画像，下面对这四个步骤分别进行介绍。

步骤1—利用知识图谱生成相似度矩阵P：

(1)从基础知识图谱中提取有效信息组成目标知识图谱：基础知识图谱由若干具有关联关系的三元组(头实体/实体关系/尾实体)，其中每个实体包含一组属性信息，典型的属性信息包括实体类型、实体名称、实体流行度等。本申请主要从基础知识图谱中提取实体类型为人物、电影、电视剧、综艺等且具有较高实体流行度的目标实体，组成目标知识图谱。

(2)基于目标知识图谱随机游走：在目标知识图谱中根据目标实体间的关系随机游走，形成若干目标实体序列。示例性的，可以基于目标实体间的一度关系随机游走生成目标实体序列，例如，周润发”—出演—“上海滩”—演员—“赵雅芝”—搭档—“郑少秋”，其中“周润发”、“上海滩”、“赵雅芝”和“郑少秋”可以组成一个目标实体序列；也可以基于目标实体的上位词随机游走生成目标实体序列，例如，赵雅芝”—香港女星—“梅艳芳”—歌手—“周杰伦”，其中“赵雅芝”、“梅艳芳”和“周杰伦”可以组成一个目标实体序列。

(3)训练目标实体的实体向量embedding：采用skip-gram算法在随机游走生成的目标实体序列上训练得到目标知识图谱中各目标实体的embedding。

(4)计算目标实体的实体向量之间的相似度：对所有目标实体两两之间计算余弦相似度，得到目标实体到目标实体的相似度矩阵(即实体相似度矩阵)。

(5)生成兴趣标签相似度矩阵P：根据目标实体的实体名称等属性信息将目标实体映射到兴趣标签，得到兴趣标签到兴趣标签的相似度矩阵P。

步骤2—利用用户兴趣画像生成相似度矩阵W：

(1)输入用户兴趣画像：根据目标网络平台上的用户兴趣画像构建基础用户画像矩阵R(user-tag)，其中行代表用户、列代表兴趣标签，基础用户画像矩阵R中的元素值代表用户对于兴趣标签的感兴趣程度。

(2)训练稀疏线性模型：利用基础用户画像矩阵R训练标签相似度矩阵W，基础用户画像矩阵R与该标签相似度矩阵W相乘后仍近似等于该基础用户画像矩阵R；标签相似度矩阵W中的元素W_ij表示第i个兴趣标签与第j个兴趣标签之间的相似度。训练标签相似度矩阵W时，需要使该标签相似度矩阵W的对角元素保持为0，目的是训练时避免平凡解(即对角线元素为0、其它元素为0的矩阵)。

步骤3—融合相似度矩阵：

设置权重[x1，x2]，得到最终的目标标签相似度矩阵Q＝P*x1+W*x2。

步骤4—生成扩展用户兴趣画像：

利用基础用户画像矩阵R乘以目标标签相似度矩阵Q，得到扩展用户画像矩阵R’。

对于扩展用户画像矩阵R’中所有1≤i≤U，1≤j≤T的元素执行以下处理，U表示目标网络平台上的用户数，T表示目标网络平台上的兴趣标签数。

当R[i,j]＞0时，设置R’[i,j]＝0；以避免基于该扩展用户画像矩阵扩展出用户原有的兴趣标签。

当R’[i,j]≤threshold时，设置R’[i,j]＝0；threshold为介于0和1之间的数，threshold的设置是为了保证扩展用户画像矩阵R’的稀疏性，若将该threshold设置得太低，则扩展用户画像矩阵R’将过于稠密，不利于后续的存储和计算；若将该threshold设置得太高，则将导致扩展出的兴趣标签个数过少，用户兴趣画像扩展效果不明显。因此，可以根据ABtest结果和工程上对于实现速度的要求来确定该threshold。

扩展用户画像矩阵R’中一行中的非零项即为该行对应的用户的扩展兴趣标签。

针对上文描述的用户兴趣画像扩展方法，本申请还提供了对应的用户兴趣画像扩展装置，以使上述用户兴趣画像扩展方法在实际中的应用以及实现。

参见图7，图7是上文图2所示的用户兴趣画像扩展方法对应的一种用户兴趣画像扩展装置700的结构示意图。如图7所示，该用户兴趣画像扩展装置700包括：

知识图谱获取模块701，用于获取目标知识图谱；所述目标知识图谱用于表征目标实体间的关联关系，所述目标实体是与目标网络平台相关的实体；

实体序列生成模块702，用于基于所述目标知识图谱生成目标实体序列；所述目标实体序列是由所述目标知识图谱中具有关联关系的多个所述目标实体组成的序列；

实体向量确定模块703，用于基于上下文预测算法根据所述目标实体序列，确定所述目标知识图谱中所述目标实体对应的实体向量；

第一标签相似度确定模块704，用于根据所述目标知识图谱中所述目标实体对应的实体向量之间的相似度、以及所述目标实体与所述目标网络平台上的兴趣标签之间的映射关系，确定所述目标网络平台上的兴趣标签之间的第一相似度；

用户画像扩展模块705，用于基于所述第一相似度，对所述目标网络平台上的用户兴趣画像进行扩展。

可选的，在图7所示的用户兴趣画像扩展装置的基础上，参见图8，图8为本申请实施例提供的另一种用户兴趣画像扩展装置800的结构示意图，如图8所示，该装置还包括：

第二标签相似度确定模块801，用于根据所述目标网络平台上用户的用户兴趣画像，确定所述目标网络平台上的兴趣标签之间的第二相似度；

则所述用户画像扩展模块705具体用于：

基于所述第一相似度和所述第二相似度，对所述目标网络平台上的用户兴趣画像进行扩展。

可选的，在图7所示的用户兴趣画像扩展装置的基础上，所述第一标签相似度确定模块704具体用于：

根据所述目标知识图谱中各所述目标实体各自对应的实体向量，确定实体相似度矩阵；所述实体相似度矩阵中每个元素用于表征该元素所在行对应的实体与该元素所在列对应的实体之间的相似度；

根据各所述目标实体与所述目标网络平台上各兴趣标签之间的映射关系，将所述实体相似度矩阵转换为第一标签相似度矩阵；所述第一标签相似度矩阵中每个元素用于表征该元素所在行对应的兴趣标签与该元素所在列对应的兴趣标签之间的相似度；

则所述用户画像扩展模块705具体用于：

根据所述第一标签相似度矩阵和基础用户画像矩阵，确定扩展用户画像矩阵；所述基础用户画像矩阵是根据所述目标网络平台上用户的用户兴趣画像构建的；所述基础用户画像矩阵和所述扩展用户画像矩阵中每个元素均用于表征该元素所在行对应的用户对于该元素所在列对应的兴趣标签的感兴趣程度。

可选的，在图8所示的用户兴趣画像扩展装置的基础上，第二标签相似度确定模块801具体用于：

基于所述基础用户画像矩阵训练稀疏线性回归模型，将所述稀疏线性回归模型作为第二标签相似度矩阵；所述第二标签相似度矩阵中每个元素用于表征该元素所在行对应的兴趣标签与该元素所在列对应的兴趣标签之间的相似度；

则所述用户画像扩展模块705具体用于：

对所述第一标签相似度矩阵和所述第二标签相似度矩阵进行加权处理，得到目标标签相似度矩阵；

根据所述目标标签相似度矩阵和所述基础用户画像矩阵，确定所述扩展用户画像矩阵。

可选的，在图7或图8所示的用户兴趣画像扩展装置的基础上，参见图9，图9为本申请实施例提供的另一种用户兴趣画像扩展装置900的结构示意图，如图9所示，该装置还包括：

第一矩阵校正模块901，用于针对所述扩展用户画像矩阵和所述基础用户画像矩阵中处于相同位置的元素，判断所述基础用户画像矩阵中处于所述位置的元素是否大于第一预设阈值，若是，则将所述扩展用户画像矩阵中处于所述位置的元素设置为0。

可选的，在图7或图8所示的用户兴趣画像扩展装置的基础上，参见图10，图10为本申请实施例提供的另一种用户兴趣画像扩展装置900的结构示意图，如图10所示，该装置还包括：

第二矩阵校正模块1001，用于针对所述扩展用户画像矩阵中的每个元素，判断所述元素是否小于或等于第二预设阈值，若是，则将所述扩展用户画像矩阵中的所述元素设置为0。

可选的，在图7所示的用户兴趣画像扩展装置的基础上，所述实体向量确定模块703具体用于：

对所述目标知识图谱中各所述目标实体进行独热编码，得到各所述目标实体各自对应的基础向量；

基于所述目标实体序列中所述目标实体对应的基础向量训练skip-gram模型，并在训练过程中调整所述目标实体的嵌入词向量embedding；

将完成所述skip-gram模型的训练后所述目标实体的embedding作为所述目标实体对应的实体向量。

可选的，在图7所示的用户兴趣画像扩展装置的基础上，所述实体序列生成模块702具体用于：

通过随机游走算法，基于所述目标知识图谱中具有直接关联关系的所述目标实体生成所述目标实体序列；

和/或，通过所述随机游走算法，基于所述目标知识图谱中隶属于同一上位范围的所述目标实体生成所述目标实体序列。

可选的，在图7所示的用户兴趣画像扩展装置的基础上，所述知识图谱获取模块701具体用于：

从基础知识图谱中选取满足预设条件的实体作为所述目标实体；所述预设条件包括以下至少一种：实体类型为预设类型、实体流行度超过预设流行度阈值；

根据所述目标实体在所述基础知识图谱中的关联关系，确定所述目标知识图谱。

上述用户兴趣画像扩展装置以涵盖有大量实体及实体间关系的知识图谱为基础，确定知识图谱中各实体之间的相似度，并根据实体与兴趣标签之间的映射关系，将实体之间的相似度转换为兴趣标签之间的相似度，进而基于兴趣标签之间的相似度对用户兴趣画像进行扩展。如此，实现对用户兴趣画像进行快速准确的扩展，进而，有利于网络平台基于扩展后的用户兴趣画像为用户提供更丰富的个性化服务。

本申请实施例还提供了一种扩展用户兴趣画像的设备，该设备具体可以是终端设备或者服务器，下面将从硬件实体化的角度对本申请实施例提供的终端设备和服务器进行介绍。

参见图11，图11是本申请实施例提供的终端设备的结构示意图。如图11所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(英文全称：PersonalDigital Assistant，英文缩写：PDA)、销售终端(英文全称：Point of Sales，英文缩写：POS)、车载电脑等任意终端设备，以终端为计算机为例：

图11示出的是与本申请实施例提供的终端相关的计算机的部分结构的框图。参考图11，计算机包括：射频(英文全称：Radio Frequency，英文缩写：RF)电路1110、存储器1120、输入单元1130、显示单元1140、传感器1150、音频电路1160、无线保真(英文全称：wireless fidelity，英文缩写：WiFi)模块1170、处理器1180、以及电源1190等部件。本领域技术人员可以理解，图11中示出的计算机结构并不构成对计算机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储器1120可用于存储软件程序以及模块，处理器1180通过运行存储在存储器1120的软件程序以及模块，从而执行计算机的各种功能应用以及数据处理。存储器1120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器1180是计算机的控制中心，利用各种接口和线路连接整个计算机的各个部分，通过运行或执行存储在存储器1120内的软件程序和/或模块，以及调用存储在存储器1120内的数据，执行计算机的各种功能和处理数据，从而对计算机进行整体监控。可选的，处理器1180可包括一个或多个处理单元；优选的，处理器1180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1180中。

在本申请实施例中，该终端所包括的处理器1180还具有以下功能：

可选的，所述处理器1180还用于执行本申请实施例提供的用户兴趣画像扩展方法的任意一种实现方式的步骤。

参见图12，图12为本申请实施例提供的一种服务器1200的结构示意图。该服务器1200可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1222(例如，一个或一个以上处理器)和存储器1232，一个或一个以上存储应用程序1242或数据1244的存储介质1230(例如一个或一个以上海量存储设备)。其中，存储器1232和存储介质1230可以是短暂存储或持久存储。存储在存储介质1230的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1222可以设置为与存储介质1230通信，在服务器1200上执行存储介质1230中的一系列指令操作。

服务器1200还可以包括一个或一个以上电源1226，一个或一个以上有线或无线网络接口1250，一个或一个以上输入输出接口1258，和/或，一个或一个以上操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图12所示的服务器结构。

其中，CPU 1222用于执行如下步骤：

可选的，CPU 1222还可以用于执行本申请实施例提供的用户兴趣画像扩展方法的任意一种实现方式的步骤。

本申请实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序用于执行前述各个实施例所述的一种用户兴趣画像扩展方法中的任意一种实施方式。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前述各个实施例所述的一种用户兴趣画像扩展方法中的任意一种实施方式。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储计算机程序的介质。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种用户兴趣画像扩展方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述目标网络平台上用户的用户兴趣画像，确定所述目标网络平台上的兴趣标签之间的第二相似度；

则所述基于所述第一相似度，对所述目标网络平台上的用户兴趣画像进行扩展，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述目标知识图谱中所述目标实体对应的实体向量之间的相似度、以及所述目标实体与所述目标网络平台上的兴趣标签之间的映射关系，确定所述目标网络平台上的兴趣标签之间的第一相似度，包括：

根据所述目标知识图谱中各所述目标实体各自对应的实体向量，确定实体相似度矩阵；所述实体相似度矩阵中每个元素用于表征该元素所在行对应的目标实体与该元素所在列对应的目标实体之间的相似度；

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

基于所述基础用户画像矩阵训练稀疏线性模型，将所述稀疏线性模型作为第二标签相似度矩阵；所述第二标签相似度矩阵中每个元素用于表征该元素所在行对应的兴趣标签与该元素所在列对应的兴趣标签之间的相似度；

则所述根据所述第一标签相似度矩阵和基础用户画像矩阵，确定扩展用户画像矩阵，包括：

5.根据权利要求3或4所述的方法，其特征在于，所述方法还包括：

针对所述扩展用户画像矩阵和所述基础用户画像矩阵中处于相同位置的元素，判断所述基础用户画像矩阵中处于所述位置的元素是否大于第一预设阈值，若是，则将所述扩展用户画像矩阵中处于所述位置的元素设置为0。

6.根据权利要求3或4所述的方法，其特征在于，所述方法还包括：

针对所述扩展用户画像矩阵中的每个元素，判断所述元素是否小于或等于第二预设阈值，若是，则将所述扩展用户画像矩阵中的所述元素设置为0。

7.根据权利要求1所述的方法，其特征在于，所述基于上下文预测算法根据所述目标实体序列，确定所述目标知识图谱中所述目标实体对应的实体向量，包括：

8.根据权利要求1所述的方法，其特征在于，所述基于所述目标知识图谱生成目标实体序列，包括以下至少一种：

通过所述随机游走算法，基于所述目标知识图谱中隶属于同一上位范围的所述目标实体生成所述目标实体序列。

9.根据权利要求1所述的方法，其特征在于，所述获取目标知识图谱，包括：

10.一种用户兴趣画像扩展装置，其特征在于，所述装置包括：

11.一种设备，其特征在于，所述设备包括处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序执行权利要求1至9中任一项所述的用户兴趣画像扩展方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1至9中任一项所述的用户兴趣画像扩展方法。