CN111680218A

CN111680218A - 用户兴趣识别方法、装置、电子设备及存储介质

Info

Publication number: CN111680218A
Application number: CN202010521572.XA
Authority: CN
Inventors: 汤泽胜; 许盛辉; 潘照明
Original assignee: Netease Media Technology Beijing Co Ltd
Current assignee: Netease Media Technology Beijing Co Ltd
Priority date: 2020-06-10
Filing date: 2020-06-10
Publication date: 2020-09-18
Anticipated expiration: 2040-06-10
Also published as: CN111680218B

Abstract

本发明的实施方式提供了一种用户兴趣识别方法、装置、电子设备及计算机可读存储介质，涉及计算机技术领域。该用户兴趣识别方法包括：获取目标用户的当前行为数据；确定所述当前行为数据与用户画像模型中包含的所有参考行为数据的相关度，所述用户画像模型通过用于表示所述目标用户的长期兴趣画像的多个参考行为数据而构建；将所述相关度与相关度阈值进行对比，以识别所述当前行为数据是否属于长期兴趣画像。本发明实施例的技术方案，能够提高兴趣识别的准确性。

Description

用户兴趣识别方法、装置、电子设备及存储介质

技术领域

本发明的实施方式涉及计算机技术领域，更具体地，本发明的实施方式涉及一种用户兴趣识别方法、用户兴趣识别装置、电子设备以及计算机可读存储介质。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

随着大数据的发展，兴趣偏好对推荐结果是否准确至关重要。因此，需要准确地构建用户画像来识别用户的兴趣偏好。

相关技术中，一般是基于人工构造的标签体系来生成用户画像，从而进行兴趣识别。对于系统内的数据，通过人工和算法打上各种维度的标签，通过分析数据上的标签来归纳用户的兴趣。常见的分析用户兴趣的方法是时间衰减法，即对用户给予正反馈的物品的标签归入用户兴趣偏好，并随着时间进行加权和衰减。

发明内容

但是，相关技术中，通过标签识别兴趣的方案，其扩展性较差，且使用标签描述时存在信息损耗和不完整的问题，因此不能全面地确定用户兴趣；另外，识别用户兴趣时存在一定偏差，导致准确性较低。

为此，非常需要一种改进的用户兴趣识别方法，以利于准确识别用户兴趣。

在本上下文中，本发明的实施方式期望提供一种用户兴趣识别方法、用户兴趣识别装置、电子设备及计算机存储介质。

根据本发明的一个方面，提供一种用户兴趣识别方法，包括：获取目标用户的当前行为数据；确定所述当前行为数据与用户画像模型中包含的所有参考行为数据的相关度，所述用户画像模型通过用于表示所述目标用户的长期兴趣画像的多个参考行为数据而构建；将所述相关度与相关度阈值进行对比，以识别所述当前行为数据是否属于长期兴趣画像。

在本发明的一种示例性实施例中，所述确定所述当前行为数据与用户画像模型中包含的所有参考行为数据的相关度，包括：对所述当前行为数据进行特征提取得到当前行为特征；对所述用户画像模型中的每个参考行为数据进行特征提取，得到参考行为特征；根据所述当前行为特征和所述参考行为特征进行相似度计算，确定所述当前行为数据与每个所述参考行为数据之间的所述相关度。

在本发明的一种示例性实施例中，所述将所述相关度与相关度阈值进行对比，以识别所述当前行为数据是否属于长期兴趣画像，包括：若与所述当前行为数据之间的相关度大于所述相关度阈值的参考行为数据的数量满足数量条件，则确定所述当前行为数据属于所述长期兴趣画像。

在本发明的一种示例性实施例中，还包括：若与所述当前行为数据之间的相关度大于所述相关度阈值的参考行为数据的数量不满足数量条件，则确定所述当前行为数据属于实时兴趣画像。

在本发明的一种示例性实施例中，所述方法还包括：若所述当前行为数据属于长期兴趣画像，根据第一概率确定是否使用所述当前行为数据对所述用户画像模型进行更新；若确定使用所述当前行为数据对所述用户画像模型进行更新，则根据第二概率从所述用户画像模型的所有参考行为数据中，随机确定一个参考行为数据作为目标行为数据；根据所述当前行为数据对所述目标行为数据进行替换，得到更新后的用户画像模型。

在本发明的一种示例性实施例中，在确定所述当前行为数据与用户画像模型中包含的所有参考行为数据的相关度之前，所述方法还包括：获取第一预设时长内的所述目标用户的多个历史行为数据；对所述多个历史行为数据进行清洗操作，得到第一行为序列数据；从所述第一行为序列数据中，获取能够用于表示长期兴趣画像的多个参考行为数据构建所述用户画像模型。

在本发明的一种示例性实施例中，所述获取能够用于表示长期兴趣画像的多个参考行为数据构建所述用户画像模型，包括：根据所述长期兴趣画像中需要包含的兴趣类别以及各兴趣类别的数量组成的类别信息，确定多个所述参考行为数据；根据多个所述参考行为数据形成的集合，构建所述用户画像模型。

在本发明的一种示例性实施例中，所述根据所述长期兴趣画像中需要包含的兴趣类别以及各兴趣类别的数量组成的类别信息，确定多个所述参考行为数据，包括：确定每个兴趣类别的历史行为数据出现一次的概率以及未出现的概率；在确定每个兴趣类别的历史行为数据出现一次的概率与未出现的概率之和小于概率阈值时，确定预设数量；从所述第一行为序列数据中，确定出所述预设数量的历史行为数据作为多个所述参考行为数据。

在本发明的一种示例性实施例中，在得到所述用户画像模型之后，所述方法还包括：获取第二预设时长内的历史行为数据；对所述第二预设时长内的历史行为数据进行清洗操作，得到第二行为序列数据；从所述第二行为序列数据中，根据长期兴趣画像中需要包含的兴趣类别以及各兴趣类别的数量组成的类别信息，获取多个参考行为数据作为重建的用户画像模型。

根据本发明的一个方面，提供一种用户兴趣识别装置，包括：行为数据获取模块，用于获取目标用户的当前行为数据；相关度计算模块，用于确定所述当前行为数据与用户画像模型中包含的所有参考行为数据的相关度，所述用户画像模型通过用于表示所述目标用户的长期兴趣画像的多个参考行为数据而构建；数据识别模块，用于将所述相关度与相关度阈值进行对比，以识别所述当前行为数据是否属于长期兴趣画像。

在本发明的一种示例性实施例中，所述相关度计算模块包括：当前行为特征提取模块，用于对所述当前行为数据进行特征提取得到当前行为特征；参考行为特征提取模块，用于对所述用户画像模型中的每个参考行为数据进行特征提取，得到参考行为特征；相似度计算模块，用于根据所述当前行为特征和所述参考行为特征进行相似度计算，确定所述当前行为数据与每个所述参考行为数据之间的所述相关度。

在本发明的一种示例性实施例中，所述数据识别模块包括：长期画像确定模块，用于若与所述当前行为数据之间的相关度大于所述相关度阈值的参考行为数据的数量满足数量条件，则确定所述当前行为数据属于所述长期兴趣画像。

在本发明的一种示例性实施例中，所述装置还包括：实时画像确定模块，用于若与所述当前行为数据之间的相关度大于所述相关度阈值的参考行为数据的数量不满足数量条件，则确定所述当前行为数据属于实时兴趣画像。

在本发明的一种示例性实施例中，所述装置还包括：更新判断模块，用于若所述当前行为数据属于长期兴趣画像，根据第一概率确定是否使用所述当前行为数据对所述用户画像模型进行更新；目标数据确定模块，用于若确定使用所述当前行为数据对所述用户画像模型进行更新，则根据第二概率从所述用户画像模型的所有参考行为数据中，随机确定一个参考行为数据作为目标行为数据；模型更新模块，用于根据所述当前行为数据对所述目标行为数据进行替换，得到更新后的用户画像模型。

在本发明的一种示例性实施例中，在确定所述当前行为数据与用户画像模型中包含的所有参考行为数据的相关度之前，所述装置还包括：第一历史数据获取模块，用于获取第一预设时长内的所述目标用户的多个历史行为数据；第一历史数据清洗模块，用于对所述多个历史行为数据进行清洗操作，得到第一行为序列数据；模型构建模块，用于从所述第一行为序列数据中，获取能够用于表示长期兴趣画像的多个参考行为数据构建所述用户画像模型。

在本发明的一种示例性实施例中，所述模型构建模块包括：参考行为数据确定模块，用于根据所述长期兴趣画像中需要包含的兴趣类别以及各兴趣类别组成的类别信息，确定多个所述参考行为数据；构建控制模块，用于根据多个所述参考行为数据形成的集合，构建所述用户画像模型。

在本发明的一种示例性实施例中，所述参考行为数据确定模块包括：概率获取模块，用于确定每个兴趣类别的历史行为数据出现一次的概率以及未出现的概率；数量确定模块，用于在确定每个兴趣类别的历史行为数据出现一次的概率与未出现的概率之和小于概率阈值时，确定预设数量；

数据确定模块，用于从所述第一行为序列数据中，确定出所述预设数量的历史行为数据作为多个所述参考行为数据。

在本发明的一种示例性实施例中，在得到所述用户画像模型之后，所述装置还包括：第二历史数据获取模块，用于获取第二预设时长内的历史行为数据；第二历史数据清洗模块，用于对所述第二预设时长内的历史行为数据进行清洗操作，得到第二行为序列数据；模型重建模块，用于从所述第二行为序列数据中，根据长期兴趣画像中需要包含的兴趣类别以及各兴趣类别的数量组成的类别信息，获取多个参考行为数据作为重建的用户画像模型。

根据本发明的一个方面，提供一种电子设备，包括：处理器；以及存储器，用于存储可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的用户兴趣识别方法。

根据本发明的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任意一项所述的用户兴趣识别方法。

根据本发明实施方式的用户兴趣识别方法、装置、电子设备和存储介质，可以通过当前行为数据和用户画像模型的相关度，与相关度阈值的对比结果来识别当前行为数据是否属于长期兴趣画像，其中用户画像模型可以由表示目标用户的长期兴趣画像的多个参考行为数据而构建。本发明实施例中，使用用户原始的参考行为数据来进行用户画像模型构建，能避免使用标签构建用户兴趣模型的所有问题，避免了通过标签描述时的信息损耗、人工噪声、长尾分布等问题，能够有效的避免人工干预导致的偏差，提高了模型的完整性和全面性，能够对用户的数据进行有效区分和识别，提高兴趣识别的精准性和可靠性。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性示出了本发明实施例的应用场景的系统架构示意图；

图2示意性示出了本发明实施例中用户兴趣识别方法的流程示意图；

图3示意性示出了本发明实施例中确定用户画像模型的流程示意图；

图4示意性示出了本发明实施例中计算相关度的流程示意图；

图5中示意性示出了本发明实施例中识别当前行为数据的流程图；

图6中示意性示出了本发明实施例中对用户画像模型进行更新的流程图；

图7示意性示出了本发明实施例的用户兴趣识别装置的示意框图；

图8示意性示出了本发明实施例的电子设备的一种方框图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本发明更加透彻和完整，并且能够将本发明的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本发明可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种用户兴趣识别方法、用户兴趣识别装置、电子设备和计算机可读存储介质。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，当前主流推荐系统的用户画像模型多是基于人工构造的标签体系构造。标签体系限于设计者的知识和经验，扩展性不佳；使用标签描述系统内的数据时，往往要强调作为主题或者体现主题内容，导致以通过算法或人工为物品打标签时会引入噪声，同时也存在标签不完整的问题；正负反馈样本上出现同一个标签时，无法确认该标签是否归属用户感兴趣的内容；人工设计的标签体系通常在真实数据上体现为长尾分布，对于头部数据，标签粒度过粗，对于尾部数据，能对应的样本往往偏少，导致标签的价值和作用难以有效发挥。

基于上述内容，本发明的基本思想在于：以用户在系统里的原始行为数据替换人工设计的标签作为建模用户兴趣的基础。

更具体地，在本发明中，获取目标用户的当前行为数据；确定所述当前行为数据与用户画像模型中包含的所有参考行为数据的相关度，所述用户画像模型通过用于表示所述目标用户的长期兴趣画像的多个参考行为数据而构建；将所述相关度与相关度阈值进行对比，以识别所述当前行为数据是否属于长期兴趣画像。因此，根据本发明的实施方式，能够提高用户兴趣识别的精准性和可靠性。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

需要注意的是，下述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

首先参考图1，图1示出了本发明的实施方式的一个示例性应用场景的系统架构示意图。该用户兴趣识别方法可以用于浏览商品、浏览内容等应用场景，也可以用于观看视频等场景。如图1所示，该系统架构100包括终端101和服务器102。通过服务器102对从终端101提取的目标用户的当前行为数据进行分析，计算当前行为数据和用户画像模型中包含的参考行为数据之间的相关度，以使得服务器根据每个相关度与相关度阈值的对比结果来对当前行为数据进行识别，确定其是否属于长期兴趣画像。本领域技术人员应该理解，图1所示的示意框架仅是本发明的实施方式可以在其中得以实现的一个示例。本发明实施方式的适用范围不受到该框架任何方面的限制。

需要说明的是，服务器102均可以是本地服务器或远程服务器，此外，服务器102还可以是其他能够提供存储功能或者处理功能的产品例如云服务器，本发明的实施方式在此不做特殊限定。服务器也可以为具有快速计算能力的终端设备或者是车载设备等组成，此处不做限定。终端101可以为智能手机、平板电脑以及电脑等任何能够产生用户行为数据的设备。

应该理解的是，本发明的应用场景中，本发明实施方式的动作可以由服务器102执行。本发明在执行主体方面不受任何限制，只要执行了本发明实施方式所公开的动作即可。

示例性方法

下面结合图1的应用场景，参考图2来描述根据本发明示例性实施例的用户兴趣识别方法。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

图2示出了根据本发明实施例的用户兴趣识别方法的流程图。参照图2所示，该用户兴趣识别方法可以包括以下步骤：

在步骤S210中，获取目标用户的当前行为数据；

在步骤S220中，确定所述当前行为数据与用户画像模型中包含的所有参考行为数据的相关度，所述用户画像模型通过用于表示所述目标用户的长期兴趣画像的多个参考行为数据而构建；

在步骤S230中，将所述相关度与相关度阈值进行对比，以识别所述当前行为数据是否属于长期兴趣画像。

本发明实施例中的技术方案，使用用户原始的参考行为数据来进行用户画像模型的构建，能避免使用标签构建用户兴趣模型的所有问题，避免了通过标签描述时的信息损耗、人工噪声、长尾分布等问题，能够有效的避免人工干预导致的偏差，提高了模型的完整性和全面性，能够对用户的数据进行有效区分和识别，提高识别的精准性和可靠性。

接下来，结合附图对本发明实施例中的用户兴趣识别方法进行详细地解释说明。

在步骤S210中，获取目标用户的当前行为数据。

本发明实施例中，目标用户可以为任意一个待检测的用户。行为数据指的是用户对图片或者是文字、视频等内容的浏览、评论、转发等数据。为了保证数据的有效性，此处的当前行为数据可以为推荐给用户且被用户消费的内容的数据。被用户消费的内容的数据可以为所有行为数据中的部分类型，例如浏览、观看等等。为了提高数据的准确性和纯度，可以对用户的所有行为数据进行清洗。具体可以基于时长来对所有的行为数据进行过滤，得到满足时长要求的数据作为目标用户的当前行为数据。时长要求可以为五分钟或者是其他时长。

接下来，在步骤S220中，确定所述当前行为数据与用户画像模型中包含的所有参考行为数据的相关度，所述用户画像模型通过用于表示所述目标用户的长期兴趣画像的多个参考行为数据而构建。

本发明实施例中，用户画像模型指的是以一组数据来描述用户的特征和偏好。每个用户可以对应一个各自的用户画像模型，每个用户的用户画像模型可以相同或者不同，以准确描述其对应的兴趣画像。本发明实施例中，用户的偏好可以划分为长期兴趣画像和实时兴趣画像两种类型。其中，长期兴趣画像指的是用户在较长一段时间内保持的稳定的偏好；实时兴趣画像指的是因实时的事件导致的用户对内容消费的画像，随时间会有较大变化，难以提前预测。

本发明实施例中，用户画像模型可以通过多个属于长期兴趣画像的参考行为数据而构成，而不是由多个人工标注的标签确定。通过以数据为中心的用户兴趣偏好建模方法，使用目标用户原始的行为数据能避免前述使用标签进行建模的所有问题。没有信息损耗、没有人工噪声、也没有长尾分布。能够有效的避免人工干预导致的偏差，提高建立的模型的准确性和可靠性。

图3中示意性示出了确定用户画像模型的流程图，参考图3中所示，主要可以包括步骤S310至步骤S330，其中：

在步骤S310中，获取第一预设时长内的所述目标用户的多个历史行为数据；

在步骤S320中，对所述多个历史行为数据进行清洗操作，得到第一行为序列数据；

在步骤S330中，从所述第一行为序列数据中，获取能够用于表示长期兴趣画像的多个参考行为数据构建所述用户画像模型。

本发明实施例中，第一预设时长可以为位于待预测的当前行为数据之前的任何历史行为数据所对应的时长，例如可以为几天内或者是一个月内。历史行为数据的类型可以与当前行为数据的类型相同，也可以不同，此处不作特殊限定。

为了保证数据的准确性，可以对得到的第一预设时长内的历史行为数据进行清洗操作，得到第一行为序列数据。在进行清洗操作时，可以根据时长来对多个历史行为数据进行清洗过滤，以便于使用过滤掉时间较短的数据的方式，得到满足时长要求的数据作为过滤后得到的数据，并将过滤后得到的数据确定为第一预设时长内的历史行为数据对应的第一行为序列数据。第一行为序列数据可以用D_u＝{I₁,I₂,I₃,...,I_n}来表示。其中，I表示推荐给用户且被用户消费的满足时长要求的数据，此处的数据指的是已经经过过滤的数据。这些数据在进行排列时，可以按照时间先后来进行排列。由于用户兴趣分为长期兴趣画像和实时兴趣画像，因此D_u可以归因于长期兴趣画像或者是实时兴趣画像中的一种。具体可以用p(L|I)＝1来表示属于长期兴趣画像，用p(R|I)＝1来表示属于实时兴趣画像。

在得到第一行为序列数据之后，可以基于该第一行为序列数据，从其中选择出描述长期兴趣画像的多个参考行为数据，以便于使用多个参考行为数据来构建用于进行兴趣预测的用户画像模型。需要说明的是，多个参考行为数据可以为第一行为序列数据中的部分或者是全部。

具体而言，可以根据长期兴趣画像中需要包含的兴趣类别以及各兴趣类别的数量组成的类别信息，确定多个参考行为数据。长期兴趣画像中需要包含的兴趣类别指的是全面描述长期兴趣画像所需要的兴趣类别的数量，具体可以用s来表示。每个兴趣类别的数量指的是在保证准确性的前提下，每个兴趣类别包括的数据的数量。类别信息可以在兴趣类别以及各兴趣类别的数量两个维度下，根据实际需求而进行设定，例如5个兴趣类别，每个兴趣类别包括两个数据。类别信息不同，则获取的参考行为数据的数量是不同的，从而构建的用户画像模型也不同。因此，构建用户画像模型的过程可以抽象为获取多个参考行为数据的过程。基于此，对于系统的目标用户而言，使用能表征其长期兴趣画像的预设数量的历史行为数据作为多个参考行为数据，以用于构建其对应的用户画像模型。

用户的历史行为数据蕴含了用户真实的偏好，由于用户历史数据较多，需要使用一定的方式获取初始的N条历史行为数据。当历史行为数据为用户点击数据时，可以假定用户点击数据里包含归因长期兴趣画像和实时兴趣画像的数据占比为p_l和p_r，则两种数据的数据占比之间的关系为p_r＝1-p_l。由于每天的热点事件种类非常多，很容易在短期内吸引用户的注意，但拉长时间跨度，用户对单一实时兴趣类别的内容消费比较少，因为相关内容非用户的长期兴趣，对这些类别的内容属于实时性的随机消费。基于此，在一定时间内，用户归因于实时兴趣画像的数据的种类远大于归因于长期兴趣画像的数据的种类，同时用户对长期兴趣画像类别的内容消费的数量大于对实时兴趣画像类别的内容的消费数量。长期兴趣画像和实时兴趣画像的数据占比之间的关系可以如公式(1)所示：

其中，i＝1...N用于表示用户不同的实时兴趣画像类别，j＝1...M对应于用户不同的长期兴趣画像类别，且N远大于M的数值。如果目标用户对某类内容在一段时间里进行持续消费，那么这个兴趣类别从统计上就应当归入长期兴趣类别。仅从内容消费的行为上，对用户的兴趣跨度做分析、理解和识别。因此，对于任意一个单一兴趣类别，则用户对自身长期兴趣画像相关内容的消费会大于对实时兴趣画像相关内容的消费，具体可以用公式(2)来表示：

由于数据对应用户兴趣类别的概率存在以上差异，那么可以从目标用户的过滤后的历史行为数据里随机采样K条来确定多个参考行为数据。

假如长期兴趣画像占比为p_l为0.5，对应s个长期兴趣类别。假定各长期兴趣类别的概率均等，则每个长期兴趣类别的概率为

假定平均每个用户有对应5个兴趣类别的长期兴趣画像，要使得用户长期画像里包含每个兴趣类别至少具有两个数据，需要采样K个数据，则K可以为参考数量。此处的预设数量可以根据每个兴趣类别的历史行为数据出现一次和未出现的概率而确定。在确定每个兴趣类别的历史行为数据出现一次的概率与未出现的概率之和小于概率阈值时，则可以确定出参考数量K。进一步可以对参考数量进行修正，得到预设数量。预设数量可以为大于参考数量的任意值，具体可以根据实际需求进行设定。此处的概率阈值可以为0.1，也可以根据实际需求设置为任意小于1的数值。基于此，参考数量K满足1-p₀-p₁>0.9，即对应该兴趣类别的历史行为数据仅出现一次和不出现的概率之和小于0.1。由此可以计算出，参考数量K的值为22。为了保证数据的完整性和全面性，可以将预设数量确定为大于参考数量的数值32。基于此，可以根据预设数量，来从用户点击历史中采样预设数量的历史行为数据作为多个参考行为数据来覆盖目标用户的长期兴趣画像。举例而言，可以选择32条历史行为数据来确定长期兴趣画像。

在得到多个参考行为数据之后，可以根据多个参考行为数据形成的集合，构建用户画像模型。多个参考行为数据的集合覆盖了目标用户的S个不同兴趣类别的长期兴趣画像，且每个兴趣类别的数据从概率上满足#s_i>＝2。例如，可根据筛选出的32条历史行为数据组成的集合，构建用户画像模型，即用户画像模型中包含32条历史行为数据。如此一来，用户画像模型中包含的多个参考行为数据的类别可以有重复的类别，每个类别的数据的数量可以大于2但可以不同，只要满足长期兴趣画像需要的兴趣类别即可。

在构建好用户画像模型之后，可以将目标用户的当前行为数据输入至用户画像模型中，通过计算得到当前行为数据与用户画像模型中每个参考行为数据之间的相关度。相关度用于表示当前行为数据和参考行为数据之间的相似度。本发明实施例中，可以计算当前行为数据和每个参考行为数据之间的相关度。具体地，可以基于内容特征或者是行为特征来计算。

图4中示意性示出了计算相关度的流程图，参考图4中所示，主要包括以下步骤：

在步骤S410中，对所述当前行为数据进行特征提取得到当前行为特征；

在步骤S420中，对所述用户画像模型中的每个参考行为数据进行特征提取，得到参考行为特征；

在步骤S430中，根据所述当前行为特征和所述参考行为特征进行相似度计算，确定所述当前行为数据与每个所述参考行为数据之间的所述相关度。

本发明实施例中，首先对当前行为数据进行特征提取得到代表当前行为数据的特点的当前行为特征。具体可以采用训练好的机器学习模型来进行特征提取。此处的训练好的机器学习模型可以为卷积神经网络模型或者是其他能够提取特征的模型。在进行特征提取时，可以采用训练好的机器学习模型的卷积层来对输入的当前行为数据进行特征提取，得到其当前行为特征。类似地，可以采用训练好的机器学习模型的卷积层来对输入的每个参考行为数据进行特征提取，得到每个参考行为数据对应的参考行为特征。通过机器学习模型进行特征提取，能够提高特征的准确性。

在获取到当前行为特征和参考行为特征之后，可以计算当前行为特征和每一个参考行为特征的之间的相关度。具体地，可以通过计算欧式距离、余弦相似度等来表示当前行为特征和每一个参考行为特征的之间的相关度。相似度越大，则可以认为当前行为数据的类别与参考行为数据的类别的相似度越相似。相关度阈值用于衡量当前行为特征和参考行为特征的类别是否相同。相关度阈值可以根据实际需求设置为各种合适的数值，例如0.6或者是0.8等等。

图5中示意性示出了识别当前行为数据的流程图，参考图5中所示，主要包括以下步骤：

在步骤S510中，判断与当前行为数据之间的相关度大于相关度阈值的参考行为数据的数量是否满足数量条件；若是，则转至步骤S520；若否，则转至步骤S530。

本步骤中，首先将当前行为数据与参考行为数据之间的相关度与相关度阈值进行对比，以确定相关度是否大于相关度阈值。进一步地，可以判断与当前行为数据之间的相关度大于相关度阈值的参考行为数据的数量是否满足数量条件，数量条件可以根据实际需求进行设置，例如可以为2个。

在步骤S520中，若与所述当前行为数据之间的相关度大于所述相关度阈值的参考行为数据的数量满足数量条件，则确定所述当前行为数据属于所述长期兴趣画像。

本步骤中，只要与当前行为数据之间的相关度大于相关度阈值的参考行为数据的数量大于或者等于2，则可以认为当前行为数据属于长期兴趣画像。具体可以通过公式(3)来表示：

similarity(D_i,I)>threshold 公式(3)

其中，D_i为用户画像模型中的参考行为数据，I代表当前行为数据，similarity(D_i,I)代表二者之间的相关度，threshold用于表示相关度阈值。

举例而言，当前行为数据与参考行为数据1的相关度大于相关度阈值，与参考行为数据2的相关度大于相关度阈值，与参考行为数据3的相关度大于相关度阈值，则可以认为当前行为数据属于长期兴趣画像。

在步骤S530中，若与所述当前行为数据之间的相关度大于所述相关度阈值的参考行为数据的数量不满足数量条件，则确定所述当前行为数据属于实时兴趣画像。

本步骤中，如果与当前行为数据之间的相关度大于相关度阈值的参考行为数据的数量小于2(例如为1或者是为0)，则可以认为当前行为数据不属于长期兴趣画像，而是属于实时兴趣画像。其中包含两种情况：第一种是存在与当前行为数据之间的相关度大于相关度阈值的参考行为数据，但是这样的参考行为数据的数量不满足数量条件；第二种是所有的参考行为数据与当前行为数据之间的相关度都小于相关度阈值。举例而言，当前行为数据与参考行为数据1的相关度大于相关度阈值，与其他参考行为数据的相关度均小于相关度阈值，则可以认为当前行为数据属于实时兴趣画像。

本发明实施例中，通过判断与当前行为数据的相关度大于相关度阈值的数量满足数量条件，可以判断出长期兴趣画像。由于使用了包含行为数据的用户画像模型，因此能避免使用标签构建用户兴趣模型的所有问题，避免了通过标签描述时的信息损耗、人工噪声、长尾分布等问题，能够有效的避免人工干预导致的偏差，提高了模型的完整性和准确性，能够进行有效区分，也提高识别的精准性和可靠性，提高了识别长期兴趣画像的效率和准确性。

虽然用户画像模型中已经较好的覆盖了用户不同兴趣，但是该目标用户对应的兴趣类别可能出现的缓慢变化。因此，对于用户新增消费的归因于长期兴趣画像的当前行为数据，需要判断是否使用这些当前行为数据来对原本的用户画像模型来进行更新，以得到更新后的用户画像模型，提高模型的准确性和实时性。

图6中示意性示出了对用户画像模型进行更新的流程图，参考图6中所示，主要包括以下步骤：

在步骤S610中，若所述当前行为数据属于长期兴趣画像，根据第一概率确定是否使用所述当前行为数据对所述用户画像模型进行更新；

在步骤S620中，若确定使用所述当前行为数据对所述用户画像模型进行更新，则根据第二概率从所述用户画像模型的所有参考行为数据中，随机确定一个参考行为数据作为目标行为数据；

在步骤S630中，根据所述当前行为数据对所述目标行为数据进行替换，得到更新后的用户画像模型。

本发明实施例中，如果确定当前行为数据属于长期兴趣画像，则可以对用户画像模型进行更新；如果确定当前行为数据属于实时兴趣画像，则不能对用户画像模型进行更新。由于一个较短时间里消费的数据，内容上近似的概率可能较高，比如热播影视剧相关内容，故而无需使用所有的数据来更新用户画像模型；且每次都更新，可能导致其它类型的数据全部覆盖掉了，因此使得用户画像模型不准确。因此，即使确定当前行为数据属于长期兴趣画像，也不能代表当前行为数据一定能对用户画像模型进行更新。

基于此，可以通过第一概率确定是否使用当前行为数据来对用户画像模型进行更新。第一概率用于表示采用每一条数据来更新模型的概率。第一概率是事先设置好的，且可以根据模型更新频率以及系统里所有用户一天内平均的行为数据的数量的比值来确定。例如，若模型更新频率为5次，系统里所有用户一天内平均的行为数据的数量为100，则第一概率为1/20。在这种情况下，可以取一个随机数范围来表示模型更新频率，并且可以用任意一个随机数分别表示每个当前行为数据。例如，第一概率为1/16时，其对应的随机数范围为0-15之间。如果当前行为数据对应的随机数与能够被更新的范围内的一个特定随机数相同(例如特定随机数为0)，则认为满足第一概率，从而可以使用该随机数代表的当前行为数据来对用户画像模型进行更新。通过第一概率确定是否使用当前行为数据来更新用户画像模型，能够避免同样的数据来对用户画像模型进行全部覆盖，而不是每次都进行更新，提高了更新后的用户画像模型的准确性、全面性和稳定性。

进一步地，如果基于第一概率确定使用所述当前行为数据对所述用户画像模型进行更新，则根据第二概率从用户画像模型的所有参考行为数据中，随机确定一个参考行为数据作为目标行为数据。由于用户画像模型中包含多个参考行为数据，且一个当前行为数据只能用于更新一个参考行为数据，因此可以基于第二概率来从多个参考行为数据中选择一个目标行为数据。第二概率可以根据用户画像模型包括的参考行为数据的数量而确定。例如，若用户画像模型包括32个参考行为数据，则第二概率为1/32。在确定第二概率后，可以根据第二概率从多个参考行为数据中随机选择一个参考行为数据来作为目标行为数据，使得用户画像模型中任意一个参考行为数据都有被更新的概率，避免按时间维度更新导致的某一个兴趣类别被淘汰，导致后续无法按长期兴趣推荐相关的内容，能够提高用户画像模型的准确性和全面性。例如可以用任意一个随机数分别表示每个参考行为数据。例如，第二概率为1/32时，其对应的随机数范围为0-31之间。如果一个参考行为数据对应的随机数与能够被更新的范围内的一个特定随机数相同(例如特定随机数为0)，则该参考行为数据被选择为目标行为数据。

在确定目标行为数据之后，可以根据当前行为数据对目标行为数据进行替换，得到更新后的用户画像模型。举例而言，当前行为数据为数据N，原本的用户画像模型为[数据1、数据2、数据3…、数据32]，更新后的用户画像模型为[数据1、数据N、数据3…、数据32]。

本发明实施例中，通过当前行为数据对目标行为数据进行替换后，能够使得更新后的用户画像模型更真实地反应目标用户的长期兴趣画像，能够及时更新模型，保证模型的准确性。

除此之外，用户的行为数据积累一段时间后，其长期兴趣画像通过历史行为数据集合被固定。若产生用户兴趣迁移，将无法更新到数据集合里。举例而言，比如某明显恋爱或结婚后，出现大量粉丝脱粉，一些粉丝用户转为喜欢其他明星，此时再基于之前的画像继续向粉丝用户推之前喜欢的明星，就是不合适的。为了解决上述问题，需要定期对用户画像模型进行重建。即舍弃当前表征用户画像模型的参考行为数据的集合，基于近期目标用户的历史行为数据进行重新采样和初始化，以更好地表现和跟进目标用户的兴趣转移。

基于上述内容，得到所述用户画像模型之后，所述方法还包括：获取第二预设时长内的历史行为数据；对所述第二预设时长内的历史行为数据进行清洗操作，得到第二行为序列数据；从所述第二行为序列数据中，根据长期兴趣画像中需要包含的兴趣类别以及各兴趣类别的数量组成的类别信息，获取多个参考行为数据作为重建的用户画像模型。

其中，第二预设时长指的是首次确定出用户画像模型之后的任意合适的时长，即第二预设时长是位于第一预设时长之后的一段时间。第二预设时长的长度可以与第一预设时长相同或不同，此处不做特殊限定。第二预设时长内的历史行为数据的类型可以与当前行为数据的类型相同，也可以不同，此处不作特殊限定。

为了保证数据的准确性，可以对得到的第二预设时长内的历史行为数据进行清洗操作，具体根据时长来对多个历史行为数据进行清洗过滤，得到第二行为序列数据。在得到第二行为序列数据之后，可以基于该第二行为序列数据，从其中重新选择出描述长期兴趣画像的多个参考行为数据，以便于使用多个参考行为数据来构建用于进行预测的重建的用户画像模型。

具体而言，可以根据长期兴趣画像中需要包含的兴趣类别以及各兴趣类别的数量组成的类别信息，确定多个参考行为数据。长期兴趣画像中需要包含的兴趣类别指的是全面描述长期兴趣画像所需要的兴趣类别的数量。每个兴趣类别的数量指的是在保证准确性的前提下，每个兴趣类别包括的数据的数量。类别信息可以根据实际需求而进行设定，例如5个兴趣类别，每个兴趣类别包括两个数据。

假定平均每个用户有对应5个兴趣类别的长期兴趣画像，要使得用户长期画像里包含每个兴趣类别至少具有两个数据，需要采样K个数据，则K可以为参考数量。此处的预设数量可以根据每个兴趣类别的历史行为数据出现一次和未出现的概率而确定，在确定每个兴趣类别的历史行为数据出现一次的概率与未出现的概率之和小于概率阈值时，则可以确定出参考数量。预设数量可以为大于参考数量的任意值，具体可以根据实际需求进行设定。基于此，参考数量K满足该兴趣类别的历史行为数据仅出现一次和不出现的概率之和小于0.1。由此可以计算出，参考数量K的值为22。因此，可以选择32条历史行为数据作为多个参考行为数据，来确定重建的用户画像模型。在得到重建的用户画像模型之后，可以基于重建的用户画像模型来对当前行为数据进行识别，判断其是否属于长期兴趣画像，以提高准确性。

需要说明的是，可以使用本发明实施例中的方法，对每个用户构建用户画像模型、更新用户画像模型、重建用户画像模型以及使用用户画像模型对每个用户的当前行为数据进行识别，此处不再赘述。

本发明实施例中，引入背景建模的思想，能够识别出长期兴趣画像表示的稳定的背景像素和实时兴趣画像代表的变化的前景像素，能够更准确地识别用户的兴趣偏好，在用于推荐场景时，提高推荐的精准性和针对性，提高推荐效果。

示例性装置

接下来，参考图7对本发明示例性实施方式的用户兴趣识别装置进行说明。如图7所示，用户兴趣识别装置700可以包括：

行为数据获取模块701，用于获取目标用户的当前行为数据；

相关度计算模块702，用于确定所述当前行为数据与用户画像模型中包含的所有参考行为数据的相关度，所述用户画像模型通过用于表示所述目标用户的长期兴趣画像的多个参考行为数据而构建；

数据识别模块703，用于将所述相关度与相关度阈值进行对比，以识别所述当前行为数据是否属于长期兴趣画像。

在本发明的一种示例性实施例中，所述参考行为数据确定模块包括：概率获取模块，用于确定每个兴趣类别的历史行为数据出现一次的概率以及未出现的概率；数量确定模块，用于在确定每个兴趣类别的历史行为数据出现一次的概率与未出现的概率之和小于概率阈值时，确定预设数量；数据确定模块，用于从所述第一行为序列数据中，确定出所述预设数量的历史行为数据作为多个所述参考行为数据。

需要说明的是，用户兴趣识别装置的各个模块的具体细节已经在对应的用户兴趣识别方法的步骤中进行了详细描述，因此此处不再赘述。

示例性电子设备

接下来，介绍根据本发明的另一示例性实施方式的用于用户兴趣识别的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本发明的用户兴趣识别可以至少包括至少一个处理单元、以及至少一个存储单元。其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元可以执行如图2中所示的步骤。

下面参照图8来描述根据本发明的这种实施方式的用于用户兴趣识别的电子设备800。图8所示的用户兴趣识别设备800仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，用户兴趣识别设备800以通用计算设备的形式表现。用户兴趣识别设备800的组件可以包括但不限于：上述至少一个处理单元801、上述至少一个存储单元802、连接不同系统组件(包括存储单元802和处理单元801)的总线803。

总线803可以包括数据总线、地址总线和控制总线。

存储单元802可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)8021和/或高速缓存存储器8022，还可以进一步包括只读存储器(ROM)8023。

存储单元802还可以包括具有一组(至少一个)程序模块8024的程序/实用工具8025，这样的程序模块8024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

用户兴趣识别设备800也可以与一个或多个外部设备804(例如键盘、指向设备、蓝牙设备等)通信，这种通信可以通过输入/输出(I/O)接口805进行。并且，用户兴趣识别设备800还可以通过网络适配器806与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器806通过总线803与用户兴趣识别设备800的其它模块通信。应当明白，尽管图8中未示出，可以结合用户兴趣识别设备800使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

示例性介质

接下来，对本发明示例性实施方式的介质进行说明。

在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的用户兴趣识别方法中的步骤，例如，所述处理单元可以执行如图2中所示的步骤。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

根据本发明的实施方式的用于用户兴趣识别的程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了用户兴趣识别设备的若干模块或子模块，但是这种划分仅仅是示意性而并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种用户兴趣识别方法，其特征在于，包括：

获取目标用户的当前行为数据；

确定所述当前行为数据与用户画像模型中包含的所有参考行为数据的相关度，所述用户画像模型通过用于表示所述目标用户的长期兴趣画像的多个参考行为数据而构建；

将所述相关度与相关度阈值进行对比，以识别所述当前行为数据是否属于长期兴趣画像。

2.根据权利要求1所述的用户兴趣识别方法，其特征在于，所述确定所述当前行为数据与用户画像模型中包含的所有参考行为数据的相关度，包括：

对所述当前行为数据进行特征提取得到当前行为特征；

对所述用户画像模型中的每个参考行为数据进行特征提取，得到参考行为特征；

根据所述当前行为特征和所述参考行为特征进行相似度计算，确定所述当前行为数据与每个所述参考行为数据之间的所述相关度。

3.根据权利要求1所述的用户兴趣识别方法，其特征在于，所述将所述相关度与相关度阈值进行对比，以识别所述当前行为数据是否属于长期兴趣画像，包括：

若与所述当前行为数据之间的相关度大于所述相关度阈值的参考行为数据的数量满足数量条件，则确定所述当前行为数据属于所述长期兴趣画像。

4.根据权利要求3所述的用户兴趣识别方法，其特征在于，还包括：

若与所述当前行为数据之间的相关度大于所述相关度阈值的参考行为数据的数量不满足数量条件，则确定所述当前行为数据属于实时兴趣画像。

5.根据权利要求1所述的用户兴趣识别方法，其特征在于，所述方法还包括：

若所述当前行为数据属于长期兴趣画像，根据第一概率确定是否使用所述当前行为数据对所述用户画像模型进行更新；

若确定使用所述当前行为数据对所述用户画像模型进行更新，则根据第二概率从所述用户画像模型的所有参考行为数据中，随机确定一个参考行为数据作为目标行为数据；

根据所述当前行为数据对所述目标行为数据进行替换，得到更新后的用户画像模型。

6.根据权利要求1所述的用户兴趣识别方法，其特征在于，在确定所述当前行为数据与用户画像模型中包含的所有参考行为数据的相关度之前，所述方法还包括：

获取第一预设时长内的所述目标用户的多个历史行为数据；

对所述多个历史行为数据进行清洗操作，得到第一行为序列数据；

从所述第一行为序列数据中，获取能够用于表示长期兴趣画像的多个参考行为数据构建所述用户画像模型。

7.根据权利要求6所述的用户兴趣识别方法，其特征在于，所述获取能够用于表示长期兴趣画像的多个参考行为数据构建所述用户画像模型，包括：

根据所述长期兴趣画像中需要包含的兴趣类别以及各兴趣类别的数量组成的类别信息，确定多个所述参考行为数据；

根据多个所述参考行为数据形成的集合，构建所述用户画像模型。

8.一种用户兴趣识别装置，其特征在于，包括：

行为数据获取模块，用于获取目标用户的当前行为数据；

相关度计算模块，用于确定所述当前行为数据与用户画像模型中包含的所有参考行为数据的相关度，所述用户画像模型通过用于表示所述目标用户的长期兴趣画像的多个参考行为数据而构建；

数据识别模块，用于将所述相关度与相关度阈值进行对比，以识别所述当前行为数据是否属于长期兴趣画像。

9.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至7中任意一项所述的用户兴趣识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的用户兴趣识别方法。