CN111966885A

CN111966885A - 一种用户画像的构建方法和装置

Info

Publication number: CN111966885A
Application number: CN201910417949.4A
Authority: CN
Inventors: 朱家卫; 张伸正; 吴敬桐
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-05-20
Filing date: 2019-05-20
Publication date: 2020-11-20
Anticipated expiration: 2039-05-20
Also published as: CN111966885B

Abstract

本发明实施例公开了一种用户画像的构建方法和装置；本发明实施例可以先获取用户在预设时间段的行为数据，接着，分析该行为数据中的多个行为以及每个行为的对象内容，得到当前行为序列，然后，根据该当前行为序列中的对象内容在预设信息库中查找满足预设条件的内容，得到相似对象内容，再基于多个相似对象内容对用户行为生成相似行为序列，再然后，利用该当前行为序列和该相似行为序列对用户进行画像构建，得到用户画像；该方案可以使得用户画像的构建更加丰富和准确。

Description

一种用户画像的构建方法和装置

技术领域

本发明涉及通信技术领域，具体涉及一种用户画像的构建方法和装置。

背景技术

近年来，网络发展迅速，用户人数呈爆炸式增长。通过网络服务，人们除了进行社交行为，更多的是将网络当成公共的媒体平台，满足社交需求和特定兴趣获取需求。因此，在网络的个性化推荐系统中，用户兴趣画像在推荐的各个模块(召回，排序，重排)中起着重要作用，对用户兴趣刻画是否准确直接影响到线上效果。

为了能够准确刻画用户兴趣，现有技术主要是通过获取用户行为，然后使用这些行为文章的自然语言处理(Natural Language Processing，NLP)信息对用户进行兴趣刻画。这种方式通常只是一些简单的标签统计，具有一定的局限性，所构建的用户画像准确性并不高。

发明内容

本发明实施例提供一种用户画像的构建方法和装置，可以使得用户画像的构建更加丰富和准确。

本发明实施例提供一种用户画像的构建方法，包括：

获取用户在预设时间段的行为数据；

分析所述行为数据中的多个行为以及每个行为的对象内容，得到当前行为序列；

根据所述当前行为序列中的对象内容在预设信息库中查找满足预设条件的内容，得到相似对象内容；

基于多个相似对象内容对用户行为生成相似行为序列；

利用所述当前行为序列和所述相似行为序列对用户进行画像构建，得到用户画像。

相应的，本发明实施例还提供一种用户画像的构建装置，包括：

获取单元，用于获取用户在预设时间段的行为数据；

分析单元，用于分析所述行为数据中的多个行为以及每个行为的对象内容，得到当前行为序列；

查找单元，用于根据所述当前行为序列中的对象内容在预设信息库中查找满足预设条件的内容，得到相似对象内容；

生成单元，用于基于多个相似对象内容对用户行为生成相似行为序列；

构建单元，用于利用所述当前行为序列和所述相似行为序列对用户进行画像构建，得到用户画像。

可选的，在一些实施例中，所述生成单元可以包括计算子单元和预测子单元，如下：

所述计算子单元，用于利用所述当前行为序列和多个相似对象内容计算用户对每个相似对象内容的偏好强度；

所述预测子单元，用于根据用户的偏好强度对用户行为进行预测，生成相似行为序列。

可选的，在一些实施例中，所述计算子单元，具体用于设置当前行为序列中行为的权重；计算当前行为序列的每个对象内容与相似对象内容的相似性；利用所述行为的权重和所述相似性计算用户对每个相似对象内容的偏好强度。

可选的，在一些实施例中，所述查找单元可以包括向量化子单元和查找子单元，如下：

所述向量化子单元，用于采用向量训练模型将所述当前行为序列中的对象内容进行向量化，得到对象向量；采用向量训练模型将预设信息库中的内容进行向量化，得到内容向量；

所述查找子单元，用于在所述预设信息库中查找与所述对象向量相似度大于预设阈值的内容向量，得到相似对象内容。

可选的，在一些实施例中，该用户画像的构建装置，还可以包括训练单元，其中，训练单元可以包括获取子单元和训练子单元，如下：

所述获取子单元，用于获取多组用户信息样本；

所述训练子单元，用于利用所述用户信息样本对预设向量模型进行训练，得到向量训练模型。

可选的，在一些实施例中，每组用户信息样本包括多个行为样本和每个行为样本的对象样本，所述训练子单元，具体用于采用预设向量模型分别构建行为样本和对象样本的矩阵，得到行为样本矩阵和对象样本矩阵；对所述行为样本矩阵和对象样本矩阵进行计算，得到对象样本的预测值；获取对象样本的真实值，根据所述对象样本的预测值和真实值对所述预设向量模型进行收敛，得到向量训练模型。

可选的，在一些实施例中，所述分析单元可以包括发送子单元和处理子单元，如下：

所述发送子单元，用于将获取到的行为数据发送到消息队列；

所述处理子单元，用于获取消息队列中的数据，将所述消息队列中的数据的多个行为以及每个行为的对象内容进行预设规则处理，得到当前行为序列。

可选的，在一些实施例中，所述构建单元可以包括设置子单元和构建子单元，如下：

所述设置子单元，用于获取当前行为序列的行为时间，设置当前行为序列和相似行为序列中行为的权重；

所述构建子单元，用于根据行为的权重和行为时间的衰减，利用牛顿冷却定律对当前行为序列的对象内容和相似行为序列的对象内容进行计算，得到用户画像。

可选的，在一些实施例中，所述构建子单元，具体可以用于将所述当前行为序列的对象内容进行语言信息处理，得到第一内容信息；将所述相似行为序列的对象内容进行语言信息处理，得到第二内容信息；根据行为的权重和行为时间的衰减，利用牛顿冷却定律对第一内容信息和第二内容信息进行计算，得到用户画像。

此外，本发明实施例还提供一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本发明实施例提供的任一种用户画像的构建方法中的步骤。

本发明实施例可以先获取用户在预设时间段的行为数据，接着，分析所述行为数据中的多个行为以及每个行为的对象内容，得到当前行为序列，然后，根据所述当前行为序列中的对象内容在预设信息库中查找满足预设条件的内容，得到相似对象内容，再基于多个相似对象内容对用户行为生成相似行为序列，再然后，利用所述当前行为序列和所述相似行为序列对用户进行画像构建，得到用户画像；该方案可以使得用户画像的构建更加丰富和准确。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的用户画像的构建方法的场景示意图；

图1b是本发明实施例提供的用户画像的构建方法的流程图；

图1c是本发明实施例提供的用户画像的构建方法的另一流程图；

图1d是本发明实施例提供的向量训练模型的结构示意图；

图2a是本发明实施例提供的bhv2vec的结构示意图；

图2b是本发明实施例提供的用户画像的构建方法的又一流程图；

图2c是本发明实施例提供的用户画像的构建方法的再一流程图；

图3是本发明实施例提供的用户画像的构建装置的结构示意图；

图4是本发明实施例提供的网络设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种用户画像的构建方法、装置和存储介质。其中，该用户画像的构建可以集成在网络设备中，该网络设备可以是服务器，也可以是终端等设备。

例如，参见图1a，首先，该集成了用户画像的构建装置的网络设备可以先实时获取用户在预设时间段的行为数据，接着，分析该行为数据中的多个行为以及每个行为的对象内容(比如对该行为数据进行预设格式处理)，得到当前行为序列，然后，根据该当前行为序列中的对象内容在预设信息库中查找满足预设条件的内容，得到相似对象内容，再基于多个相似对象内容对用户行为生成相似行为序列，再然后，利用该当前行为序列和该相似行为序列对用户进行画像构建，得到用户画像。

由于该方案可以通过用户当前最新的主动行为序列分析行为之间的相似关系，得到用户主动行为的相似行为序列，可以基于主动行为序列和相似行为序列计算用户画像，避免了用户画像的单一，使得用户画像更加丰富，并且基于用户的相似行为序列进行计算用户画像，可以更准确地了解用户的一类兴趣，而不是局限于某一兴趣，可以使得用户画像的构建更加准确。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本实施例将从用户画像的构建装置的角度进行描述，该用户画像的构建装置具体可以集成在网络设备中，该网络设备可以是服务器，也可以是终端等设备；其中，该终端可以包括手机、平板电脑、笔记本电脑、以及个人计算(PC，Personal Computer)等设备。

一种用户画像的构建方法，包括：获取用户在预设时间段的行为数据，接着，分析该行为数据中的多个行为以及每个行为的对象内容，得到当前行为序列，然后，根据该当前行为序列中的对象内容在预设信息库中查找满足预设条件的内容，得到相似对象内容，再基于多个相似对象内容对用户行为生成相似行为序列，再然后，利用该当前行为序列和该相似行为序列对用户进行画像构建，得到用户画像。

如图1b所示，该用户画像的构建方法的具体流程可以如下：

101、获取用户在预设时间段的行为数据。

例如，为了能够实时捕获用户的兴趣点，可以实时获取用户在预设时间段的行为数据。其中，预设时间段的设定方式可以有很多种，比如，可以根据实际应用的需求灵活设置，也可以预先设置好存储在网络设备中。此外，预设时间段可以内置于网络设备中，或者，也可以保存在存储器中并发送给网络设备，等等。

比如，具体可以实时获取用户在预设时间窗口的行为数据。其中，时间窗口，通常对于一些实时信息展示中用得比较多，比如，维持一个五分钟的交易明细时间窗口，就需要记录当前时间，到五分钟之前的所有交易明细，而五分钟之前的数据，则丢掉。一个简单的实现就是用一个队列来做，新的数据在对头添加；同时起一个线程，不断的询问队尾的数据是否过期，如果过期则丢掉。

其中，行为数据(behavior data)是关于机体的行为和行为发生时环境的观察报告。比如，用户在网站和移动手机软件(App)中的浏览、点击、发帖等行为。其中，行为数据通常有时间、频次、结果这3个数据维度。行为数据时间维度主要关注行为发生的时间段和持续时间。持续时间关注行为发生的过程，记录了行为起始和结束时间。行为数据的频次主要关注某些特定行为发生的次数和趋势，其中次数同用户的兴趣具有较大的正相关度。行为数据的结果主要关注是否完成交易、转发、点赞等等，用于判断用户点击浏览的结果。

102、分析该行为数据中的多个行为以及每个行为的对象内容，得到当前行为序列。

例如，如图1c所示，具体可以将获取到的行为数据发送到消息队列；获取消息队列中的数据，将该消息队列中的数据的多个行为以及每个行为的对象内容进行预设规则处理，得到当前行为序列。比如，可以将获取到的用户行为数据实时推送到卡夫卡(Kafka)中，实时流处理框架(spark-streaming)实时读取Kafka中数据，并进行特定的业务规则处理，比如，对该用户行为数据中的多个点击行为以及每个点击行为的对象内容整理等等，得到最新的用户行为序列，即当前行为序列。

其中，消息队列是在消息的传输过程中保存消息的容器。消息队列管理器在将消息从它的源中继到它的目标时充当中间人。队列的主要目的是提供路由并保证消息的传递；如果发送消息时接收者不可用，消息队列会保留消息，直到可以成功地传递它。

其中，行为的对象内容指的是该行为直接作用或指向的具体的信息。比如，用户点击了一篇关于流浪x球的文章，则该行为为点击，该行为的对象内容则是一篇关于流浪x球的文章信息。其中，当前行为序列指的是获取到最新的用户行为序列。用户行为序列，也可以叫做“基于时间序列的用户行为”，是某一时间段内，按照时间先后顺序记录的人从事某种活动的每一步行为。比如，在网站，一段时间内，一个用户从进入网站到离开网站过程中的每一步行为的记录，被我们记做一条用户行为序列。其中，预设规则处理指的是将数据根据预设的规则(比如，用户标识、行为1、行为对象1、行为2、行为对象2……)进行整理。

其中，Kafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。这种动作(网页浏览，搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像海杜普(Hadoop)一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消息。

其中，Spark Streaming属于Spark(计算引擎)的核心应用程序编程接口(Application Programming Interface，API)，它支持高吞吐量、支持容错的实时流数据处理。它可以接受来自Kafka,Flume,Twitter,ZeroMQ和TCP Socket的数据源，使用简单的API函数比如map,reduce,join,window等操作，还可以直接使用内置的机器学习算法、图算法包来处理数据。

103、根据该当前行为序列中的对象内容在预设信息库中查找满足预设条件的内容，得到相似对象内容。

例如，具体可以采用向量训练模型将该当前行为序列中的对象内容进行向量化，得到对象向量；采用向量训练模型将预设信息库中的内容进行向量化，得到内容向量；在该预设信息库中查找与该对象向量相似度大于预设阈值的内容向量，得到相似对象内容。

比如，可以采用类似项目向量化模型(item2vec)的方法，对用户有效行为序列进行训练，通过学习行为之间的分布关系，最终学习到每个行为对象的隐向量表示。其中，有效行为序列指的是同一会话(session)内发生的行为，比如，session可以取值为30分钟。向量训练模型学习到每个行为对象的隐向量表示后，可以利用该模型计算行为对象隐向量之间的余弦相似值，通过余弦相似值可以得到每个行为对象最相似的相似对象内容，然后对这些对象内容进行相似倒排，存储在预设信息库中。当需要计算某一用户的画像时，可以利用该模型将用户的当前行为序列中的对象内容进行向量化，得到对象向量，再在该预设信息库中查找与该对象向量相似度大于预设阈值的内容向量，得到相似对象内容。

其中，该预设信息库可以是数据库，也可以是其他存储库等等。该信息库可以存储在用户画像的构建装置，或者存储在其他设备，在该用户画像的构建装置需要时再从其他设备获取该信息库中的信息，等等。

可选的，该向量化训练模型可以由多组用户信息样本训练而成。具体可以由其他设备进行训练后，提供给该用户画像的构建装置，或者，也可以由用户画像的构建装置自行进行训练。即在步骤“采用向量训练模型将该当前行为序列中的对象内容进行向量化，得到对象向量”之前，该用户画像的构建方法还可以包括：

获取多组用户信息样本；利用该用户信息样本对预设向量模型进行训练，得到向量训练模型。

例如，具体可以获取多组用户信息样本，该用户信息样本包括多个行为样本和每个行为样本的对象样本，采用预设向量模型分别构建行为样本和对象样本的矩阵，得到行为样本矩阵和对象样本矩阵，对该行为样本矩阵和对象样本矩阵进行计算，得到对象样本的预测值，获取对象样本的真实值，根据该对象样本的预测值和真实值对该预设向量模型进行收敛，得到向量训练模型。

比如，如图1d所示，获取多组用户信息样本时，在数据提取阶段，偶尔会出现空白值的情况，可以对数据进行清理，把包含空白值的用户剔除掉，以免干扰以后的数据分析。获取到的数据格式各异，进行整理符合后续处理的格式。然后，利用预设向量模型对处理后的数据格式分别构建行为样本和对象样本的矩阵，得到行为样本矩阵和对象样本矩阵。对该行为样本矩阵和对象样本矩阵进行计算，得到对象样本的预测值，计算对象样本的预测值和真实值之间的误差，然后，根据误差调整模型的参数，比如对象的权重等，以达到收敛的目的，最终得到向量训练模型。通过学习行为之间的分布关系，学习到每个对象内容的隐向量表示。

其中，计算预测值和真实值之间的误差的方式可以有多种，例如，可以通过预设的损失函数来计算预测值和真实值之间的误差，如通过交叉熵损失函数来计算预测值和真实值之间的交叉熵损失，等等。

可选的，为了提高构建用户画像的效率，可以利用该向量化训练模型预先计算每个行为对象最相似的相似对象内容，得到相似对象候选集，然后将该相似对象候选集中的相似对象进行相似排序(比如倒排)，根据排序结果筛选满足预设条件的相似对象，得到相似对象内容，将相似对象内容存储在预设信息库中，使用户在主动行为的基础上，可以基于对象内容相似进行行为跳转，使用户的行为更加丰富。

104、基于多个相似对象内容对用户行为生成相似行为序列。

例如，具体可以利用该当前行为序列和多个相似对象内容计算用户对每个相似对象内容的偏好强度，根据用户的偏好强度对用户行为进行预测，生成相似行为序列。

其中，计算用户对每个相似对象内容的偏好强度的方式有很多种，比如，可以对用户的每一类行为设置不同的权重，等等。即步骤“利用该当前行为序列和多个相似对象内容计算用户对每个相似对象内容的偏好强度”，可以包括：

设置当前行为序列中行为的权重；计算当前行为序列的每个对象内容与相似对象内容的相似性；利用该行为的权重和该相似性计算用户对每个相似对象内容的偏好强度。

其中，计算用户对每个相似对象内容的偏好强度可以如下：

prefer_bhvi＝weight_bhvj*cosine<Vec_bhvi,Vec_bhvj>

其中，bhvj为用户主动点击的行为，bhvi为行为跳转新产生的行为，即相似行为，weight_bhvj为主动点击行为的权重，prefer_bhvi：用户对跳转产生行为对象的偏好，cosine<Vec_bhvi,Vec_bhvj>为行为i与行为j之间的相似性。

105、利用该当前行为序列和该相似行为序列对用户进行画像构建，得到用户画像。

例如，具体可以获取当前行为序列的行为时间，设置当前行为序列和相似行为序列中行为的权重，根据行为的权重和行为时间的衰减，利用牛顿冷却定律对当前行为序列的对象内容和相似行为序列的对象内容进行计算，得到用户画像。

比如，行为的对象内容为新闻，可以对新闻进行自然语言处理(Natural LanguageProcessing，NLP)，得到新闻的NLP信息，然后根据当前行为序列、相似行为序列和新闻的NLP信息进行计算，得到用户画像。即步骤“利用牛顿冷却定律对当前行为序列的对象内容和相似行为序列的对象内容进行计算，得到用户画像”，可以包括：

将该当前行为序列的对象内容进行语言信息处理，得到第一内容信息，将该相似行为序列的对象内容进行语言信息处理，得到第二内容信息，根据行为的权重和行为时间的衰减，利用牛顿冷却定律对第一内容信息和第二内容信息进行计算，得到用户画像。

比如，如图1c所示，根据当前行为序列、相似行为序列和对象内容的NLP信息计算得到用户实时画像后，可以更新用户画像，将满足计算时间窗口的点击序列及相应点击时间更新到线上redis数据库中，过滤掉窗口之外的点击序列。

可选的，构建好用户画像后，可以根据该用户的用户画像去给用户推荐与用户当前兴趣契合的对象内容，提升用户的体验及产品粘性，增加用户的使用率。

由上可知，本实施例可以先获取用户在预设时间段的行为数据，接着，分析该行为数据中的多个行为以及每个行为的对象内容，得到当前行为序列，然后，根据该当前行为序列中的对象内容在预设信息库中查找满足预设条件的内容，得到相似对象内容，再基于多个相似对象内容对用户行为生成相似行为序列，再然后，利用该当前行为序列和该相似行为序列对用户进行画像构建，得到用户画像；由于该方案可以通过用户当前最新的主动行为序列分析行为之间的相似关系，得到用户主动行为的相似行为序列，可以基于主动行为序列和相似行为序列计算用户画像，避免了用户画像的单一，使得用户画像更加丰富，并且基于用户的相似行为序列进行计算用户画像，可以更准确地了解用户的一类兴趣，而不是局限于某一兴趣，可以使得用户画像的构建更加准确。

根据上一个实施例所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以该用户画像的构建装置具体集成在网络设备，其以用户行为的对象内容为新闻，向量训练模型为bhv2vec为例进行说明。

(一)首先，需要对预设的bhv2vec进行训练。为了提高用户画像的构建装置的构建效率，可以先离线训练好bhv2vec后，再将该bhv2vec集成在网络设备，具体可以如下：

(1)获取多组用户信息样本。

例如，具体可以使用信息采集设备采集多组用户信息样本，然后发送给预设的bhv2vec，该用户信息样本包括多个行为样本和每个行为样本的对象样本。该预设的bhv2vec可以对该用户信息样本进行数据处理，比如，对出现空白值的情况，可以对数据进行清理，把包含空白值的用户剔除掉，以免干扰以后的数据分析。由于获取到的数据格式各异，可以进行整理符合后续处理的格式，比如，用户x、行为x1、行为x2……行为xt……，用户y、行为y1、行为y2……行为yt……等等。也可以采集设备采集到用户信息样本后先对数据进行处理，再发送给预设的bhv2vec，等等。

(2)利用该用户信息样本对预设向量模型进行训练，得到向量训练模型；例如，具体可以如下：

例如，预设的bhv2vec具体可以分别构建行为样本和对象样本的矩阵，得到行为样本矩阵和对象样本矩阵，对该行为样本矩阵和对象样本矩阵进行计算，得到对象样本的预测值，获取对象样本的真实值，根据该对象样本的预测值和真实值对该预设bhv2vec进行收敛，得到训练后的bhv2vec。

比如，利用预设的bhv2vec对处理后的数据格式分别构建行为样本和对象样本的矩阵，得到行为样本矩阵和对象样本矩阵。由于整个矩阵中元素非常稀疏，也就是通过所能得到的有效信息非常少，因此需要通过一定的方法来补全信息。补全的方法可以模拟矩阵中元素的生成过程，假设矩阵中i，j位置处的元素是由一个行为样本向量和对象样本向量相乘得到，该行为样本向量和对象样本向量有相同的维度，称为行为和对象的隐向量。对该行为样本向量和对象样本向量进行计算，得到对象样本的预测值，计算对象样本的预测值和真实值之间的误差，然后，根据误差调整模型的参数，比如对象的权重等，以达到收敛的目的，最终得到bhv2vec。

为了提高构建用户画像的效率，如图2a所示，在得到训练后bhv2vec之后，可以利用该bhv2vec预先计算每个行为对象最相似的相似对象内容，得到相似对象候选集，然后将该相似对象候选集中的相似对象进行相似排序，根据排序结果筛选满足预设条件的相似对象，得到相似对象内容，将相似对象内容存储在预设信息库中，使用户在主动行为的基础上，可以基于对象内容相似进行行为跳转，使用户的行为更加丰富。比如，如图2a所示，在得到训练后bhv2vec之后，可以利用该bhv2vec预先计算每个行为对应新闻最相似的相似新闻，得到相似新闻候选集，然后将该相似新闻候选集中的相似新闻进行相似倒排，根据倒排结果筛选满足预设条件的相似新闻，比如最相似的前10条新闻，得到相似新闻，将相似新闻存储在预设信息库中。

(二)通过训练好的bhv2vec，便可以对用户画像进行实时构建，具体可以参见图2b和图2c。

如图2b所示，一种用户画像的构建方法，具体流程可以如下：

201、网络设备实时获取用户在预设时间段的行为数据。

例如，为了能够实时捕获用户的兴趣点，网络设备具体可以实时获取用户在预设时间段的行为数据，比如，具体可以实时获取用户在预设时间窗口(比如，1.5天)的行为数据。

202、网络设备分析该行为数据中的多个行为以及每个行为对应的新闻，得到当前行为序列。

例如，网络设备具体可以将获取到的行为数据实时推送到kafka队列，spark-streaming实时读取kafka中数据，进行特定的业务规则处理，比如，对该用户行为数据中的多个点击行为以及每个点击行为对应的新闻内容进行整理等等，得到最新的用户行为序列，即当前行为序列。

203、网络设备根据该当前行为序列中的新闻在预设信息库中查找满足预设条件的新闻，得到相似新闻。

例如，网络设备具体可以采用向量训练模型将该当前行为序列中的新闻进行向量化，得到新闻向量，也就是根据向量训练模型得到新闻的隐向量。采用向量训练模型将线上的新闻进行向量化，得到候选新闻向量，在该预设信息库中查找与该新闻向量相似度大于预设阈值的候选新闻向量，将候选新闻进行相似倒排，得到相似新闻。比如，用户点击了一篇有“梅西”标签的新闻，只基于主动行为只会有“梅西”这个标签，而其实用户反映的是一类兴趣，并不局限于“梅西”，而引入相似行为跳转方法后,用户的实时画像中可以同时具有“梅西”，“C罗”，“西甲”等兴趣标签。

204、网络设备利用该当前行为序列和多个相似新闻计算用户对每个相似新闻的偏好强度。

例如，可以对用户的每一类行为，比如用户点击新闻、评论新闻或者转发新闻等等，设置不同的权重，比如用户评论设置比较高的权重，转发设置更高的权重，等等。计算当前行为序列的每个新闻与相似新闻的相似性，然后，利用该行为的权重和该相似性计算用户对每个相似新闻的偏好强度。

其中，计算用户对每个相似新闻的偏好强度可以如下：

prefer_bhvi＝weight_bhvj*cosine<Vec_bhvi,Vec_bhvj>

其中，bhvj为用户主动点击新闻的行为，bhvi为行为跳转新产生的行为，即相似行为，weight_bhvj为主动点击行为的权重，prefer_bhvi：用户对跳转产生行为对象的偏好，cosine<Vec_bhvi,Vec_bhvj>为行为i与行为j之间的相似性。

205、网络设备根据用户的偏好强度对用户行为进行预测，生成相似行为序列。

例如，网络设备具体可以根据用户的偏好强度预测用户对相似新闻的行为，比如，对这些相似新闻是点击、转发或者评论，还仅仅只是浏览，根据这些预测生成相似行为序列。

206、网络设备利用该当前行为序列和该相似行为序列对用户进行画像构建，得到用户画像。

例如，网络设备具体可以获取当前行为序列的行为时间，设置当前行为序列和相似行为序列中行为的权重，将该当前行为序列的对象内容进行语言信息处理，得到第一内容信息，将该相似行为序列的对象内容进行语言信息处理，得到第二内容信息，根据行为的权重和行为时间的衰减，利用牛顿冷却定律对第一内容信息和第二内容信息进行计算，得到用户画像。

比如，可以利用NLP技术对新闻进行处理，得到新闻NLP信息，然后根据当前行为序列、相似行为序列和新闻NLP信息采用牛顿冷却定律对用户每个兴趣点进行分数计算，得到用户画像，如图2c所示。计算得到用户实时画像后，可以更新用户画像，将满足计算时间窗口的点击序列及相应点击时间更新到线上redis数据库中，过滤掉窗口之外的点击序列。

可选的，构建好用户画像，即用户标签后，可以根据该用户的标签去给用户推荐与用户当前兴趣契合的候选新闻，提升用户的体验及产品粘性，增加用户的使用率。

由上可知，本实施例可以先获取用户在预设时间段的行为数据，接着，分析该行为数据中的多个行为以及每个行为的对象内容，得到当前行为序列，然后，根据该当前行为序列中的对象内容在预设信息库中查找满足预设条件的内容，得到相似对象内容，再基于多个相似对象内容对用户行为生成相似行为序列，再然后，利用该当前行为序列和该相似行为序列对用户进行画像构建，得到用户画像；由于该方案可以通过用户当前最新的主动行为序列分析行为之间的相似关系，得到用户主动行为的相似行为序列，可以基于主动行为序列和相似行为序列计算用户画像，避免了用户画像的单一，使得用户画像更加丰富，并且基于用户的相似行为序列进行计算用户画像，可以更准确地了解用户的一类兴趣，而不是局限于某一兴趣，可以使得用户画像的构建更加准确。并且，用户每一次刷新都会触发获取用户的实时画像，通过实时画像去给用户推荐与当前兴趣契合的候选文章，可以及时给户推荐当前感兴趣的内容，对提升产品用户体验及产品粘性具有重要帮助。

为了更好地实施以上方法，相应的，本发明实施例还提供一种用户画像的构建装置，该用户画像的构建装置具体可以集成在网络设备中，该网络设备可以是服务器，也可以是终端等设备。

例如，如图3所示，该用户画像的构建装置可以包括获取单元301、分析单元302、查找单元303、生成单元304和构建单元305，如下：

(1)获取单元301；

获取单元301，用于获取用户在预设时间段的行为数据。

例如，为了能够实时捕获用户的兴趣点，获取单元301可以实时获取用户在预设时间段的行为数据。其中，预设时间段的设定方式可以有很多种，比如，可以根据实际应用的需求灵活设置，也可以预先设置好存储在获取单元301中。此外，预设时间段可以内置于获取单元301中，或者，也可以保存在存储器中并发送给获取单元301，等等。

(2)分析单元302；

分析单元302，用于析该行为数据中的多个行为以及每个行为的对象内容，得到当前行为序列。

可选的，在一些实施例中，该分析单元可以包括发送子单元和处理子单元，如下：

发送子单元，用于将获取到的行为数据发送到消息队列。

比如，发送子单元，可以将获取到的用户行为数据实时推送到Kafka队列中

处理子单元，用于获取消息队列中的数据，将该消息队列中的数据的多个行为以及每个行为的对象内容进行预设规则处理，得到当前行为序列。

比如，处理子单元可以利用streaming实时读取Kafka中数据，并进行特定的业务规则处理，比如，对该用户行为数据中的多个点击行为以及每个点击行为的对象内容整理等等，得到最新的用户行为序列，即当前行为序列。

(3)查找单元303；

查找单元303，用于根据该当前行为序列中的对象内容在预设信息库中查找满足预设条件的内容，得到相似对象内容。

可选的，在一些实施例中，该查找单元可以包括向量化子单元和查找子单元，如下：

向量化子单元，用于采用向量训练模型将该当前行为序列中的对象内容进行向量化，得到对象向量；采用向量训练模型将预设信息库中的内容进行向量化，得到内容向量。

查找子单元，用于在该预设信息库中查找与该对象向量相似度大于预设阈值的内容向量，得到相似对象内容。

可选的，该向量化训练模型可以由多组用户信息样本训练而成。具体可以由其他设备进行训练后，提供给该用户画像的构建装置，或者，也可以由用户画像的构建装置自行进行训练。即该用户画像的构建装置，还可以包括训练单元，其中，训练单元可以包括获取子单元和训练子单元，如下：

获取子单元，用于获取多组用户信息样本；

比如，获取子单元可以获取多组用户信息样本，每组用户信息样本包括多个行为样本和每个行为样本的对象样本。在数据提取阶段，偶尔会出现空白值的情况，可以对数据进行清理，把包含空白值的用户剔除掉，以免干扰以后的数据分析。获取到的数据格式各异，进行整理符合后续处理的格式。

训练子单元，用于利用该用户信息样本对预设向量模型进行训练，得到向量训练模型。

比如，训练子单元可以利用预设向量模型对处理后的数据格式分别构建行为样本和对象样本的矩阵，得到行为样本矩阵和对象样本矩阵。对该行为样本矩阵和对象样本矩阵进行计算，得到对象样本的预测值，计算对象样本的预测值和真实值之间的误差，然后，根据误差调整模型的参数，比如对象的权重等，以达到收敛的目的，最终得到向量训练模型。即训练子单元，具体可以用于采用预设向量模型分别构建行为样本和对象样本的矩阵，得到行为样本矩阵和对象样本矩阵；对该行为样本矩阵和对象样本矩阵进行计算，得到对象样本的预测值；获取对象样本的真实值，根据该对象样本的预测值和真实值对该预设向量模型进行收敛，得到向量训练模型。

(4)生成单元304；

生成单元304，用于基于多个相似对象内容对用户行为生成相似行为序列。

可选的，在一些实施例中，该生成单元可以包括计算子单元和预测子单元，如下：

计算子单元，用于利用该当前行为序列和多个相似对象内容计算用户对每个相似对象内容的偏好强度。

其中，计算用户对每个相似对象内容的偏好强度的方式有很多种，比如，可以对用户的每一类行为设置不同的权重，等等。即计算子单元，具体可以用于设置当前行为序列中行为的权重；计算当前行为序列的每个对象内容与相似对象内容的相似性；利用该行为的权重和该相似性计算用户对每个相似对象内容的偏好强度。

其中，计算用户对每个相似对象内容的偏好强度可以如下：

prefer_bhvi＝weight_bhvj*cosine<Vec_bhvi,Vec_bhvj>

预测子单元，用于根据用户的偏好强度对用户行为进行预测，生成相似行为序列。

(5)构建单元305；

构建单元，用于利用该当前行为序列和该相似行为序列对用户进行画像构建，得到用户画像。

可选的，在一些实施例中，该构建单元可以包括设置子单元和构建子单元，如下：

设置子单元，用于获取当前行为序列的行为时间，设置当前行为序列和相似行为序列中行为的权重；

构建子单元，用于根据行为的权重和行为时间的衰减，利用牛顿冷却定律对当前行为序列的对象内容和相似行为序列的对象内容进行计算，得到用户画像。

可选的，在一些实施例中，该构建子单元，具体可以用于将该当前行为序列的对象内容进行语言信息处理，得到第一内容信息；将该相似行为序列的对象内容进行语言信息处理，得到第二内容信息；根据行为的权重和行为时间的衰减，利用牛顿冷却定律对第一内容信息和第二内容信息进行计算，得到用户画像。

可选的，构建好用户画像后，可以根据该用户的用户画像去给用户推荐与用户相契合的对象内容，提升用户的体验及产品粘性，增加用户的使用率。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本实施例获取单元301可以先获取用户在预设时间段的行为数据，接着，分析单元302分析该行为数据中的多个行为以及每个行为的对象内容，得到当前行为序列，然后，查找单元303根据该当前行为序列中的对象内容在预设信息库中查找满足预设条件的内容，得到相似对象内容，生成单元304再基于多个相似对象内容对用户行为生成相似行为序列，再然后，构建单元305利用该当前行为序列和该相似行为序列对用户进行画像构建，得到用户画像；由于该方案可以通过用户当前最新的主动行为序列分析行为之间的相似关系，得到用户主动行为的相似行为序列，可以基于主动行为序列和相似行为序列计算用户画像，避免了用户画像的单一，使得用户画像更加丰富，并且基于用户的相似行为序列进行计算用户画像，可以更准确地了解用户的一类兴趣，而不是局限于某一兴趣，可以使得用户画像的构建更加准确。

此外，本发明实施例还提供一种网络设备，如图4所示，其示出了本发明实施例所涉及的网络设备的结构示意图，具体来讲：

该网络设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图4中示出的网络设备结构并不构成对网络设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该网络设备的控制中心，利用各种接口和线路连接整个网络设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行网络设备的各种功能和处理数据，从而对网络设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据网络设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

网络设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该网络设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，网络设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，网络设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取用户在预设时间段的行为数据，接着，分析该行为数据中的多个行为以及每个行为的对象内容，得到当前行为序列，然后，根据该当前行为序列中的对象内容在预设信息库中查找满足预设条件的内容，得到相似对象内容，再基于多个相似对象内容对用户行为生成相似行为序列，再然后，利用该当前行为序列和该相似行为序列对用户进行画像构建，得到用户画像。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

由上可知，本实施例可以先获取用户在预设时间段的行为数据，接着，分析所述行为数据中的多个行为以及每个行为的对象内容，得到当前行为序列，然后，根据所述当前行为序列中的对象内容在预设信息库中查找满足预设条件的内容，得到相似对象内容，再基于多个相似对象内容对用户行为生成相似行为序列，再然后，利用所述当前行为序列和所述相似行为序列对用户进行画像构建，得到用户画像；由于该方案可以通过用户当前最新的主动行为序列分析行为之间的相似关系，得到用户主动行为的相似行为序列，可以基于主动行为序列和相似行为序列计算用户画像，避免了用户画像的单一，使得用户画像更加丰富，并且基于用户的相似行为序列进行计算用户画像，可以更准确地了解用户的一类兴趣，而不是局限于某一兴趣，可以使得用户画像的构建更加准确。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例还提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种用户画像的构建方法中的步骤。例如，该指令可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一种用户画像的构建方法中的步骤，因此，可以实现本发明实施例所提供的任一种用户画像的构建方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种用户画像的构建方法、装置和存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种用户画像的构建方法，其特征在于，包括：

获取用户在预设时间段的行为数据；

基于多个相似对象内容对用户行为生成相似行为序列；

2.根据权利要求1所述的方法，其特征在于，所述基于多个相似对象内容对用户行为生成相似行为序列，包括：

利用所述当前行为序列和多个相似对象内容计算用户对每个相似对象内容的偏好强度；

根据用户的偏好强度对用户行为进行预测，生成相似行为序列。

3.根据权利要求2所述的方法，其特征在于，所述利用所述当前行为序列和多个相似对象内容计算用户对每个相似对象内容的偏好强度，包括：

设置当前行为序列中行为的权重；

计算当前行为序列的每个对象内容与相似对象内容的相似性；

利用所述行为的权重和所述相似性计算用户对每个相似对象内容的偏好强度。

4.根据权利要求1所述的方法，其特征在于，所述根据所述当前行为序列中的对象内容在预设信息库中查找满足预设条件的内容，得到相似对象内容，包括：

采用向量训练模型将所述当前行为序列中的对象内容进行向量化，得到对象向量；

采用向量训练模型将预设信息库中的内容进行向量化，得到内容向量；

在所述预设信息库中查找与所述对象向量相似度大于预设阈值的内容向量，得到相似对象内容。

5.根据权利要求4所述的方法，其特征在于，所述采用向量训练模型将所述当前行为序列中的对象内容进行向量化，得到对象向量之前，还包括；

获取多组用户信息样本；

利用所述用户信息样本对预设向量模型进行训练，得到向量训练模型。

6.根据权利要求5所述的方法，其特征在于，每组用户信息样本包括多个行为样本和每个行为样本的对象样本，所述利用所述用户信息样本对预设向量模型进行训练，得到向量训练模型，包括：

采用预设向量模型分别构建行为样本和对象样本的矩阵，得到行为样本矩阵和对象样本矩阵；

对所述行为样本矩阵和对象样本矩阵进行计算，得到对象样本的预测值；

获取对象样本的真实值，根据所述对象样本的预测值和真实值对所述预设向量模型进行收敛，得到向量训练模型。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述分析所述行为数据中的多个行为以及每个行为的对象内容，得到当前行为序列，包括：

将获取到的行为数据发送到消息队列；

获取消息队列中的数据，将所述消息队列中的数据的多个行为以及每个行为的对象内容进行预设规则处理，得到当前行为序列。

8.根据权利要求1至6任一项所述的方法，其特征在于，所述利用所述当前行为序列和所述相似行为序列对用户进行画像构建，得到用户画像，包括：

获取当前行为序列的行为时间；

设置当前行为序列和相似行为序列中行为的权重；

根据行为的权重和行为时间的衰减，利用牛顿冷却定律对当前行为序列的对象内容和相似行为序列的对象内容进行计算，得到用户画像。

9.根据权利要求8所述的方法，其特征在于，所述根据行为的权重和行为时间的衰减，利用牛顿冷却定律对当前行为序列的对象内容和相似行为序列的对象内容进行计算，得到用户画像，包括：

将所述当前行为序列的对象内容进行语言信息处理，得到第一内容信息；

将所述相似行为序列的对象内容进行语言信息处理，得到第二内容信息；

根据行为的权重和行为时间的衰减，利用牛顿冷却定律对第一内容信息和第二内容信息进行计算，得到用户画像。

10.一种用户画像的构建装置，其特征在于，包括：

获取单元，用于获取用户在预设时间段的行为数据；