CN108334588A

CN108334588A - 一种用户标签构建方法及装置

Info

Publication number: CN108334588A
Application number: CN201810084131.0A
Authority: CN
Inventors: 马玉昆; 王帅
Original assignee: Beijing Sohu New Media Information Technology Co Ltd
Current assignee: Beijing Sohu New Media Information Technology Co Ltd
Priority date: 2018-01-29
Filing date: 2018-01-29
Publication date: 2018-07-27
Anticipated expiration: 2038-01-29
Also published as: CN108334588B

Abstract

本发明提供了一种用户标签构建方法及装置，该方法可通过分析访问文档的内容以及用户的行为特征，来计算访问文档所属类目的权重，进而利用权重选取用户标签以及用户标签的权重。基于本方法，全面刻画用户的阅读倾向，使用户标签体现用户文本阅读偏好，从而提高用户标签及其权重的准确性。

Description

一种用户标签构建方法及装置

技术领域

本发明涉及文本处理技术领域，更具体地说，涉及一种用户标签构建方法及装置。

背景技术

用户上网访问文本内容，例如新闻时，对于用户阅读偏好的及时感知是构建用户画像的一项重要内容，而构建用户画像的核心工作就是为用户添加用于体现其特征和属性的标签。

现阶段，主要按照如下过程构建用户标签：将用户浏览的文本所在原始页面分类确定用户标签，进一步从用户浏览的文本中抽取关键词，形成属于该用户的关键词词袋库，此时可直接统计关键词频率刻画用户关键词权重，从而计算标签权重。

但是，一方面仅利用原始页面分类确定用户标签并不准确，另一方面所抽取关键词的质量很大程度上决定了标签的质量，而关键词的质量是很难评估的，这就会导致所得到的标签权重不准确。

发明内容

有鉴于此，本发明提供一种用户标签构建方法及装置，以解决用户标签和标签权重不准确的问题。技术方案如下：

一种用户标签构建方法，包括：

获取目标用户在当前构建时段内的访问文档，并确定所述访问文档的所属类目；

计算所述访问文档在所述类目下的访问文档向量和行为特征向量，其中，所述访问文档向量用于表征访问文档内容，所述行为特征向量用于表征所述目标用户浏览所述访问文档的行为特征；

根据所述访问文档向量和所述行为特征向量，计算所述类目的权重；

依据所述类目的权重从所述类目中选取目标类目，并将所述目标类目的标签作为所述目标用户在所述当前构建时段内的用户标签、将所述目标类目的权重作为所述用户标签的权重。

优选的，所述计算所述访问文档在所述类目下的访问文档向量和行为特征向量，包括：

利用预设词向量转换模型，将所述访问文档转换为在所述类目下的访问文档向量；

确定所述访问文档在所述类目下的行为特征以及所述行为特征的行为特征频率；

利用预设行为特征向量转换模型，将所述行为特征转换为初始行为特征向量；

根据所述初始行为特征向量以及所述初始行为特征向量所对应的所述行为特征频率，计算所述访问文档在所述类目下的行为特征向量。

优选的，所述根据所述访问文档向量和所述行为特征向量，计算所述类目的权重，包括：

根据所述访问文档向量和所述行为特征向量，计算所述访问文档在所述类目下的融合特征向量；

依据所述融合特征向量计算所述类目的语义向量；

对所述语义向量进行归一化，并利用归一结果计算所述类目的权重。

优选的，还包括：

判断所述目标用户在下一构建时段内所浏览的访问文档中是否存在属于所述类目的访问文档；

若否，根据预设衰减因子对所述类目的权重进行衰减处理。

优选的，还包括：

根据所述用户标签的权重生成所述用户标签的权重走势图。

一种用户标签构建装置，包括：确定模块、第一计算模块、第二计算模块和选取模块；

所述确定模块，用于获取目标用户在当前构建时段内的访问文档，并确定所述访问文档的所属类目；

所述第一计算模块，用于计算所述访问文档在所述类目下的访问文档向量和行为特征向量，其中，所述访问文档向量用于表征访问文档内容，所述行为特征向量用于表征所述目标用户浏览所述访问文档的行为特征；

所述第二计算模块，用于根据所述访问文档向量和所述行为特征向量，计算所述类目的权重；

所述选取模块，用于依据所述类目的权重从所述类目中选取目标类目，并将所述目标类目的标签作为所述目标用户在所述当前构建时段内的用户标签、将所述目标类目的权重作为所述用户标签的权重。

优选的，所述第一计算模块，具体用于：

利用预设词向量转换模型，将所述访问文档转换为在所述类目下的访问文档向量；确定所述访问文档在所述类目下的行为特征以及所述行为特征的行为特征频率；利用预设行为特征向量转换模型，将所述行为特征转换为初始行为特征向量；根据所述初始行为特征向量以及所述初始行为特征向量所对应的所述行为特征频率，计算所述访问文档在所述类目下的行为特征向量。

优选的，所述第二计算模块，具体用于：

根据所述访问文档向量和所述行为特征向量，计算所述访问文档在所述类目下的融合特征向量；依据所述融合特征向量计算所述类目的语义向量；对所述语义向量进行归一化，并利用归一结果计算所述类目的权重。

优选的，所述第二计算模块，还用于：

判断所述目标用户在下一构建时段内所浏览的访问文档中是否存在属于所述类目的访问文档；若否，根据预设衰减因子对所述类目的权重进行衰减处理。

优选的，还包括：生成模块；

所述生成模块，用于根据所述用户标签的权重生成所述用户标签的权重走势图。

相较于现有技术，本发明实现的有益效果为：

以上本发明提供的一种用户标签构建方法及装置，该方法可通过分析访问文档的内容以及用户的行为特征，来计算访问文档所属类目的权重，进而利用权重选取用户标签以及用户标签的权重。基于本方法，全面刻画用户的阅读倾向，使用户标签体现用户文本阅读偏好，从而提高用户标签及其权重的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的用户标签构建方法的方法流程图；

图2为本发明实施例提供的用户标签构建方法的部分方法流程图；

图3为本发明实施例提供的用户标签构建方法的另一部分方法流程图；

图4示出一种权重走势图；

图5为本发明实施例提供的用户标签构建装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

用户画像：是根据用户社会属性、生活习惯和消费行为等信息而抽象出来的一个标签化的用户模型，构建用户画像的核心工作即是给用户贴“标签”。

用户标签：是通过对用户信息分析而来的高度精炼的特征标识，一个用户所带来的标签既可以体现其普遍的特征和属性，又可以表征用户专有的特殊属性。

行为特征：一个用户在一段时间内访问某一个网页或者APP所产生的时间维度上的行为序列，如访问、收藏、分享、搜索和浏览时长等，用户在每个时刻所产生的行为都可以通过日志记录，这样一个用户完成一次或者多次访问就可以产生一系列的行为特征。

本发明实施例提供一种用户标签构建方法，该方法的方法流程图如图1所示，包括如下步骤：

S10，获取目标用户在当前构建时段内的访问文档，并确定访问文档的所属类目；

本实施例中，可利用目标用户的标识，比如用户名从文本内容管理库中获取当前构建时段内的访问文档，比如，一个用户在当前阅读时段内阅读了六篇文档。进一步利用访问文档的标识，比如文档标题或者文档摘要等确定访问文档的所属类目，比如，文档1和文档2属于类目1，文档3和文档4属于类目2，文档5和文档6属于类目3。

S20，计算访问文档在类目下的访问文档向量和行为特征向量，其中，所述访问文档向量用于表征访问文档内容，所述行为特征向量用于表征目标用户浏览访问文档的行为特征；

本实施例中，每一个访问文档都存在对应的内容以及用户浏览后留下的行为特征，而针对每一个访问文档，都可以计算其在所属类目下的访问文档向量和行为特征向量。

具体实现过程中，步骤S20中“计算访问文档在类目下的访问文档向量和行为特征向量”可以具体采用以下步骤，方法流程图如图2所示：

S201，利用预设词向量转换模型，将访问文档转换为在类目下的访问文档向量；

本实施例中，预设词向量转换模型可为Doc2vector模型，以下对Doc2vector模型进行简单介绍：

Doc2vector模型是Word2vector模型在整个文档上的拓展，目的是通过神经网络的方法将一个文档转换为一个固定长度的向量表示。而Word2vector模型则是一种通过神经网络的方法来对单词的语言模型进行训练并由此得到单词所对应向量表示的方法。

S202，确定访问文档在类目下的行为特征以及行为特征的行为特征频率；

本实施例中，可利用访问文档的标识，比如文档标题或者文档摘要等从用户访问日志中获取目标用户在浏览该访问文档时所产生的行为特征，并统计行为特征所出现的频率，即行为特征频率，比如，目标用户在浏览doc1时所产生的行为特征分别为k、k2、k3和k4，行为特征的频度分别为n1、n2、n3和n4，相应的，行为特征频率分别为f1、f2、f3和f4；其中，f1＝n1/n2+n3+n4、f2＝n2/n1+n3+n4、f3＝n3/n1+n2+n4、f4＝n4/n1+n2+n3。

S203，利用预设行为特征向量转换模型，将行为特征转换为初始行为特征向量；

本实施例中，预设行为特征向量转换模型可为feature2vector模型，以下对feature2vector模型进行简单介绍：

feature2vector模型是基于Word2vector模型的思想，将行为特征用向量进行表示的方法，使用方法与Word2vector模型一样，不同的是Word2vector模型是针对单词的，而feature2vector模型则是针对行为特征的。

S204，根据初始行为特征向量以及初始行为特征向量所对应的行为特征频率，计算访问文档在类目下的行为特征向量；

本实施例中，可将初始行为特征向量与相应行为特征频率的乘积之和作为行为特性向量。

比如，目标用户在浏览doc1时所产生的行为特征分别为k1，k2，k3和k4、行为特征频率分别为f1，f2，f3和f4、初始行为特征向量分别为vv1、vv2、vv3和vv4，则访问文档在类目下的行为特征向量为f1*vv1+f2*vv2+f3*vv3+f4*vv4。

S30，根据访问文档向量和行为特征向量，计算类目的权重；

本实施例中，可将访问文档向量和特征行为向量进行融合，进而利用目标用户在某一类目下所有访问文档的融合结果计算该类目的权重。

具体实现过程中，步骤S30“根据访问文档向量和行为特征向量，计算类目的权重”可以具体采用以下步骤，方法流程图如图3所示：

S301，根据访问文档向量和行为特征向量，计算访问文档在类目下的融合特征向量；

本实施例中，可按照访问文档向量和行为特征向量各自的预设权重进行融合，当然，预设权重可人为给定，还可通过标签验证进行设定，本实施例不做具体限定。

进一步，可按照如下公式(1)计算融合特征向量：

V＝A*a+B*b (1)

其中，V为融合特征向量，A为访问文档向量，a为访问文档向量所对应的预设权重，B为行为特征向量，b为行为特征向量所对应的预设权重，其中，a+b＝1。

S302，依据融合特征向量计算类目的语义向量；

本实施例中，可按照浏览时长和浏览次数为类目下的访问文档赋予相应权重，比如，访问文档doc1的融合特征向量为V1、权重为w1，访问文档doc2的融合特征向量为V2、权重为w2，则类目的语义向量可按照如下公式(2)进行计算：

W＝V1*w1+V2*w2 (2)

其中，w1+w2＝1。

S303，对语义向量进行归一化，并利用归一结果计算类目的权重；

本实施例中，可从语义向量中选取最大值和最小值，进而使用最大最小归一化方法对语义向量进行归一化，比如，所选取的最大值为c、最小值为d，则语义向量为e的归一化结果为e-d/c-d。

进一步，计算归一化结果的L2范数，并将L2范数作为类目的权重，以下对L2范数进行简单介绍：

L2范数，也称为Euclid范数，常用于计算向量长度，等于向量绝对值的开方和再开方。

当然，为保证权重更新的及时性，可进一步判断目标用户在下一构建时段内所浏览的访问文档中是否存在属于该类目的访问文档；若否，则根据预设衰减因子对类目的权重进行衰减处理；若是，则不执行任何操作。

S40，依据类目的权重从类目中选取目标类目，并将目标类目的标签作为目标用户在当前构建时段内的用户标签、将目标类目的权重作为用户标签的权重；

在执行步骤S40的过程中，可选取权重最大的类目作为目标类目，当然，还可选取权重大于权重阈值的类目作为目标类目，本实施例对此不做具体限定，可根据实际需要进行设置。

此外，为展示用户标签的权重走势，在图1所示出的用户标签构建方法的基础上，还包括如下步骤：

根据用户标签的权重生成用户标签的权重走势图。

本实施例中，权重走势图为构建时段与权重的二维图，图4示出权重走势图的一个示例。

以上步骤S201～步骤S204仅仅是本申请实施例公开的步骤S20“计算访问文档在类目下的访问文档向量和行为特征向量”过程的一种优选的实现方式，有关此过程的具体实现方式可根据自己的需求任意设置，在此不做限定。

以上步骤S301～步骤S303仅仅是本申请实施例公开的步骤S30“根据访问文档向量和行为特征向量，计算类目的权重”过程的一种优选的实现方式，有关此过程的具体实现方式可根据自己的需求任意设置，在此不做限定。

本实施例提供的用户标签构建方法，可通过分析访问文档的内容以及用户的行为特征，来计算访问文档所属类目的权重，进而利用权重选取用户标签以及用户标签的权重。基于本方法，全面刻画用户的阅读倾向，使用户标签体现用户文本阅读偏好，从而提高用户标签及其权重的准确性。

基于上述实施例所提供的用户标签构建方法，本发明实施例则对应提供执行上述用户标签构建方法的装置，该装置的结构示意图如图5所示，包括：确定模块10、第一计算模块20、第二计算模块30和选取模块40；

确定模块10，用于获取目标用户在当前构建时段内的访问文档，并确定访问文档的所属类目；

第一计算模块20，用于计算访问文档在类目下的访问文档向量和行为特征向量，其中，所述访问文档向量用于表征访问文档内容，所述行为特征向量用于表征目标用户浏览访问文档的行为特征；

第二计算模块30，用于根据访问文档向量和行为特征向量，计算类目的权重；

选取模块40，用于依据类目的权重从类目中选取目标类目，并将目标类目的标签作为目标用户在当前构建时段内的用户标签、将目标类目的权重作为用户标签的权重。

在其他一些实施例中，第一计算模块20，具体用于：

利用预设词向量转换模型，将访问文档转换为在类目下的访问文档向量；确定访问文档在类目下的行为特征以及行为特征的行为特征频率；利用预设行为特征向量转换模型，将行为特征转换为初始行为特征向量；根据初始行为特征向量以及初始行为特征向量所对应的行为特征频率，计算访问文档在类目下的行为特征向量。

在其他一些实施例中，第二计算模块30，具体用于：

根据访问文档向量和行为特征向量，计算访问文档在类目下的融合特征向量；依据融合特征向量计算类目的语义向量；对语义向量进行归一化，并利用归一结果计算类目的权重。

优选的，第二计算模块30，还用于：

判断目标用户在下一构建时段内所浏览的访问文档中是否存在属于类目的访问文档；若否，根据预设衰减因子对类目的权重进行衰减处理。

在其他一些实施例中，为展示用户标签的权重走势，在图5所示出的用户标签构建装置的基础上，还包括如下模块：

生成模块，用于根据用户标签的权重生成用户标签的权重走势图。

本发明实施例所提供的用户标签构建装置，可通过分析访问文档的内容以及用户的行为特征，来计算访问文档所属类目的权重，进而利用权重选取用户标签以及用户标签的权重。基于本方法，全面刻画用户的阅读倾向，使用户标签体现用户文本阅读偏好，从而提高用户标签及其权重的准确性。

以上对本发明所提供的一种用户标签构建方法及装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素，或者是还包括为这些过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种用户标签构建方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述计算所述访问文档在所述类目下的访问文档向量和行为特征向量，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述访问文档向量和所述行为特征向量，计算所述类目的权重，包括：

依据所述融合特征向量计算所述类目的语义向量；

4.根据权利要求3所述的方法，其特征在于，还包括：

若否，根据预设衰减因子对所述类目的权重进行衰减处理。

5.根据权利要求1所述的方法，其特征在于，还包括：

根据所述用户标签的权重生成所述用户标签的权重走势图。

6.一种用户标签构建装置，其特征在于，包括：确定模块、第一计算模块、第二计算模块和选取模块；

7.根据权利要求6所述的装置，其特征在于，所述第一计算模块，具体用于：

8.根据权利要求6所述的装置，其特征在于，所述第二计算模块，具体用于：

9.根据权利要求8所述的装置，其特征在于，所述第二计算模块，还用于：

10.根据权利要求6所述的装置，其特征在于，还包括：生成模块；