CN110751188A

CN110751188A - 基于多标记学习的用户标签预测方法、系统及存储介质

Info

Publication number: CN110751188A
Application number: CN201910916923.4A
Authority: CN
Inventors: 黄晋; 于晗宇; 朱佳
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2019-09-26
Filing date: 2019-09-26
Publication date: 2020-02-04
Anticipated expiration: 2039-09-26
Also published as: CN110751188B

Abstract

本发明公开了基于多标记学习的用户标签预测方法、系统及存储介质，方法包括：对原始社交网络用户数据集进行转化，得到描述用户对象的特征数据集和标识用户对象的标签数据集；根据用户对象的特征数据集，构建用户对象的特征链；对特征链进行编码，获取特征链的表示向量；对特征链的表示向量进行解码，生成蕴含用户标签信息的隐藏向量；根据隐藏向量，生成实际的用户标签。本发明考虑了用户特征和用户标签之间的联系以及用户标签和用户标签之间的关系，提高了标签预测的准确率，可广泛应用于社交网络领域。

Description

基于多标记学习的用户标签预测方法、系统及存储介质

技术领域

本发明涉及社交网络领域，尤其是基于多标记学习的用户标签预测方法、系统及存储介质。

背景技术

当前随着社交网络的出现和快速发展，在国外出现了如Facebook、Twitter和YouTube这样拥有广泛用户的社交网站，国内也出现了类似的，如新浪微博，腾讯微博等新兴社交网络网站。社交网络作为一种传播信息，和朋友联系互动等社交行为的媒介，在日常生活中有非常重要的作用。在社交网络中有一项重要的任务，就是定义社交网络中活动单位——用户的各类标签，比如是用户的兴趣标签、个性标签以及好友关系标签。兴趣标签能反应用户对特定类别信息的关注；个性标签能够反应用户的独特属性，好友关系标签能够反应用户的社交网络。由此可以看出用户标签综合反映了用户在社交网络环境下的个性化特征，借此能广泛的开展兴趣推荐、行为预测、情感分类等任务，帮助服务提供商更好的进行商品推荐、新闻推送以及构建用户画像。此外，随着各种社交网络应用工具的丰富，社交类型也越来越多样化，单个标签已无法满足社交网络中用户日益增长的多元个性化需求。因此，社交网络环境下的用户多标签分类研究得到了越来越多的关注。

当前，存在着一些对社交网络中用户标签的预测方法。例如一种借助LDA(LatentDirichlet Allocation)主题模型的算法可以处理用户发表的微博，从而提取出用户潜在的喜好标签。此外一种计算KL散度的方法能从用户已有好友关系的基础上计算出当前用户与其他好友的喜好相似度，喜好越相似，对目标用户的影响程度越大，从而使得噪音连接(大众关系)影响力降低，并最终得到降噪关系(用户好友标签)。

预测社交网络中新用户的用户标签，在形式上可以认为每个用户是一个对象，因此就能使用若干维的特征向量来描述对象，同时对用户对象的用户标签也可以使用多个0-1标签来进行简洁高效的标识。在这种推理下，用户转变为用户对象，有描述用户对象的特征和标识用户对象的标签，其特征和标签集都指向同一个用户对象，含有相同的潜在对象含义，因此存在着从用户对象的特征转变到用户对象的标签的可能性。以上的描述和推理符合多标记学习的定义——多标记学习是一种特定的学习任务，其中每个训练对象不仅被若干维的特征向量所描述，同时还被一组标签所标记，该目标就是学习一个能够对未知新对象预测其合适标签集的模型。因此本发明提出对社交网络中的用户标签预测问题使用多标记学习方法来进行建模，使其能更广泛和高效的预测未知用户的标签。

在过去的几十年间，针对多标记学习问题，许多方法被提出。ML-KNN是一种使用最大化后验概率来决定每个未知对象的标记集的最近邻方法；此外，LIFT方法通过对对象的正面和负面标签进行聚类分析，构建每个标签特有的特征，然后通过查询聚类结果来预测标签；分类器链是多标记学习中的高阶方法，将多标记学习任务转换为二元分类链，以模拟标签之间的相关性。这里，给出多标记学习中标签间关系的定义：一阶关系：只关注单一的标签，忽略标签之间的关系；二阶关系：只关注两两标签之间的关系，不考虑三者或以上的标签间关系；高阶关系：关注所有标签之间的互相关系。然而，以上提出的这些方法只能捕获有限的一阶或二阶标签间关系，可能无法全面的反应现实环境下用户标签联系；或者考察高阶标记关系方法的计算复杂度随着标签数量的增加而指数级增长，难以计算和大规模实施。

发明内容

有鉴于此，本发明实施例提供一种准确率高的，基于多标记学习的用户标签预测方法、系统及存储介质。

一方面，本发明实施例提供了一种基于多标记学习的用户标签预测方法，包括以下步骤：

对原始社交网络用户数据集进行转化，得到描述用户对象的特征数据集和标识用户对象的标签数据集；

根据用户对象的特征数据集，构建用户对象的特征链；

对特征链进行编码，获取特征链的表示向量；

对特征链的表示向量进行解码，生成蕴含用户标签信息的隐藏向量；

根据隐藏向量，生成实际的用户标签。

进一步，所述对原始社交网络用户数据集进行转化，得到描述用户对象的特征数据集和标识用户对象的标签数据集这一步骤，包括以下步骤：

对原始社交网络用户数据集进行初步清洗，得到用户特征数据集；

对用户特征数据集进行归一化处理，得到用户对象的特征向量数据集；

对原始社交网络用户数据集中的用户标签数据集进行过滤，获得用户对象的标签数据集。

进一步，所述根据用户对象的特征数据集，构建用户对象的特征链这一步骤，包括以下步骤：

基于预设比例，将用户特征数据集拆分为训练特征-标签集、验证特征-标签集和推理测试特征-标签集；

根据训练特征-标签集中的特征数据集构建用户对象的最近邻图；

根据最近邻图获得稀疏矩阵；

根据最近邻图和稀疏矩阵，查询用户对象的最近邻用户对象；

获取每个最近邻用户对象的特征向量集；

根据最近邻用户对象的特征向量集与当前用户对象的特征向量之间的相似程度，构建初步特征链；

把当前用户对象的特征向量插入初步特征链，得到最终的特征链。

进一步，所述对特征链进行编码，获取特征链的表示向量这一步骤，包括以下步骤：

使用带双向循环的长短期神经网络来对特征链进行编码，从正向和反向分别获得每一时刻的隐藏向量；

将每一时刻的正向隐藏向量和反向隐藏向量进行级联，得到该时刻特征链的表示向量。

进一步，所述对特征链的表示向量进行解码，生成蕴含用户标签信息的隐藏向量这一步骤，包括以下步骤：

对原始社交网络的用户对象的标签数据集进行标签统计，并重新排列标签顺序，生成用户标签集；

在用户标签集的标签序列中添加序列开始符和序列终止符；

通过交叉熵损失函数计算预测的用户标签与实际的用户标签之间差距损失，并使用Adam优化器反向传播来优化基于训练特征-标签集的模型参数；

根据验证特征-标签集对模型的衡量指标，适时生成蕴含用户标签信息的隐藏向量。

进一步，还包括以下步骤：

将每个时刻预测得到的标签进行融合处理，并根据融合处理的结果继续预测下一标签。

第二方面，本发明实施例还提供了一种基于多标记学习的用户标签预测系统，包括：

数据预处理模块，用于对原始社交网络用户数据集进行转化，得到描述用户对象的特征数据集和标识用户对象的标签数据集；

特征链构建模块，用于根据用户对象的特征数据集，构建用户对象的特征链；

编码器模块，用于对特征链进行编码，获取特征链的表示向量；

标签生成解码模块，用于对特征链的表示向量进行解码，生成蕴含用户标签信息的隐藏向量；

用户标签生成模块，用于根据隐藏向量，生成实际的用户标签。

进一步，还包括：

全局标签信息模块，用于将每个时刻预测得到的标签进行融合处理，并根据融合处理的结果继续预测下一标签。

第三方面，本发明实施例还提供了一种基于多标记学习的用户标签预测系统，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现所述的基于多标记学习的用户标签预测方法。

第四方面，本发明实施例还提供了一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行所述的基于多标记学习的用户标签预测方法。

上述本发明实施例中的一个或多个技术方案具有如下优点：本发明的实施例通过对原始社交网络用户数据集进行转化，得到描述用户对象的特征数据集和标识用户对象的标签数据集，接着构建用户对象的特征链，然后获取特征链的表示向量和用户标签信息的隐藏向量，最后生成实际的用户标签；本发明考虑了用户特征和用户标签之间的联系以及用户标签与标签之间的对应关系，提高了标签预测的准确率。

附图说明

图1为本发明的整体步骤流程图；

图2为本发明实施例的步骤流程示意图。

具体实施方式

下面结合说明书附图和具体实施例对本发明作进一步解释和说明。对于本发明实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

如图1所示，本发明实施例提供了一种基于多标记学习的用户标签预测方法，包括以下步骤：

根据用户对象的特征数据集，构建用户对象的特征链；

对特征链进行编码，获取特征链的表示向量；

根据隐藏向量，生成实际的用户标签。

进一步作为优选的实施方式，所述对原始社交网络用户数据集进行转化，得到描述用户对象的特征数据集和标识用户对象的标签数据集这一步骤，包括以下步骤：

进一步作为优选的实施方式，所述根据用户对象的特征数据集，构建用户对象的特征链这一步骤，包括以下步骤：

根据最近邻图获得稀疏矩阵；

获取每个最近邻用户对象的特征向量集；

进一步作为优选的实施方式，所述对特征链进行编码，获取特征链的表示向量这一步骤，包括以下步骤：

进一步作为优选的实施方式，所述对特征链的表示向量进行解码，生成蕴含用户标签信息的隐藏向量这一步骤，包括以下步骤：

在用户标签集的标签序列中添加序列开始符和序列终止符；

进一步作为优选的实施方式，还包括以下步骤：

本发明实施例还提供了一种基于多标记学习的用户标签预测系统，包括：

进一步作为优选的实施方式，还包括：

下面结合说明书附图2，详细描述本发明对社交网路中用户标签的预测方法具体实施方式为：

1)用户数据预处理模块：

步骤S1：对于获取的社交网络用户相关数据集，所述的用户数据预处理模块对该社交网络中用户相关数据集进行预处理，转变得到用户对象数据集，包含对每个用户对象描述的特征数据集，还包含对每个用户对象标记的0-1标签集。

优选的，本实施例的用户数据预处理模块对用户数据进行预处理具体为：

从第三方获取可用的某社交网站微博用户数据集，观察其用户特征数据集，可得知，对于每一个用户对象，该数据集中包含但不仅限于有用户对象的以下特征信息：昵称，用户ID，性别，年龄，注册时间，使用时间，关注人数，粉丝个数，注册所在地，登录方式，会员与否，认证用户与否，微博条数……，以上包含对每个用户对象描述的几十条个人特征信息，可以从原特征项继续进行计算分化，例如发表微博数可以分化为原创微博数，转发微博数……把以上每个用户的特征信息进行数值化，例如性别分为0(女)，1(男)，2(其他)；注册地点使用该地区前3位的区号等，此外剔除一些无法转化为数值的特征项，如昵称等固定字符信息，同时过滤掉一些特征项缺省比较多的用户对象(缺省项个数达到总特征项个数10％以上)。最后可以得到每个用户固定的几百条个人特征项信息，该特征数据集的每个特征项都是具体的数值信息，考虑到模型计算的高效性，对所有特征信息采用统一衡量标准进行归一化(每个特征项的数值信息映射为0到1之间的小数，保留小数点后三位)，把有量纲表达式变为无量纲表达式。把用户的特征项信息项转化为特征向量，就可以使用特征向量来描述用户对象，得到最终描述用户对象的特征数据集其中u为用户对象的个数，n为每个用户对象特征向量的维度大小；

同时观察获取的用户标签数集，可得知，对每一个用户对象，会包含但不仅限于以下具体的标签：原创微博内容相关主题(美食，运动，新闻，音乐等)，好友关系(是否有@其他人)，转发内容(音乐链接，美食链接)，原创微博内容是否包含一些关键字(开心，笑，哭等)等。最终选定了若干个用户标签(包括但不仅限于美食，运动，新闻，音乐，@好友，愉悦，悲伤等)，形成了一个固定的用户标签集。对于每一个用户来说，用户对象含有这个标签，即标记为1；没有这个标签，即标记为0。如对一个具体用户的标签来说，用以上列举的若干个用户标签为例，他的部分标签可能是：[1,1,1,0,0,1,0]，即对应该用户[含有美食标签，含有运动标签，不含有新闻标签，不含有音乐标签，不含有@好友标签，含有愉悦标签，不含有悲伤标签]。因此能把固定名称的用户标签转化为0-1标签，这样能高效计算并预测用户的标签。最终得到标识用户对象的0-1标签集其中u为用户对象的个数，m为每个用户对象的标签个数。

2)特征链编码器模块

步骤S2：所述特征链编码器模块捕获每个用户对象和与该用户对象在特征向量上最相似的k个最近邻用户对象，按照特定排列方式把这些用户对象的特征向量排列成特征链，特征链编码器读入特征链，使用双向循环神经网络Bi-LSTM编码该特征链，最后输出一个表示向量；

优选的，本实施例的特征链编码模块构建特征链并编码特征链，最后形成表示向量的过程为：

对于从用户数据预处理模块获取的特征数据集，每一个用户对象对应一个特征向量F＝{f₁,f₂,…,f_i,…,f_n}，其中f_i表示用户对象的某一个特征项归一化值，所在的特征数据集中用户一共有n个特征项，每个用户对象就有一个n维的特征向量F。

将用户数据集和对应的用户标签数据集按照90％:：％1：9％的比例(即预设比例)随机划分为训练特征-标签数据集T，验证特征-标签数据集V，推理特征-标签数据集I。因此能获取训练特征-标签数据集

其中的训练特征数据集是u_t*n的矩阵，其中u_t表示训练集中用户对象的个数，n表示每个用户对象特征向量的维度大小；

优选的，本实施例将训练特征-标签数据集中的训练特征数集

(u_t*n矩阵)构建成为一个带权重的用户对象最近邻图G＝(V,E)，其中V表示图中的顶点集合，E表示图中的边集合。在图G中每个顶点v_i代表一个用户对象，顶点v_i和顶点v_j之间的边e_ij表示两个用户对象之间的联系，边e_ij上的权重表示和顶点(用户对象)v_i，v_j对应的特征向量F_i和F_j的相似程度，其相似程度的用数值来计算衡量，计算公式为欧几里得距离(Euclidean Metric)，具体为:

因此可以从构建好的图G中获得一个大小为u_t*u_t的稀疏矩阵N，表明用户对象和其他用户对象之间的相似性，表达如下：

其中，K_i是第i个用户对象的k个特征向量最相似的用户对象集合，||v_i-v_j||表示顶点v_i和顶点v_j之间的欧几里得距离，α为两个顶点之间经验估计值，取常数。其中有

因此可以得出

为了减小在图G中找到每个用户对象的前k个特征最近邻的计算花费，特别是在用户对象的特征向量为高维向量的情况下(向量维度超过500维)，使用了球树(Ball-Tree)算法高效的构建带权重图G和搜索每个用户对象的k个特征向量相似的用户对象。

对于一个用户对象U_i，获取它的描述特征向量F_i，可以从最近邻邻图G中获得与它在特征向量上最相似的k个用户对象及其特征向量集F_set＝{F₁,D₂,…,F_k}。特别的，将这个特征向量集按照和当前用户对象U_i的特征向量F_i的相似程度(欧几里得距离值)的大小，从小到大依次排列，得到具有顺序信息的(和当前用户对象的欧几里得距离，由小到大的顺序)的初步特征链。进一步的，把当前用户对象的特征向量插入到初步特征链中，得到最终的特征链

此构造的特征(向量)链包含了当前用户对象和它的k个特征向量最近邻的潜在含义。

使用一个带双向循环的长短期神经网络Bi-LSTM的特征链编码器来编码构建的特征链，从前向和后向来捕获这些特征的潜在含义，计算当前用户对象U_i的特征向量和k个特征向量最近邻用户对象的特征向量组成的特征链F_chain的综合表示向量，计算如下：

之后通过级联前向和后向的表示向量来综合的输出该特征链的最终表示向量

该特征链编码器输出的表示向量h_＝能体现以该用户对象U_i的特征向量F_i为中心的特征向量链的综合序列信息，表示了该特征向量特征链的潜在含义。

3)全局标记信息模块

步骤S3：所述的全局标签信息模块动态存储标签生成解码器在每一时刻预测出来的标签，之后融合这些已经预测出来的标签，反馈给标签生成解码模块，能有助于缓解标签错误级联问题，同时引入高阶标签关系，较好的预测生成用户标签。

优选的，本实施例的全局标签信息模块存储并融合标签来辅助标签生成解码器模块预测生成标签的过程如下；

在通常情况下，标签生成解码模块获取由特征链编码器模型输出的特征链表示向量，依据这个向量，顺序的预测生成用户标签，这个过程是自回归的，也就是每个时刻标签生成解码器模块都会消耗前一时刻解码出来的标签，贪婪地利用上一个预测出来的标签来解码生成下一个时刻的标签。标签生成解码模块利用单向循环长短期神经网络LSTM在t时刻生成的隐藏状态计算公式如下：s_t＝LSTM(s_t-1,E_t-1,h_2k)。其中s_t-1为上一个时刻解码器的隐藏状态；

为上一个时刻解码器预测出来标签的词嵌入，大小为1*M，其维度和特征向量的维度一致；h_2k是特征链编码最后输出的表示向量。

上述在正常情况下，标签生成解码模块预测生成每一个标签，是基于上一个预测的标签的，也就是贪婪地利用了上一个时刻的标签来生成当前标签，但是当前是对现实世界的社交网路用户标签问题进行建模，标签生成解码器可能会在某一个时刻预测错误，那么就会导致标签生成解码器在后续的时刻也预测错误，随之会得到一系列可能预测错误的标签，这叫做错误级联问题(也称为exposure bias)，传统方法通过波束搜索(beamsearch)可以在模型推理阶段被动的缓解这个问题。但是不能在模型的训练阶段就主动去的缓解这种问题。除此之外多标记学习还要重点考察标记之间的关系才能更好的反应标签之间的联系，按照原始解码器的方法，当前解码只依赖(或者是强依赖于)于上一个时刻预测出来的标签，没有能很好的考虑到标记之间存在的高阶关系。因此基于以上分析，本发明提出了全局标签信息模块。

全局标签信息模块就是存储标签解码器在每个时刻预测出来的标签，并且把这些标签融合，其计算公式为：

其中，

为已经预测出的前i个标签的融合嵌入向量，w_merge为权重矩阵，大小为i*1，b_merge为偏置向量，大小为1。

4)标签生成解码器模块

步骤S4：所述的标签生成解码模块接收来自特征链编码器模块输出的特征链嵌入表示向量，在和全局标签信息模块的交互辅助下，顺序的生成一系列包含预测标签信息的神经网络的隐藏状态。

优选的，本实施例描述标签生成解码模块接受计算来自特征链编码器模块输出的特征链嵌入表示向量，并在和全局标签信息模块的交互辅助下，顺序的生成一系列的神经网络隐藏状态的过程如下：

对于从用户数据预处理模块获取的标签数据集，在将其切分为训练，验证和测试用途的三个不同标签集之前，需要对标签集做标签顺序处理和添加标签序列开始符和结束符。具体的，原始的标签数据集中，标签集中每个标签的先后关系是没有规律的，在对每一个用户的标签集打上标记序号之后(标记为1或者0)，当前用户的标签集就能够从某种程度上反应整个用户对象全部标签分布情况，因此对整个已经标记的用户标签集按照标签出现的频率进行排序。

进一步的，对于原始的用户对象标签集L_set，统计计算每一列(即为每一个具体标签)下标记为1的个数，按照标记为1的个数多少，从高到底降序排列，形成新的用户标签集L′_set，这个新的用户对象标签集能在一定程度上反应全部用户对象的标签分布情况，能有助于模型的训练，验证和推理过程。进一步的对于用户对象U的标签序列l＝[l₁,l₂,…,l_m]，需要在序列的前后加上序列开始符BOS和序列终止符EOS——序列开始符BOS是诱导模型能从一个无意义的开始标签BOS生成下一个有实际意义的标签，告诉标签生成解码器从什么地方开始解码；序列终止符EOS是截断模型超过实际标签个数的无意义解码过程，告诉标签生成解码器从什么地方结束解码。因此用户对象U的标签序列就变为I＝[BOS,l₁,l₂,…,l_m,SOS]，那么整个用户对象的标签集就变为

进一步的，特征链编码器模块在最后时刻输出当前用户对象U的特征链的表示向量h_2k，表示了用户对象U特征链的潜在含义。全局标签信息模块会与标签生成解码模型交互标签信息，存储并融合标签生成解码器模块预测出来的标签，再反馈给标签生成解码器。因此标签生成解码器在某一个时刻的神经网络隐藏状态可以表示为

其中

是由全局标签信息模块收集存储标签生成解码模块已经预测出来的(t-1)个用户标签。在t时刻解码器输出的隐藏状态s_t蕴含着在该时刻解码器预测出来的标签，将会由用户标签生成模块转化为可以理解阅读和使用的预测用户标签。

当前由用户数据预处理模块，特征链编码器模块，全局标签信息模块和标签生成解码器模块组成的对用户标签预测的多标记模型，在训练阶段，对标签生成解码器模块预测生成的“预测标签”，将会和真实的实际标签进行比较，使用交叉熵损失函数计算二者之间的损失，具体的计算公式如下：其中x表示标签生成解码模型预测出的标签向量，class表示真实的用户对象标签。此计算出来的损失loss会使用Adam优化器反向传播，更新以上模块的权重参数(只含特征链编码器模块，全局标签信息模块，标签生成解码模块)，使模型学习根据特征链的输出的特征链表示向量和全局标签信息，更加准确的预测生成用户的标签；

在每一个轮次训练结束后，使用验证集数据来检验模型的性能，考察标签生成解码器预测生成的标签和正确标签之间的损失以及其他相关指标；当模型训练部分的损失下降趋势不再明显，在一个数值上下震荡时，同时模型对验证集的损失也不再有明显变化，其他指标趋于稳定时，停止模型训练，存储模型参数，进入用户标签推理预测阶段；在模型推理预测用户标签的阶段，对于未知用户标签的用户对象U′,通过Ball-tree算法高效的从用户对象最近邻图G和稀疏矩阵N中获取其k个特征向量最相似的用户对象，按照既定的方式组织成特征链F′_chain，送入特征链编码器中编码，特征链编码器输出该特征链的的表示向量h′_2k，标签生成解码读入该表示向量，在和全局标签信息模块交互下，推理预测生成蕴含用户标签的隐藏状态s′，解码器在推理预测生成标签到序列终止符EOS或者到达标签集的最大长度m+2，就会终止解码。下一步将会由用户标签生成模型转化为可以阅读理解和计算模型性能表现的对当前用户对象U′预测的0-1标签集。

5)用户标签生成模块

步骤S5：所述的用户标签生成模块接收来自标签生成解码器推理预测的蕴含用户标签信息的向量，将其转化为实际可读的用户标签。

进一步的，本实施例描述用户标签生成模块在模型推理预测阶段接收来自标签生成解码器模块推理预测生成的蕴含用户标签信息的向量，将其转化为实际可读的用户标签的过程如下：

在模型的预测推理阶段，由特征链编码器模块，全局标签信息模块和标签生成解码器模块三者组合，对于未知用户标签的用户对象U，编码由其特征向量构建的特征链向量，解码出对其推理的蕴含预测用户标签信息的隐藏状态

其中l′_set是对当前用户对象U预测出来的用户标签个数，n是每个预测标签向量的维度，和特征维度大小一致，去除了序列开始符BOS和序列结束符EOS对应的无意义标签向量。以上的隐藏向量s将会经过一下计算转化提取得到最后推理预测的用户标签，计算公式为：其中

是隐藏状态s的转化权重矩阵，

是偏置向量；经过上述转化之后，得到蕴含用户表示向量，大小为l′_set*m，再经过softmax公式转化为概率，使用top_k的操作选择最大概率对应的某一标签，最终就可以获得对用户对象U推理预测的用户标签集L′_set＝[l₁,l₂,…,l_m]。

参照图2，下面将本发明基于多标记学习的用户标签预测方法的整体步骤汇总如下：

步骤S1，采用用户数据预处理模块转化原始的社交网络用户数据集，包括以下步骤：

步骤1)对用户数据集中的用户特征数据集，将用户的各类特征属性项执行计算分化，字符到数值的转移，过滤去除特征属性缺省项等操作，获得初步清洗后的用户特征数据集；

步骤2)对以上获得的已清洗的用户特征数据集，采用统一标准的归一化方法，将每个具体的用户特征属性项转化为在0到1之间保留小数点后三位的数值，由此可获得描述用户对象的特征向量数据集F_set；

步骤3)对用户数据集中的用户标签数据集，将用户的各类具体的标签进行过滤筛选，为全部用户选取相同的用户标签集，再将根据用户对象是否含用户标签，将具体的字符标签转化为0-1标签，由此可以获得标识用户对象的标签数据集L_set；

步骤S2，采用特征链编码器模块构建特征链并编码，输入特征链的表示向量，包括以下步骤：

步骤4)对于用户对象的特征数据集F_set按照90％：1％：9％的比例随机拆分为训练特征-标签集T，验证特征-标签集V和推理测试特征-标签集I；

其中，对于训练特征-标签集T中的特征集

用它构建用户对象最近邻图G＝(V,E),使用欧几里得距离：

来衡量图G中两个顶点v_i和v_j之间边e_ij的权重大小；

步骤5)由图G此可以获得稀疏矩阵

用来表示用户对象和其他k用户对象之间的相似性；

步骤6)基于以上构建的最近邻图G和稀疏矩阵N，采用Ball-tree算法高效查询获得用户对象的前k个最近邻用户对象；

步骤7)对于一个用户对象U_i，从特征集中获取其描述特征向量F_i，查询最近邻图G和稀疏矩阵N，获得与它在特征向量上最相似的k个用户对象及其特征向量集F_set＝{F₁,F₂,…,F_k}；

步骤8)将特征向量集F_set按照和当前用户对象i的特征向量F_i的相似程度从小到大依次排列，初步特征链。进一步的，把当前用户对象的特征向量F_i插入到初步特征链中，得到最终的特征链F_chain＝{F₁,F_i,F₂,F_i,…,F_i,F_k}；

步骤9)使用带双向循环的长短期神经网络Bi-LSTM的特征链编码器来编码构建成的特征链F_chain，从正向和反向分别获得某一时刻的隐藏向量：

步骤10)级联以上两个隐藏向量就可以获得该时刻特征链的表示向量

步骤S3，采用全局标签信息模型主动缓解标签生成解码器可能遇到的错误标签级联问题，包括以下步骤：

步骤11)在普通情况下，标签生成解码模块利用单向循环神经网络LSTM在t时刻生成的隐藏状态计算公式如下：s_t＝LSTM(s_t-1,E_t-1,h_2k)。该情况下标签生成解码模块预测生成每一个标签，是基于上一个预测的标签的，也就是贪婪的利用了上一个时刻的标签来生成当前标签，可能会在某一个时刻预测出错误的标签，从而导致标签生成解码在后续的时刻也预测错误；

步骤12)对于以上问题，全局标签信息模块存储标签解码器在每个时刻预测出来的标签，并且把这些标签继续融合，其计算公式为：

步骤S4：采用标签生成解码模型推理预测生成蕴含用户标签信息的隐藏向量，包括以下步骤：

步骤13)对于原始的用户对象标签集L_set，统计计算每一列(即为每一个具体标签)下标签被标记为1的个数，按照标记为1的个数多少，从高到底降序排列，形成新的用户标签集L′_set，

步骤14)对于用户对象U的标签序列l＝[l₁,l₂,…,l_m]，需要在序列的前后加上序列开始符BOS和序列终止符EOS，用户对象U的标签序列就变为I＝[BOS,l₁,l₂,…,l_m,SOS]，那么整个用户对象的标签集就变为L′_set；

步骤15)基于以上信息，因此标签生成解码器在某一个时刻的神经网络隐藏状态可以表示为

步骤16)在模型训练阶段，使用交叉熵损失函数

计算预测出的用户标签和实际用户标签的差距损失，使用Adam优化器反向传播更新模型参数；在每个轮次训练结束，使用验证特征-标签集衡量模型性能；在推理预测阶段，由标签生成解码器推理预测生成蕴含用户标签信息的隐藏向量s′；

步骤S5：采用用户标签生成模块在模型推理预测阶段生成实际的用户标签，包括以下步骤：

步骤17)对于在推理预测阶段标签生成解码器预测生成的蕴含用户标签信息的隐藏向量s′，使用公式转化得到最终的用户标签。

综上所述，本发明将社交网络中的传统用户标签预测问题根据其特征和标签的关系，分析问题推理转化为成熟的多标记学习问题，并使用神经网络来对问题进行建模。使用用户数据预处理模型转化用户的特征信息和标签信息为数值向量和0-1标签；使用通用的图结构和成熟的Ball-tree算法存储用户对象的特征向量和查询其最近邻；使用特征链编码器构建和编码用户对象的特征向量链；使用全局标签信息缓解解码器预测用户标签过程中可能会到的错误标签级联问题；使用标签生成解码器生成蕴含用户标签信息的向量；使用用户标签生成模块转化得到最终预测的实际用户标签。本发明高效的转化社交网络中用户标签预测为0-1标签预测问题，考虑标签之间相互联系的实际关系，更加高效准确的预测用户标签。

相较于现有技术，本发明具有以下有益效果：

1)转化用户标签预测问题为可高效计算推理的0-1标签预测多标记学习问题；

2)使用通用的图结构和高效的搜索算法存储用户特征信息，可以扩展存储用户对象和搜索相邻的用户对象；

3)使用神经网络构建序列到序列的多标记学习模型来预测用户对象，能够不断的加入数据反复学习，用已训练好的模型快速的预测用户标签。

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

此外，本发明实施例还提供了一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行所述的基于多标记学习的用户标签预测方法。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.基于多标记学习的用户标签预测方法，其特征在于：包括以下步骤：

根据用户对象的特征数据集，构建用户对象的特征链；

对特征链进行编码，获取特征链的表示向量；

根据隐藏向量，生成实际的用户标签。

2.根据权利要求1所述的基于多标记学习的用户标签预测方法，其特征在于：所述对原始社交网络用户数据集进行转化，得到描述用户对象的特征数据集和标识用户对象的标签数据集这一步骤，包括以下步骤：

3.根据权利要求2所述的基于多标记学习的用户标签预测方法，其特征在于：所述根据用户对象的特征数据集，构建用户对象的特征链这一步骤，包括以下步骤：

根据最近邻图获得稀疏矩阵；

获取每个最近邻用户对象的特征向量集；

4.根据权利要求1所述的基于多标记学习的用户标签预测方法，其特征在于：所述对特征链进行编码，获取特征链的表示向量这一步骤，包括以下步骤：

5.根据权利要求1所述的基于多标记学习的用户标签预测方法，其特征在于：所述对特征链的表示向量进行解码，生成蕴含用户标签信息的隐藏向量这一步骤，包括以下步骤：

在用户标签集的标签序列中添加序列开始符和序列终止符；

6.根据权利要求1所述的基于多标记学习的用户标签预测方法，其特征在于：还包括以下步骤：

7.基于多标记学习的用户标签预测系统，其特征在于：包括：

8.根据权利要求7所述的基于多标记学习的用户标签预测系统，其特征在于：还包括：

9.基于多标记学习的用户标签预测系统，其特征在于：包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-6中任一项所述的基于多标记学习的用户标签预测方法。

10.一种存储介质，其中存储有处理器可执行的指令，其特征在于：所述处理器可执行的指令在由处理器执行时用于执行如权利要求1-6中任一项所述的基于多标记学习的用户标签预测方法。