CN111767474A

CN111767474A - 一种基于用户操作行为构建用户画像的方法及设备

Info

Publication number: CN111767474A
Application number: CN202010906033.8A
Authority: CN
Inventors: 刘益东; 刘建国; 高威; 林青轩; 王君; 邓春燕; 聂国梅; 王雅静
Original assignee: Shanghai Mdata Information Technology Co ltd
Current assignee: Shanghai Mdata Information Technology Co ltd
Priority date: 2020-09-01
Filing date: 2020-09-01
Publication date: 2020-10-13

Abstract

本申请的目的是提供基于用户操作行为构建用户画像的方法及设备，通过对获取到的用户目标操作行为的行业数据进行标注确定标签数据，其中，所述标签数据中用户与行业标签为一一对应关系；根据所述标签数据构建用户目标操作行为矩阵；对所述用户目标操作行为矩阵进行分解降维处理，使用逻辑斯蒂回归模型调整降维处理后的用户目标操作行为矩阵，得到预测模型；对所述预测模型进行交叉验证后进行评价，当评价指标满足预测需求时，使用经过交叉验证的预测模型进行预测用户的操作行为。从而进行用户行业画像预测，深层挖掘用户行为与标签之间的关系。

Description

一种基于用户操作行为构建用户画像的方法及设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种基于用户操作行为构建用户画像的方法及设备。

背景技术

用户画像为大数据技术的重要应用，其目标是在很多的维度上建立针对用户的描述性标签属性，从而利用这些标签属性对用户多方面的真实个人特征进行勾勒，进而可以利用用户画像发掘用户需求，分析用户偏好。传统的用户画像方法通过结合用户历史社交行为记录，依靠聚类建模等方法建立用户画像，并未考虑用户行为的浅层语义以及利用用户行为的直接意义。

发明内容

本申请的一个目的是提供一种基于用户操作行为构建用户画像的方法及设备，解决现有技术中的用户画像无法保留用户最原始最直接的喜好偏向，并未考虑用户行为的浅层语义以及利用用户行为的直接意义的问题。

根据本申请的一个方面，提供了一种基于用户操作行为构建用户画像的方法，该方法包括：

对获取到的用户目标操作行为的行业数据进行标注确定标签数据，其中，所述标签数据中用户与行业标签为一一对应关系；

根据所述标签数据构建用户目标操作行为矩阵；

对所述用户目标操作行为矩阵进行分解降维处理，使用逻辑斯蒂回归模型调整降维处理后的用户目标操作行为矩阵，得到预测模型；

对所述预测模型进行交叉验证后进行评价，当评价指标满足预测需求时，使用经过交叉验证的预测模型进行预测用户的操作行为。

进一步地，根据所述标签数据构建用户目标操作行为矩阵，包括：

根据所述标签数据确定用户目标操作行为的对象集合以及用户集合，其中，所述对象集合中对象唯一以及所述用户集合中用户唯一；

以所述对象集合和所述用户集合为用户目标操作行为矩阵的行坐标和列坐标，构建用户目标操作行为矩阵。

进一步地，以所述对象集合和所述用户集合为用户目标操作行为矩阵的行坐标和列坐标，构建用户目标操作行为矩阵，包括：

以所述对象集合和所述用户集合为用户目标操作行为矩阵的行坐标和列坐标，判断第i名用户对第j个对象是否有目标操作行为，根据判断结果确定矩阵中以i和j确定位置处的元素值，其中，i≥1，j≥1；

根据确定的所有位置处的元素值构建用户目标操作行为矩阵。

进一步地，对所述用户目标操作行为矩阵进行分解降维处理，包括：

对所述用户目标操作行为矩阵进行奇异值分解，得到左奇异矩阵、右奇异矩阵以及选取出的前k个奇异值，其中，k≥1；

使用左奇异矩阵与奇异值矩阵相乘，得到降维后的用户目标操作行为矩阵，其中，所述奇异值矩阵是由按照从小到大排列选取出的前k个奇异值作为对角线上元素值确定的。

进一步地，所述方法包括：

确定信息量阈值，其中，所述信息量阈值小于等于所述奇异值矩阵中前k个奇异值与所有奇异值总和的比例；

根据所述信息量阈值从所述奇异值矩阵中选取出前k个对角奇异值，得到奇异值矩阵。

进一步地，确定信息量阈值，包括：

遍历前k个奇异值中的每一奇异值，以信息量阈值曲线的AUC值的平均值为因变量，当所述因变量达到最大值时得到的信息量阈值为最优信息量阈值；

根据所述最优信息量阈值确定k的值。

进一步地，使用逻辑斯蒂回归模型调整降维处理后的用户目标操作行为矩阵，得到预测模型，包括：

根据用户的标签确定标签矩阵，其中，所述标签矩阵的行数为用户数量；

将所述标签矩阵以及降维处理后的用户目标操作行为矩阵输入至逻辑斯蒂回归模型中以调整所述逻辑斯蒂回归模型中的参数，得到预测模型。

进一步地，对所述预测模型进行交叉验证后进行评价，包括：

将获取到的用户目标操作行为的行业数据分为m份，其中，m≥2；

重复以下步骤m次：每一次选取一份作为测试集，剩余m-1份作为训练集用于训练所述预测模型，将训练后的预测模型在对应的测试集上测试，得到模型的评估指标；

将m组的模型的评估指标的平均值作为当前m折交叉验证下预测模型的性能指标；

选用预测模型的AUC值对所述预测模型的性能指标进行评价。

根据本申请又一个方面，还提供了一种基于用户操作行为构建用户画像的设备，该设备包括：

一个或多个处理器；以及

存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行如前述所述方法的操作。

根据本申请再一个方面，还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如前述所述的方法。

与现有技术相比，本申请通过对获取到的用户目标操作行为的行业数据进行标注确定标签数据，其中，所述标签数据中用户与行业标签为一一对应关系；根据所述标签数据构建用户目标操作行为矩阵；对所述用户目标操作行为矩阵进行分解降维处理，使用逻辑斯蒂回归模型调整降维处理后的用户目标操作行为矩阵，得到预测模型；对所述预测模型进行交叉验证后进行评价，当评价指标满足预测需求时，使用经过交叉验证的预测模型进行预测用户的操作行为。从而进行用户行业画像预测，深层挖掘用户行为与标签之间的关系。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出根据本申请的一个方面提供的一种基于用户操作行为构建用户画像的方法的流程示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器 (例如中央处理器（Central Processing Unit，CPU）)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RandomAccess Memory，RAM) 和/或非易失性内存等形式，如只读存储器 (Read Only Memory，ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (Phase-Change RAM，PRAM)、静态随机存取存储器 (Static Random Access Memory，SRAM)、动态随机存取存储器 (DynamicRandom Access Memory，DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (Electrically Erasable Programmable Read-Only Memory，EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (Compact Disc Read-OnlyMemory，CD-ROM)、数字多功能光盘 (Digital Versatile Disk，DVD) 或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

图1示出根据本申请的一个方面提供的一种基于用户操作行为构建用户画像的方法的流程示意图，该方法包括：步骤S11~步骤S14，

在步骤S11中，对获取到的用户目标操作行为的行业数据进行标注确定标签数据，其中，所述标签数据中用户与行业标签为一一对应关系；在此，用户目标操作行为为对目标对象进行操作的行为，比如浏览视频、发表文字等，在本申请实施例中以用户对微博点赞行为作为用户目标操作行为进行举例说明，获取到的用户对点赞行为的行业数据，该行业数据可以为传媒、服务业、公共管理、建筑业、交通运输、金融业、房地产、科学研究、能源矿业、司法、卫生医药、信息技术、制造业、文体娱、农林牧副渔等行业的点赞数据；对获取到的各行业的点赞数据进行标注，确定标签数据，其中用户与行业标签是一一对应的关系。

在步骤S12中，根据所述标签数据构建用户目标操作行为矩阵；在此，根据标注得到的标签数据将用户目标操作行为与用户之间的联系进行转化，以用户点赞行为举例，用户点赞行为通过用户与文本之间的点赞数字体现，一份文本内容可能吸引多个用户进行点赞，一对多的关系利用矩阵来转化用户与文本之间的联系，可根据用户点赞微博记录来构建相应的用户点赞矩阵。

在步骤S13中，对所述用户目标操作行为矩阵进行分解降维处理，使用逻辑斯蒂回归模型调整降维处理后的用户目标操作行为矩阵，得到预测模型；在此，互联网平台的用户与文本内容数量通常是非常巨大的，构建后的矩阵横纵坐标数量并不利于直接分析，因此可对构建的用户目标操作行为矩阵进行分解降维处理，进而得到保存大部分信息且维数更低的特征序列，即保留原始最大特征值，去掉无效或者可利用程度较低的用户目标操作行为信息（如点赞信息）。经过降维处理后得到用户与文本关系倾向的最大特征值矩阵，使用逻辑斯蒂回归模型进行调整降维处理后的矩阵，从而得到预测模型。

接着，在步骤S14中，对所述预测模型进行交叉验证后进行评价，当评价指标满足预测需求时，使用经过交叉验证的预测模型进行预测用户的操作行为。在此，对预测模型进行交叉验证，观察预测模型的性能，进而进行评价预测模型，提高模型的预测准确性，当评价指标满足预测需求时，使用满足预测需求的预测模型进行预测用户的操作行为，即构建出用户画像，深层挖掘用户行为与标签之间的关系，其中，预测需求可通过模型的AUC（AreaUnder Curve）值达到预设值来体现。

在本申请一实施例中，在步骤S12中，根据所述标签数据确定用户目标操作行为的对象集合以及用户集合，其中，所述对象集合中对象唯一以及所述用户集合中用户唯一；以所述对象集合和所述用户集合为用户目标操作行为矩阵的行坐标和列坐标，构建用户目标操作行为矩阵。在此，以进行标注后的用户与点赞微博的数据为例，用户目标操作行为的对象集合则为微博集合，假设集合

表示完整非重复的微博，i表示完整非重复微博数量，集合

表示完整无重复的用户，j表示完整非重复用户数量。以微博集合W和用户集合U为用户-点赞矩阵的行坐标与列坐标，构建用户点矩阵。

具体地，以所述对象集合和所述用户集合为用户目标操作行为矩阵的行坐标和列坐标，判断第i名用户对第j个对象是否有目标操作行为，根据判断结果确定矩阵中以i和j确定位置处的元素值，其中，i≥1，j≥1；根据确定的所有位置处的元素值构建用户目标操作行为矩阵。w₁w₂w₃……w_i为有i个完整非重复微博，对应的矩阵的列为i个，u₁u₂u₃……w_j为有j个不同的用户，对应的矩阵的行有j行；在此，若第i名用户对第j条微博点赞，则矩阵中（i,j）=1，否则为0，如此统计就形成j行i列的矩阵，从而构建的用户点赞矩阵C如下：

接上述实施例，在步骤S13中，对所述用户目标操作行为矩阵进行奇异值分解，得到左奇异矩阵、右奇异矩阵以及选取出的前k个奇异值，其中，k≥1；使用左奇异矩阵与奇异值矩阵相乘，得到降维后的用户目标操作行为矩阵，其中，所述奇异值矩阵是由按照从小到大排列选取出的前k个奇异值作为对角线上元素值确定的。在此，对用户目标操作行为矩阵可以进行SVD（奇异值分解）分解降维，原目标用户操作行为矩阵可为：

其中，

为原目标操作行为矩阵，U为一个m×m的矩阵，V是一个n×n的矩阵，U和V都是酉矩阵，即满足

,

；Λ为m×n的矩阵，除了主对角线上的元素以外全为0，主对角线上的每个元素都称为奇异值；对于奇异值，在奇异值矩阵中按照从大到小排列，选取前k个奇异值和对应的左右奇异向量进行近似描述原矩阵，如下所示：

从而根据左奇异矩阵与奇异值矩阵相乘，实现降维：由

降维至

；

用户点赞矩阵

进行SVD分解：

选取不同K值的奇异矩阵对

进行降维，得到

。

继续接上述实施例，所述方法包括：确定信息量阈值，其中，所述信息量阈值小于等于所述奇异值矩阵中前k个奇异值与所有奇异值总和的比例；根据所述信息量阈值从所述奇异值矩阵中选取出前k个对角奇异值，得到奇异值矩阵。在此，使用信息量阈值对奇异矩阵（Λ）进行调整，该奇异矩阵为对角矩阵，以便过滤掉原始矩阵中的噪声信息；确定的信息量阈值σ不大于对角矩阵中前k个奇异值与总奇异值和比例。设O_k为Λ中前k个奇异值之和，O为奇异值总和。则阈值公式如下：σ≤O_k/O。

具体地，进行确定信息量阈值时，可以遍历前k个奇异值中的每一奇异值，以信息量阈值曲线的AUC值的平均值为因变量，当所述因变量达到最大值时得到的信息量阈值为最优信息量阈值；根据所述最优信息量阈值确定k的值。在此，遍历k的全部取值集合，以信息量阈值曲线的AUC值的平均值为因变量，当因变量为最大时，σ的取值为最优取值组合，信息量阈值确定后可计算出k值，即对角矩阵中奇异值个数，从而从对角矩阵中取出前k个奇异值，对应左右奇异矩阵中前k个奇异向量，取出后便可相乘形成新的降维矩阵。降维分解处理后

如下所示：

利用左奇异矩阵和奇异值矩阵相乘，降维矩阵为：

从而基于奇异值分解对特征进行重构，从序列数据中分离出有用的用户特征信息，降维处理后进一步地得到保存大部分信息且维数更低的特征序列，将原始数据压缩到一定范围内，以便更快速且有效的分析数据。

在本申请一实施例中，在步骤S13中，根据用户的标签确定标签矩阵，其中，所述标签矩阵的行数为用户数量；将所述标签矩阵以及降维处理后的用户目标操作行为矩阵输入至逻辑斯蒂回归模型中以调整所述逻辑斯蒂回归模型中的参数，得到预测模型。在此，用户的标签y以向量的形式引入至逻辑斯蒂回归模型中：

其中，j表示用户数量；

降维处理后的用户目标操作行为矩阵，如降维后的用户点赞矩阵：

其中，j为用户数量，k为压缩后数据的维度，也就是数据特征的数量，此时矩阵中的数值也发生变化，不再是1或0。

逻辑斯蒂回归模型中的权重参数w迭代如下：

其中，

是正的比例因子，用于设定步长的“学习率”，x表示特征值，E为误差损失，E满足以下条件：

其中，sigmoid函数为g（x），满足以下条件：

M满足以下条件：

其中，权重w向量化为：

k表示降维数。

进而经过不断循环，迭代权重w便可完成逻辑斯蒂回归模型的训练，包括数据输入以及模型调参。

在本申请一实施例中，在步骤S14中，将获取到的用户目标操作行为的行业数据分为m份，其中，m≥2；重复以下步骤m次：每一次选取一份作为测试集，剩余m-1份作为训练集用于训练所述预测模型，将训练后的预测模型在对应的测试集上测试，得到模型的评估指标；将m组的模型的评估指标的平均值作为当前m折交叉验证下预测模型的性能指标；选用预测模型的AUC值对所述预测模型的性能指标进行评价。在此，在模型训练中考察模型的性能可用k折交叉验证进行评价，k折是指将数据集切分为k小块，验证集合测试集相互形成补集，循环交替。为避免与上述实施例中出现的k混淆，以下以m为例进行说明：

步骤S1：不重复抽样将原始数据随机分为m份；

步骤S2：每一次挑选其中一份作为测试集，剩余m-1份作为训练集用于模型训练；

步骤S3：重复步骤S2的过程m次，从而每个子集都有一次机会作为测试集，其余机会作为训练集，在每个训练集上训练后得到一个训练模型，用该训练模型在相应的测试集上测试，计算并保存训练模型的评估指标；

步骤S4：计算m组测试结果的平均值作为模型精度的估计，并作为当前k折交叉验证下模型的性能指标。

进而使用模型的AUC值来评价性能指标，在本申请实施例中使用用于预测二分类结果的逻辑斯蒂回归模型为每个用户分配了一个属于目标类的概率，AUC值越大，准确性越高。接着使用评价后满足预测需求的模型进行预测用户的行为，如预测用户的点赞偏好行为，其中，预测需求可为当AUC值达到0.657则认为是满足需求的。

本申请通过提取筛选用户目标操作行为（如点赞行为），构建用户的操作对象网络，保留用户最原始最直接的喜好偏向，通过目标操作行为关系（如点赞关系）构建用户目标操作行为矩阵，随后对构建的矩阵进行分解降噪降维处理，以留下最有特定含义的特征信息，再利用逻辑斯蒂回归模型存储降维后的用户目标操作行为矩阵，以及用户行业标签，对存储信息进行模型训练，进行用户行业画像预测，深层挖掘用户行为与标签之间的关系。

此外，本申请实施例还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现前述一种基于用户操作行为构建用户画像的方法。

在本申请一实施例中，还提供了一种基于用户操作行为构建用户画像的设备，所述设备包括：

一个或多个处理器；以及

例如，计算机可读指令在被执行时使所述一个或多个处理器：

根据所述标签数据构建用户目标操作行为矩阵；

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路（ASIC）、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序（包括相关的数据结构）可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本申请的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种基于用户操作行为构建用户画像的方法，其特征在于，所述方法包括：

根据所述标签数据构建用户目标操作行为矩阵；

2.根据权利要求1所述的方法，其特征在于，根据所述标签数据构建用户目标操作行为矩阵，包括：

3.根据权利要求2所述的方法，其特征在于，以所述对象集合和所述用户集合为用户目标操作行为矩阵的行坐标和列坐标，构建用户目标操作行为矩阵，包括：

4.根据权利要求1所述的方法，其特征在于，对所述用户目标操作行为矩阵进行分解降维处理，包括：

5.根据权利要求4所述的方法，其特征在于，所述方法包括：

6.根据权利要求5所述的方法，其特征在于，确定信息量阈值，包括：

根据所述最优信息量阈值确定k的值。

7.根据权利要求1所述的方法，其特征在于，使用逻辑斯蒂回归模型调整降维处理后的用户目标操作行为矩阵，得到预测模型，包括：

8.根据权利要求1所述的方法，其特征在于，对所述预测模型进行交叉验证后进行评价，包括：

选用预测模型的AUC值对所述预测模型的性能指标进行评价。

9.一种基于用户操作行为构建用户画像的设备，其特征在于，所述设备包括：

一个或多个处理器；以及

存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行如权利要求1至8中任一项所述方法的操作。

10.一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如权利要求1至8中任一项所述的方法。