CN111177538B

CN111177538B - 一种基于无监督权值计算的用户兴趣标签构建方法

Info

Publication number: CN111177538B
Application number: CN201911283767.9A
Authority: CN
Inventors: 张克克
Original assignee: HANGZHOU SHUNWANG TECHNOLOGY CO LTD
Current assignee: HANGZHOU SHUNWANG TECHNOLOGY CO LTD
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2023-05-05
Anticipated expiration: 2039-12-13
Also published as: CN111177538A

Abstract

本发明公开了一种基于无监督权值计算的用户兴趣标签构建方法，从用户的行为向量数据中抽样选取部分样本，将用户行为次数作为自变量，将样本内通过排序算法得到的用户行为向量的排名结果作为因变量，代入Logistic回归模型中，最后拟合得到用户行为的最优权重，将计算用户标签权值这种无监督学习转化为监督学习，一方面降低了大数据计算对于资源的要求，另一方面减少了在行为权重计算过程中人为的参与。因此，本发明构建的用户兴趣标签体系可以广泛应用到广告推荐、视频推荐、推荐用户喜爱的商品等领域。

Description

一种基于无监督权值计算的用户兴趣标签构建方法

技术领域

本发明属于用户行为的数据分析技术领域，尤其涉及一种基于无监督权值计算的用户兴趣标签构建方法。

背景技术

随着大数据技术以及互联网技术的发展，企业的业务逐渐从对事物进行分析转向对用户的分析。在大数据信息平台下，用户需求趋向个性化，因此要充分解读用户，构建用户画像是一项关键性的技术；通过对用户画像进行分析，可以为企业提供经营分析、精准营销、个性化推荐等应用，最大化地挖掘潜在的商业价值。

用户画像是根据用户社会属性、上网行为和消费行为等信息抽象出的一个标签化的用户模型。构建用户画像的核心是给用户贴标签，而标签是通过对用户各项信息的分析得来的高度精炼的特征标识。用户标签分成“静态标签”和“动态标签”两类，静态标签通常包括用户的人群属性，如性别、年龄、地域、职业、收入、婚姻状况等；动态标签通常指从用户变化信息而形成的某些特征，如行为属性和购买属性等提取出的标签。

在构建用户画像的过程中首先需要知道用户对相关内容是否感兴趣，即用户的兴趣标签，其次还要考虑用户对不同兴趣标签喜爱的程度即标签的权值。用户标签权值的构建流程是先对用户在某一标签的多种行为量化后，再将用户行为分类到具体标签上，对于同一标签下不同行为的行为次数通过加权求和的方式汇总到该标签上，加权求和的结果表示该标签的权值；如果不同行为加权的权重值设定不准确，将会造成用户的标签权重有所偏差，企业根据用户画像进行精准营销、用户分析等运营活动取得的效果大打折扣，因此计算最优行为权重是十分必要的。

现有的用户画像构建方法中，一些人为判断用户行为重要程度来设置行为权值的方法缺乏科学依据；如对于大多数电商类平台而言，构建用户画像的过程中，将购买、收藏、浏览行为的权重简单的设定为3、2、1，这种人为设置权重的方法，没有充分地考虑到用户的行为数据特征，容易导致最终构建的标签权值与真实情况相差较大。

理论上可以将用户的不同行为次数构建成向量形式，对全部用户的行为向量进行排序，计算出每种行为的权重值，即通过对用户行为数据的清洗、分词处理以及文本分类，获得用户的兴趣标签及行为向量数据，最后通过排序算法计算得到不同用户行为数据的排名。但现实中，由于用户数据规模庞大，排序算法复杂度高，需要耗费大量的计算资源，存在的难度在于用户体量较大，如果通过对全部的用户行为数据进行排序的方法计算用户标签权值，工作量大，考虑到大数据的计算资源，这种方法在实际中较难实现。

发明内容

鉴于上述，本发明提供了一种基于无监督权值计算的用户兴趣标签构建方法，从用户的行为向量数据中抽样选取部分样本，将用户行为次数作为自变量，将样本内通过排序算法得到的用户行为向量的排名结果作为因变量，代入Logistic回归模型中，最后拟合得到用户行为的最优权重，将计算用户标签权值这种无监督学习转化为监督学习，一方面降低了大数据计算对于资源的要求，另一方面减少了在行为权重计算过程中人为的参与。

一种基于无监督权值计算的用户兴趣标签构建方法，包括如下步骤：

(1)对于任一兴趣标签，收集一定数量用户在过去一定时长范围内与该标签相关应用的启动行为数据、搜索行为数据、浏览行为数据；

(2)通过分词处理以及tf-idf(term frequency-inverse document frequency，逆文本频率指数)算法将搜索及浏览行为文本类的非结构化数据转换成结构化数据；

(3)利用时间衰减因子、成本因子和热度因子对以上三种行为数据进行预处理，得到启动行为、搜索行为、浏览行为分别对应的行为次数x₁～x₃；

(4)确定每个用户的行为向量X＝(x₁,x₂,x₃,f_x)，对所有用户的行为向量从大到小进行排序，f_x为三种行为次数的频数和；

(5)计算每个参与排序的用户行为向量的概率值p＝f/n，f为小于等于本用户行为向量的总向量数，n为参与排序的所有用户行为向量数量；

(6)利用参与排序的所有用户行为向量及其概率值作为输入，对Logistic回归模型进行训练，得到用于计算用户兴趣标签权值的Logistic分布函数，利用该分布函数即可完成用户标签权值的计算和用户兴趣标签的构建。

进一步地，所述启动行为数据是指用户在使用与用户兴趣相关的应用时的启动次数数据，搜索行为数据是指用户搜索与兴趣标签相关的内容数据，浏览行为数据是指用户浏览与兴趣标签相关的页面内容数据。

进一步地，所述步骤(2)的具体实现过程为：首先对于搜索行为数据或浏览行为数据中的每一组内容通过分词处理切分成一个个单词，保留名词、动词以及形容词这三种词性的文本，然后按相关性规则重新组合成新的词序列，进而将分词后的结果按照用户、文本、出现次数输入到tf-idf算法程序中，计算出每个单词的tf-idf值，根据分词前的行为类型获得结构化的搜索行为数据和浏览行为数据。

进一步地，对于任一单词w，通过以下公式计算单词w的tf-idf值；

tf-idf值＝TF*IDF

进一步地，为了提升数据的质量，将分散、凌乱、标准不统一的数据整合到一起，为之后的分析算法提供分析数据，在完成步骤(2)后对启动、搜索、浏览这三种行为的结构化数据进行数据抽取、转换、装载后以统一格式加载进数据库中。

进一步地，所述步骤(3)中对于启动行为数据，则对其进行去除成本因子处理(涉及到时间的数据)、降热度处理以及时间衰减处理(启动次数)；对于搜索行为数据或浏览行为数据，则对其进行降热度处理和时间衰减处理。

进一步地，所述步骤(4)中对所有用户行为向量进行排序的标准为：对于任意两个用户，若两者的行为向量分别为R＝(r₁,r₂,r₃,f_r)和S＝(s₁,s₂,s₃,f_s)，若r₁＝s₁且r₂＝s₂且r₃＝s₃，则判定R＝S；若a₁＞0且a₁+a₂＞0且a₁+a₂+a₃＞0，则判定R＞S；若a₁＜0且a₁+a₂＜0且a₁+a₂+a₃＜0，则判定R＜S；其中a_i＝s_i-r_i，i＝1、2或3，f_r和f_s分别为行为向量R和S中的频数和，对于其余不满足以上三种判断条件的用户行为向量，则不参与排序。

进一步地，所述步骤(6)中的Logistic回归模型表达式如下：

其中：weight(X)中为用户的兴趣标签权值，θ₀为常数值，θ₁、θ₂、θ₃分别对应启动、搜索、浏览三种行为的权重系数；训练过程中将用户行为向量中的x₁～x₃输入至模型中，使用户行为向量的概率值p作为weight(X)，从而通过拟合确定θ₀、θ₁、θ₂和θ₃的具体数值。

本发明将三种行为(启动应用、搜索、浏览)数据进行清洗、分词处理以及文本分类后映射到具体的兴趣标签，各兴趣标签下的行为次数经过时间衰减、去除成本因子和热度处理之后，记为用户在该种行为下的行为向量；该方法使用户行为真实反映用户兴趣标签，确保分析得到的用户特性更准确。

本发明中基于用户行为权重的优化计算方法在一定程度让数据能够真实反映用户的真实兴趣特征，可以达到提高精准推荐和个性化推荐的效果；据本发明在实际场景中的应用数据显示：在精准广告实际投放中，硬广类转化效果翻倍，图表类点击量提升15％，注册效果提升20％～50％。因此，本发明构建的用户兴趣标签体系可以广泛应用到广告推荐、视频推荐、推荐用户喜爱的商品等领域。

附图说明

图1为用户标签权重密度函数示意图。

图2为用户标签权重累积分布函数示意图。

图3为Logistic分布函数示意图。

图4为本发明基于无监督权值计算的用户兴趣标签构建方法的流程框图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

如图4所示，本发明基于无监督权值计算的用户兴趣标签构建方法，包括如下步骤：

(1)行为数据获取。

主要获取应用启动行为数据、搜索行为数据、浏览行为数据，应用启动行为数据主要是指用户在使用与用户标签相关的应用时的启动次数等数据；搜索行为数据主要是指与用户标签相关的搜索行为，包括搜索内容数据；浏览行为数据指的是与用户标签相关的浏览行为，包括浏览页面内容数据。其中用户搜索和浏览的内容往往是非结构化的数据，无法直接对其进行分析计算，并且汉字词汇本身构成的一定特殊性，无法像英文一样根据空格进行分割单词，所以需要对搜索和浏览行为内容进行分词处理，保留名词、动词以及形容词三种词性的文本，并对其计算tf-idf值，获取与用户标签相关的搜索与浏览行为数据。分词系统先将搜索或浏览内容切分成一个个单独的词，然后按一定的相关性规则重新组合组成新的词序列，根据行为语料库获得搜索或浏览的字词序列；而tf-idf是评估一个词条在一个文件集或一个文件在一个语料库中重要程度的一种衡量指标，其值越大，表示该值的重要性越高，其中：

TF-IDF＝TF*IDF

通过构建文本分类系统，将分词后的结果映射到具体的兴趣标签，对于启动行为，由于应用本身就有标签属性，例如英雄联盟属于游戏-网络游戏-MOBA类型，故只需建立一张具体应用名称与兴趣标签的映射维度表，通过维度表就可以将应用映射到具体的兴趣标签。用户搜索和浏览数据是将分词后的结果按照用户、文本、出现次数输入到计算tf-idf的程序中，计算出每个单词的tf-idf值，根据分词前的行为类型获得结构化的搜索和浏览的行为数据。

为了提升数据的质量，将分散、凌乱、标准不统一的数据整合到一起，为之后的分析算法提供分析数据，对三种行为的数据进行数据抽取、转换、装载后统一格式加载进数据仓库中。

(2)数据预处理。

从用户行为数据仓库中加载数据，对各行为数据根据实际情况进行成本因子处理、时间衰减处理以及降热度处理。该步骤中，成本因子是衡量用户在应用上花费的时间成本，成本因子越高，表明用户对应用的喜欢程度越高。

如果用户的行为不涉及到时间，则该值设为1。

信息随着时间的传播会发生信息量逐渐减少的情况，为了保证信息的准确性和实时性，需要对在用户行为的权重上加上时间衰减的信息，可以根据实际场景选择合适的时间衰减函数进行时间衰减处理，时间衰减因子反应了对用户行为权重热度随时间逐渐冷却的过程，常用的时间衰减函数有：

指数衰减函数Info＝e^-η(T-t)

幂函数衰减函数Info＝0.99^(T-t)

其中：η表示衰减指数，与信息的重要性有关，T表示当前时间，t表示信息发出的时间，T-t表示距离当前的时间，α表示常数，用来控制信息衰减的快慢。这些函数的计算复杂度、结果的可重复利用情况各不相同，需要结合具体的应用场景选择最合适的时间衰减函数以获得最好的时间衰减处理效果，在本实施方式中我们采用幂函数衰减函数作为时间衰减计算方式。

在本发明研究初期选择使用应用的平均启动次数作为应用的热度因子，发现这种计算方式会使得某款应用的用户较少的情况下，应用的热度也会被下降，考虑到这种因素，通过验证降热度的方式，发现热门游戏与冷门游戏的热度应该相差100倍左右；经过讨论，决定采取线性方式进行降热度，线性降热度公式为：

其中，PC_x表示应用的启动次数，max(PC_j)表示所有应用的最大启动次数，用户的搜索行为和浏览行为的降热度处理方式与应用的启动次数一样。

(3)行为权重计算。

各兴趣标签下不同行为经过时间衰减、去除成本因子和热度因子处理后得到的不同兴趣标签下的行为次数(X₁,X₂,X₃)，且对三种行为进行频数统计，记为F，使得到三种行为的行为次数(X₁,X₂,X₃)以及频数和F，作为输入数据X＝(X₁,X₂,X₃,F)，其行数为n(即用户总数)，X₁,X₂,X₃分别代表应用启动、搜索、浏览三种行为经处理后的行为次数。

根据运营经验和先验知识可以知道，各种行为对用户标签的影响程度不同，启动行为＞搜索行为＞浏览行为。我们希望得到的用户标签权值可以代表用户对标签内容的喜爱程度，其数值越大，代表用户喜爱程度越大；为了让不同标签的用户权值在数值上更具可比性，我们可将用户标签权值的取值范围定为[0,1]。

综上所述，已知所涉及到的三种用户行为所代表的用户对某事物喜爱程度的先后顺序分别是应用启动＞搜索＞浏览以及经数据处理之后的每种用户行为次数和行为的频数和F，用户权重的取值范围为[0,1]。用户行为次数的分布形态是中间变化快，两边变化慢，如图1用户标签权重密度函数所示，根据图1的用户行为次数的分布形态，可以得到用户标签权重分布函数如图2所示，根据用户标签权重密度函数的形态特征可知大部分的用户行为权重集中在虚线框区域内。

理论上，我们可以对所有用户行为向量X＝(X₁,X₂,X₃,F)进行两两排序的方式得到用户行为的排名，直接计算出用户标签权值，由于用户基数大，假设有1亿用户的行为向量，就需要进行1亿×1亿次量级的计算，现有的大数据资源无法满足；图2的用户标签权重累积分布函数与图3的Logistic分布函数相近，因此本发明决定采用Logistic回归作为用户标签权值的计算公式：

其中：weight(x)代表用户标签权值，x表示标签计算值，θ₀表示常数值，θ₁，θ₂，θ₃表示启动应用、用户搜索、浏览三种行为的行为权重。

对输入向量(X₁,X₂,X₃,F)进行排序，排序方法为：假设排序的两个向量为R＝(r₁,r₂,r₃,f)和S＝(s₁,s₂,s₃,f)，由于f是频数，故对f不做比较；若两个向量中每一个元素都相等则判定R＝S；否则，令a_i＝s_i-r_i，若a₁＞0且a₁+a₂＞0且a₁+a₂+a₃＞0，则R＞S；若a₁＜0且a₁+a₂＜0且a₁+a₂+a₃＜0，则R＜S，其余情况的无法比较。

对于输入的数据(X₁,X₂,X₃,F)，按照上述比较大小的规则统计出小于等于该向量的总向量数f，根据统计的f计算概率

由p的数值得到因变量y，即用户标签权值。

由于用户体量庞大，考虑到现有的计算资源，无法对全量的用户行为数据做如上的排序。为了节省大数据资源，本发明抽样选取部分样本，通过如上所述方法得到自变量X和Y，代入模型公式(1)中，计算出权重θ₀，θ₁，θ₂，θ₃，最终完成用户标签权值的计算和用户兴趣标签的构建。

本发明根据用户行为次数中间变化快，两边变化慢的形态特征，在图3的用户标签权值累积分布函数中得到大部分的用户标签权值集中在中间上升最快的区域；由于实际中难以完成对全量用户行为向量的两两排序计算，本发明利用Logistic分布函数与用户标签权值累积分布函数相似的特点，如图2和图3所示，采用Logistic回归作为用户标签权值的计算公式，这种方法大大降低了数据计算的资源要求，减少资源耗费。

本发明通过抽样方式选取部分样本，将每个用户行为向量(X₁,X₂,X₃,F)进行排序计算得到用户标签权值，更能合理地反映用户对该兴趣标签的喜爱程度；将计算得到自变量与因变量代入公式(1)，通过Logistic回归模型拟合结果得到用户行为的最优权重，实现用户兴趣标签的构建及用户标签的权值计算。因此，本发明方法很好地避免了因人为设定权重存在的误差，使得计算结果能更真实反映用户的兴趣特征。

上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种基于无监督权值计算的用户兴趣标签构建方法，包括如下步骤：

(2)通过分词处理以及tf-idf算法将搜索及浏览行为文本类的非结构化数据转换成结构化数据；

(6)利用参与排序的所有用户行为向量及其概率值作为输入，对Logistic回归模型进行训练，得到用于计算用户兴趣标签权值的Logistic分布函数，利用该分布函数即可完成用户标签权值的计算和用户兴趣标签的构建；所述Logistic回归模型的表达式如下：

2.根据权利要求1所述的用户兴趣标签构建方法，其特征在于：所述启动行为数据是指用户在使用与用户兴趣相关的应用时的启动次数数据，搜索行为数据是指用户搜索与兴趣标签相关的内容数据，浏览行为数据是指用户浏览与兴趣标签相关的页面内容数据。

3.根据权利要求1所述的用户兴趣标签构建方法，其特征在于：所述步骤(2)的具体实现过程为：首先对于搜索行为数据或浏览行为数据中的每一组内容通过分词处理切分成一个个单词，保留名词、动词以及形容词这三种词性的文本，然后按相关性规则重新组合成新的词序列，进而将分词后的结果按照用户、文本、出现次数输入到tf-idf算法程序中，计算出每个单词的tf-idf值，根据分词前的行为类型获得结构化的搜索行为数据和浏览行为数据。

4.根据权利要求3所述的用户兴趣标签构建方法，其特征在于：对于任一单词w，通过以下公式计算单词w的tf-idf值；

tf-idf值＝TF*IDF。

5.根据权利要求1所述的用户兴趣标签构建方法，其特征在于：为了提升数据的质量，将分散、凌乱、标准不统一的数据整合到一起，为之后的分析算法提供分析数据，在完成步骤(2)后对启动、搜索、浏览这三种行为的结构化数据进行数据抽取、转换、装载后以统一格式加载进数据库中。

6.根据权利要求1所述的用户兴趣标签构建方法，其特征在于：所述步骤(3)中对于启动行为数据，则对其进行去除成本因子处理、降热度处理以及时间衰减处理；对于搜索行为数据或浏览行为数据，则对其进行降热度处理和时间衰减处理。

7.根据权利要求1所述的用户兴趣标签构建方法，其特征在于：所述步骤(4)中对所有用户行为向量进行排序的标准为：对于任意两个用户，若两者的行为向量分别为R＝(r₁,r₂,r₃,f_r)和S＝(s₁,s₂,s₃,f_s)，若r₁＝s₁且r₂＝s₂且r₃＝s₃，则判定R＝S；若a₁＞0且a₁+a₂＞0且a₁+a₂+a₃＞0，则判定R＞S；若a₁＜0且a₁+a₂＜0且a₁+a₂+a₃＜0，则判定R＜S；其中a_i＝s_i-r_i，i＝1、2或3，f_r和f_s分别为行为向量R和S中的频数和，对于其余不满足以上三种判断条件的用户行为向量，则不参与排序。