CN104050298A

CN104050298A - 一种基于lda主题模型算法的用户细分方法

Info

Publication number: CN104050298A
Application number: CN201410317014.6A
Authority: CN
Inventors: 张一文
Original assignee: Chengdu Pinguo Technology Co Ltd
Current assignee: Chengdu Pinguo Technology Co Ltd
Priority date: 2014-07-04
Filing date: 2014-07-04
Publication date: 2014-09-17
Anticipated expiration: 2034-07-04
Also published as: CN104050298B

Abstract

本发明公开了一种基于LDA主题模型算法的用户细分方法，首先基于用户偏好和习惯进行LDA建模，然后运用训练好的模型来预测并且将用户细分为个性化群组。本发明的积极效果是：能够将社交网络平台上众多的用户或客户个性化；即所有客户不再被看成简单的数字，而是具有不同偏好标签的个体；用个体的偏好和习惯来量化地勾勒出个体的具体细节轮廓。采用本发明方法得出的对个体属性和偏好的诠释在某些时候甚至能超过个体本人对自身的诠释和了解。

Description

一种基于LDA主题模型算法的用户细分方法

技术领域

本发明涉及一种基于LDA主题模型算法的用户细分方法。

背景技术

本发明先介绍用户细分过程，紧随其后的是个人偏好小节，最终则得出关于LDA理论方面的简要介绍。

1.用户分类

数据挖掘可以提供客户洞察力，这对建立有效的市场营销、销售以及个性化策略是至关重要的。它会导致客户之间的个性化交流，因此通过数据分析来提升满意度以及有益的客户关系。

通过客户生活周期的各个阶段，即从获取和建立一种强大的关系到预防摩擦和赢回失去的客户，它可支持一种“个性化”且优化的客户管理。营销人员努力获得更大的市场份额以及更大比例的客户。简单来讲，他们负责获取、开发并维持顾客。

为了能够提供个性化的市场营销战略，用户细分的主要流程是根据用户的一些特征，把用户群划分为不同的群体。

在手动或者传统用户细分中，通常按用户的行为和使用特点进行细分。尽管行为分类可以由业务规则创建，但这项方法拥有很多基础性的缺点：它只能有效地处理少数分类领域，而且其客观性是受到质疑的，因为它是基于业务专家的个人感知。

另一方面，基于数据挖掘的方法可以创建数据驱动的行为细分。细分算法可以分析行为数据，确认不同群组的客户并且提出基于数据格式的方法。

流行的基于数据挖掘的分类方法包括：价值基础细分法(value-basedsegmentation)、行为细分法(behavioral segmentation)、忠诚度细分法(loyalty segmentation)、社会细分法(socio-based segmentation)以及需求基础细分法(needs-based segmentation)。

还存在另一种用户细分法，该方法是建立在个人偏好主观性的基础上的。

2.个人偏好

个人偏好可以看作是对于特定的物体或者概念的情感、行为以及感受的独特结合，这种全面融合使得用户细分方法更具个性化的独特性。

为了更好地了解用户，可以定义许多个人偏好，用于量化客户。比如：

(1)喜欢玩游戏的用户；

(2)喜欢听音乐的用户；

(3)喜欢看电影的用户；

(4)喜欢网上购物的用户；

(5)喜欢阅读的用户；

(6)喜欢旅行的用户；

(7)喜欢美食的用户。

为了将这些个性化标签应用到用户身上，从而有效地细分用户，首先需要了解他们的不同特征。这是项挑战性工作，因为用户不会明确地告诉我们他们是谁，偏好是什么；我们需要根据一些隐含信息来间接地获取。

举例来说，用户隐含的一些信息如下：他们所听的音乐类型、喜欢看的电影或者电视剧类型、浏览的网站类型、喜欢拍或者观赏的照片、社交网络上结交的朋友类型以及喜欢阅读的书籍类型。最终，我们能够从社交网络上搜寻到某个特定的用户，例如他们的爱好和私人信息。

本发明并不关注如何从用户获取这些隐含的私人特征。本发明假设这些用户间接信息或特征已经获取了，并且基于那些信息建立LDA模型。

3.Latent Dirichlet Allocation(潜在主题抽取)算法

Latent Dirichlet Allocation(潜在主题抽取)或者LDA，是一种被应用在文本挖掘方面的机器学习方法，通常目的在于从一个文档集合中自动发现专题论题。

简而言之，LDA模型从一大堆文档集合中抽取一个预先确定数量的主题，而且该训练模式可以被用来推断其后任何文档的主题(不同的权重)。例如，一个文档谈论苹果电脑和汽车，那么其推断主题很可能即为“电脑”和“汽车”。

主题建模是指，将整个文档集合细分成相关少数主题的词并且作为主题融合代表每个文档。这样，通过察看主题中的词就可以解释这个模型。

发明内容

为了克服现有技术的上述缺点，本发明提供了一种基于LDA主题模型算法的用户细分方法，目的在于将社交网络平台上众多的用户或客户贴上富有个性化的标签，例如游戏玩家、社交网络发烧友、音乐爱好者、喜欢网上购物、高级用户、旅行家、喜欢阅读的等其他标签。而且，根据本发明，一个用户或客户还可以同时继承多个标签。

本发明解决其技术问题所采用的技术方案是：一种基于LDA主题模型算法的用户细分方法，包括如下步骤：

步骤一、随机挑选一组用户，并为每一用户建立一个对应的文本文档；

步骤二、构建用户偏好属性字典；

步骤三、LDA模型训练：

(1)基于构建好的用户偏好属性字典，创建一个代表整个训练数据集的词袋；

(2)利用创建好的词袋，把所有训练用户的偏好从文字格式转换到BOW格式；

(3)将BOW格式的训练数据填入LDA模型来进行训练；

步骤四、预测且细分新用户：

(1)对于每一位新用户，按照步骤二的方法构建该用户的偏好属性字典；

(2)按照步骤三的方法将该用户的偏好从文字格式转化为BOW格式，再将BOW格式的训练数据填入训练好的LDA模型；

(3)LDA模型按照该用户的实际偏好输出跟该用户相关的各种主题标签及其权重。

与现有技术相比，本发明的积极效果是：能够将社交网络平台上众多的用户或客户个性化；即所有客户不再被看成简单的数字，而是具有不同偏好(标签)的个体。用个体的偏好和习惯来量化地勾勒出个体的具体细节轮廓。采用本发明方法得出的对个体属性和偏好的诠释在某些时候甚至能超过个体本人对自身的诠释和了解。

本发明可以将用户细分为个性化的群组，例如，喜欢网上购物的用户、喜欢阅读的用户以及喜欢听音乐的用户；可以用群组主题上类似的理念或者偏好一起来构成主题上有联系的群组；本发明还可以预测或者细分新的(或者未预见的)用户为各种主题。

具体实施方式

本发明主要包括两部分，第一，基于用户偏好和习惯的LDA建模。第二，运用训练好的模型来预测并且将用户细分为个性化群组。

第一部分：LDA模型训练

LDA算法的核心在于将用户偏好转变为便于LDA使用的文本模式：

首先将某一用户的习惯和偏好用来建立该用户的多个维度或者方面。例如，该人是否喜欢阅读、购物、旅行或者玩游戏。这就类似于一篇文档，其内容或者词从整体上来描述该文档的意义或者信息。

然后将这些用习惯和偏好表示的用户的维度信息填充到LDA算法里面。经历特定数量的模型培养，将这些用习惯和偏好表示的特定数量的用户的维度信息细分为N个不同的主题，即“主题1”、“主题2”、“主题3”、…“主题N”、，每个主题代表一个偏好和习惯。

第二部分：预测及用户聚类

在第二部分，基于用户的偏好，使用训练好的LDA模型来细分新用户：将各新用户的偏好数据填充到已经培育的LDA模型，然后输出各用户的各个主题的可能性，并与所有可能的主题相对应。比如：

用户1(主题3：50％；主题1：15％；…)；

用户2(主题10：45％；主题47：6％；…)；

用户3(主题23：54％；主题6：26％；...)；

…

用户M(主题7：76％；主题2：3％；…)；

例如，如果某位用户喜欢网上购物、阅读以及欣赏音乐，那么当我们把这些信息输入到训练好的LDA模型后，模型的输出(主题标签)在理论上是应该能把这些不同纬度的爱好反映出来的。也就是说，通过几个主题标签就能把一个用户的偏好和习惯表达出来。

以下是本发明方法步骤的详细描述：

一种基于LDA主题模型算法的用户细分方法，包括如下步骤：

步骤一、随机挑选一组用户，并为每一用户建立一个对应的文本文档：

1、随机挑选一组用户来构建训练数据集，用户数可为1000至1000万；

2、对于每一用户，从其文本文档中提取一组属性，用于描述该用户的偏好和习惯。也就是说，每位用户实际上就是一个单独的文档，用户的偏好和习惯也就是这个文档里的文字内容。

步骤二、构建用户偏好属性字典

1、结合所有训练用户的偏好属性于一个单独的字典，而且这个字典会记录每一个偏好属性的出现频率。比如，“网上购物”在5000个训练用户的偏好里出现，那么这个偏好属性的出现频率就是5000。

2、移除训练数据中出现频率低于5％的偏好属性。这是因为出现频率太低的偏好属性不会对LDA模型的准确度有任何的帮助；相反，频率低的偏好属性对模型的准确度是有害的。

3、移除训练数据中出现频率高于90％的偏好属性。这是因为出现频率太高的偏好属性不会对LDA模型的准确度有任何的帮助；相反，频率高的偏好属性对模型的准确度是有害的。

4、在剩下的偏好属性中，仅保留按出现频率从高到低排列的前N个偏好属性。N通常取6000至10000个，只要能满足用户偏好的维度即可，太多的偏好属性会影响计算速度。

步骤三、LDA模型训练

1、基于构建好的偏好属性字典，创建一个代表整个训练数据集的词袋BOW(Bag of words)。BOW算法的主要功能在于对一个文本，忽略其词序、语法和句法，将其仅仅看作是一个词的集合。也就是说，用一些比较有代表性的词的集合来代表一个文本的内容。

2、利用创建好的词袋(BOW)，把所有训练用户的偏好从文字格式转换到BOW格式。如表1所示，也就是说，我们所有的训练用户都用1或0来代替他们的偏好。1代表这个用户拥有某个偏好，0代表用户没有这个偏好。

表1：

3、将BOW格式的训练数据填入LDA模型来进行训练。也就是说，利用LDA算法把用户爱好根据相似度细分到不同的主题。以表2为例具体说明如下：

表2：

表2中左边是被LDA细分到一起的用户偏好，右边是根据相似度细分的主题标签。即，每一个LDA主题标签(右边的)会拥有不用维度的内容(左边的)。

步骤四、预测且细分新用户：

1、对于每一位新用户，按照步骤二的方法构建该用户的偏好属性字典；

2、按照步骤三的方法将该用户的偏好从文字格式转化为BOW格式，再将BOW格式的训练数据填入训练好的LDA模型；

3、LDA模型按照该用户的实际偏好输出跟该用户相关的各种主题标签及其权重，如表3所示。

表3：

用户1001	权重
		女生主题	32%
儿童游戏主题	30％
		网上购物主题	24％
...	...

也就是说，通过把用户的偏爱和爱好首先用文字描述，然后转变成BOW格式，输入到训练好的LDA模型来进行对用户画像。按照以上的例子，因为用户1001偏好有32％属于“女生主题”，30％属于“儿童游戏主题”，和24％的“网上购物主题”。那我们就可以判断这位用户是一名女性、可能有小孩和喜欢网上购物。

Claims

1.一种基于LDA主题模型算法的用户细分方法，其特征在于：包括如下步骤：

步骤二、构建用户偏好属性字典；

步骤三、LDA模型训练：

（1）基于构建好的用户偏好属性字典，创建一个代表整个训练数据集的词袋；

（2）利用创建好的词袋，把所有训练用户的偏好从文字格式转换到BOW格式；

（3）将BOW格式的训练数据填入LDA模型来进行训练；

步骤四、预测且细分新用户：

（1）对于每一位新用户，按照步骤二的方法构建该用户的偏好属性字典；

（2）按照步骤三的方法将该用户的偏好从文字格式转化为BOW格式，再将BOW格式的训练数据填入训练好的LDA模型；

（3）LDA 模型按照该用户的实际偏好输出跟该用户相关的各种主题标签及其权重。

2.根据权利要求1所述的一种基于LDA主题模型算法的用户细分方法，其特征在于：步骤二所述构建用户偏好属性字典的方法为：

（1）将所有训练用户的每一个偏好属性及各偏好属性的出现频率记录在一个单独的字典中；

（2）移除训练数据中出现频率低于5%的偏好属性；

（3）移除训练数据中出现频率高于90%的偏好属性；

（4）在剩下的偏好属性中，仅保留按出现频率从高到低排列的前N个偏好属性。

3.根据权利要求2所述的一种基于LDA主题模型算法的用户细分方法，其特征在于：N取6000至10000个。