CN104463633A

CN104463633A - 一种基于地理位置和兴趣点信息的用户细分方法

Info

Publication number: CN104463633A
Application number: CN201410799873.3A
Authority: CN
Inventors: 张一文
Original assignee: Chengdu Pinguo Technology Co Ltd
Current assignee: Chengdu Pinguo Technology Co Ltd
Priority date: 2014-12-19
Filing date: 2014-12-19
Publication date: 2015-03-25

Abstract

本发明公开了一种基于地理位置和兴趣点信息的用户细分方法，具体包括如下步骤：步骤一、选择训练用户，并将其兴趣点信息转化为文本形式；步骤二、构建用户兴趣点属性字典；步骤三、LDA模型训练；步骤四、预测且细分新用户：（1）对于每一位新用户，按照步骤二的方法构建该用户的兴趣点属性字典；（2）按照步骤三的方法将该用户的兴趣点从文字格式转化为BOW格式，再将BOW格式的训练数据填入训练好的LDA模型；（3）LDA 模型按照该用户的兴趣点输出跟该用户相关的各种主题标签及其权重。通过用户经常去到的地方将用户进行细分。

Description

一种基于地理位置和兴趣点信息的用户细分方法

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于地理位置和兴趣点信息的用户细分方法。

背景技术

为了能够提供个性化的市场营销战略，需要根据用户的一些特征将用户进行细分。比如当需要将社交网络上的用户进行细分时，可以通过分析用户所听的音乐类型、喜欢看的电影或者电视剧类型、浏览的网站类型、喜欢拍或者观赏的照片、社交网络上结交的朋友类型以及喜欢阅读的书籍类型。最终，我们能够从社交网络上搜寻到某个特定的用户，例如他们的爱好和私人信息。可以将用户细分为(1)喜欢玩游戏的用户；(2)喜欢听音乐的用户；(3)喜欢看电影的用户；(4)喜欢网上购物的用户；(5)喜欢阅读的用户；(6)喜欢旅行的用户；(7)喜欢美食的用户等等，这是根据用户使用的软件以及网页浏览的习惯对用户进行细分。

然而，当用户没有使用这些软件或者没有浏览网页的时候，如何对这些用户进行细分则没有有效的方法。

发明内容

针对现有技术中的上述技术问题，本发明公开了一种基于地理位置和兴趣点信息的用户细分方法。

本发明的发明目的通过下述技术方案来实现：

本发明公开了一种基于地理位置和兴趣点信息的用户细分方法，具体包括如下步骤：

步骤一、选择一组用户作为训练用户，根据其中每个用户的地理位置得到其周边的兴趣点信息，并将该兴趣点信息转化为文本形式；

步骤二、构建用户兴趣点属性字典：将所有训练用户的兴趣点信息集合在用户属性字典中；

步骤三、LDA模型训练：

(1)基于构建好的用户属性字典，创建一个代表整个训练数据集的词袋BOW；

(2)利用创建好的词袋，把所有训练用户的兴趣点信息从文字格式转换到BOW格式；

(3)将BOW格式的训练数据填入LDA模型来进行训练；

步骤四、预测且细分新用户：

(1)对于每一位新用户，按照步骤二的方法构建该用户的兴趣点属性字典；

(2)按照步骤三的方法将该用户的兴趣点从文字格式转化为BOW格式，再将BOW格式的训练数据填入训练好的LDA模型；

(3)LDA模型按照该用户的兴趣点输出跟该用户相关的各种主题标签及其权重。通过用户的可能渠道的兴趣点将用户进行细分。

更进一步地，上述方法还包括移除训练数据中兴趣点出现次数少于5次的属性。这是因为出现频率太低的兴趣点不会对LDA模型的准确度有任何的帮助；相反，频率低的兴趣点对模型的准确度是有害的。

更进一步地，上述方法还包括移除训练数据中出现频率高于90％的兴趣点信息。这是因为出现频率太高的兴趣点不会对LDA模型的准确度有任何的帮助；相反，频率高的兴趣点对模型的准确度是有害的。

更进一步地，上述地理位置通过GPS定位得到。

更进一步地，上述兴趣点信息从定位数据对应的电子地图中获取。比如百度地图。

通过采用以上的技术方案，本发明的有益效果是：通过将客户去过的地方来量化的勾勒出用户的类型，即所有客户不再被看成简单的数字，而是具有不同兴趣点(标签)的个体。用用户的兴趣点来量化地勾勒出用户的具体细节轮廓。采用本发明方法得出的对用户兴趣点的诠释在某些时候甚至能超过个体本人对自身的诠释和了解。本发明可以将用户细分为个性化的群组，例如，喜欢运动的用户、学生用户以及喜欢购物的用户的用户；可以用群组主题上类似的兴趣点一起来构成主题上有联系的群组；本发明还可以预测或者细分新的(或者未预见的)用户为各种主题。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合具体实施例，对本发明进行进一步详细的说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明中，POI是兴趣点(Point of Interest)的简称。POI是指大众可能觉得有用或感兴趣的具体地点。POI在电子地图中通常包含各大酒店、露营地点、加油站、商铺、医院和现代GPS系统中可能出现的其他分类里涵盖的地点。GPS系统中关注点的具体信息至少会显示POI的经纬度、地名和相关常见信息内容。其他涉及到的地点信息还可以包括海拔高度或联系电话等。因此，当知道一个GPS的定位坐标，就可以利用类似百度地图这样的POI信息，就能搜索出设定区域内所有的兴趣点信息。

LDA算法，Latent Dirichlet Allocation(潜在主题抽取)算法，Latent Dirichlet Allocation(潜在主题抽取)或者LDA，是一种被应用在文本挖掘方面的机器学习方法，通常目的在于从一个文档集合中自动发现专题论题。简而言之，LDA模型从一大堆文档集合中抽取一个预先确定数量的主题，而且该训练模式可以被用来推断其后任何文档的主题(不同的权重)。例如，一个文档谈论苹果电脑和汽车，那么其推断主题很可能即为“电脑”和“汽车”。主题建模是指，将整个文档集合细分成相关少数主题的词并且作为主题融合代表每个文档。这样，通过察看主题中的词就可以解释这个模型。

其中的一个实施例

步骤三、LDA模型训练：

(3)将BOW格式的训练数据填入LDA模型来进行训练；

步骤四、预测且细分新用户：

(3)LDA模型按照该用户的兴趣点输出跟该用户相关的各种主题标签及其权重。

该发明主要包括两个大的步骤：构建模型和用户细分，具体步骤如下：

步骤一、构建基于地理位置和兴趣点信息的潜在主题抽取模型LDA模型：步骤S11.获取用户移动终端所在的地理位置，根据地理位置的定位数据得到对应电子地图周边的兴趣点信息，并将该兴趣点信息转化为文本形式；步骤S12.采用潜在主题抽取算法将该文本形式的兴趣点信息转化为兴趣点主题，得到潜在主题抽取模型；步骤S13.利用训练数据依次采用上述步骤S11和S12训练潜在主题抽取模型；

步骤二、根据新用户的地理位置和兴趣点信息对新用户进行细分：步骤S21.对于新用户，获取该新用户移动终端所在的地理位置，根据地理位置的定位数据得到对应电子地图周边的兴趣点信息，并将该兴趣点信息转化为文本形式；S22.将新用户的文本形式的兴趣点信息填入训练好的潜在主题抽取模型，潜在主题抽取模型按照该新用户的兴趣点信息输出跟该用户相关的各种主题标签及其权重；S23.根据新用户的主题标签及其权重对该新用户进行细分。

本发明主要包括两部分，第一，基于用户的POI信息，利用LDA算法进行建模。第二，如何运用训练好的模型来预测并且细分用户。

第一部分：LDA模型训练

LDA算法的核心在于将用户兴趣点的信息转化为便于LDA使用的文本模式。

首先建立用户的兴趣点信息。比如可以根据每一个用户的GPS信息(当然，也不限于采用GPS来进行地理位置信息的获取)来提取POI信息，比如范围可以是提取定位点周边直径50米内(其范围可以根据需要进行其他的设定)的POI数据，可以把每个POI的名称和种类的标签首先进行利用(例如：名称为XX饭店，类型位餐饮；名称为XX学院，类型为学校)，然后将该这些信息都转化为文字的格式，得到如下所示的文本形式。

然后将这些POI信息填充到LDA算法里面。经历特定数量的模型培养，将这些POI信息细分为N个不同的主题，即“主题1”、“主题2”、“主题3”、…“主题N”，每个主题代表用户的一个特征或者行为习惯。通过这样的方法用户的地理位置信息被记录入档，而他们的去向则通过他们的POI信息反映出来，形成档案内容，然后利用用户经常入出的场所信息预测用户特征或者行为习惯。比如：经常在大学校园内活动的人极可能是大学生。

一旦我们的用户信息以文本形式表现且训练数据足够时，LDA模型就能生成预定数量的POI主题，如下所示的LDA模型生成的一部分POI主题内容。

第二部分：预测及用户聚类

在第二部分，基于用户的兴趣点信息，使用训练好的LDA模型来细分新用户：将各新用户的兴趣点信息填充到已经培育好的LDA模型，然后输出各用户的各个主题的可能性，并与所有可能的主题相对应。比如：

用户1(主题3：50％；主题1：15％；…)；

用户2(主题10：45％；主题47：6％；…)；

用户3(主题23：54％；主题6：26％；...)；

…

用户M(主题7：76％；主题2：3％；…)；

例如，如果将某位用户的兴趣点信息输入到LDA模型后，输出该用户有52％的学校主题，30％的健身运动主题，则可以判断该用户是一名喜欢运动的学生。

以下是本发明方法步骤的详细描述：

一种基于地理位置和兴趣点信息的用户细分方法，包括如下步骤：

步骤一、随机挑选一组用户，并为其中的每一个用户建立一个对应的文本文档：

1、随机挑选一组用户来构成训练数据集，这一组中的用户数可以为1000至1000万个；

2、根据每一个用户的GPS信息来提取POI信息，范围条件是以地理位置为中心，直径50米内的POI数据；

3、把POI信息变成文字的格式：把每个POI的名称和种类的标签首先进行利用。每一个用户就是一个文本，其POI信息就是该文本的内容。

步骤二、构建用户兴趣点属性字典

1、集合所有训练用户的POI信息于一个特别的“字典”，而且这个字典会记录每一个POI出现的次数。比如说，“XX点”在5000个训练用户的POI里出现，那么这个POI的Frequency(频率)也就是5000。

2、移除训练数据中POI属性发生数少于5次的属性。这是因为出现频率太低的兴趣点属性不会对LDA模型的准确度有任何的帮助；相反，频率低的兴趣点属性对模型的准确度是有害的。

3、、移除训练数据中出现频率高于90％的POI信息。这是因为出现频率太高的兴趣点属性不会对LDA模型的准确度有任何的帮助；相反，频率高的兴趣点属性对模型的准确度是有害的。

4、在剩下的兴趣点属性中，仅保留按出现频率从高到低排列的前N个兴趣点属性。N通常最大取至10000个，只要能满足用户兴趣点的维度即可，太多的兴趣点属性会影响计算速度。

步骤三、LDA模型训练

1、基于构建好的用户兴趣点属性字典，创建一个代表整个训练数据集的词袋BOW(Bag of words)。BOW词袋的主要功能在于对一个文本，忽略其词序、语法和句法，将其仅仅看作是一个词的集合。也就是说，用一些比较有代表性的词的集合来代表一个文本的内容。

2、利用创建好的词袋(BOW)，把所有训练用户的兴趣点从文字格式转换到BOW格式。如下表所示，也就是说，我们所有的训练用户都用1或0来代替他们的兴趣点。1代表这个用户拥有某个兴趣点，0代表用户没有这个兴趣点。例如：用户1001的文字格式为：电影院、衣服店、体育中心、游泳池、学校、XX公司，转化为BOW格式之后如下：

电影院	衣服店	KTV	酒吧	体育中心	公园	游泳池	SPA	学校
									1	1	0	0	1	0	1	0	1

即用户1001的BOW格式为：1，1，0，0，1，0，1，0，1

3、将这些BOW格式的训练数据，和以下参数填入LDA模来进行

训练：

信息组块大小(Chunk size)：2000

次数(Passes)：1

α(Alpha)＝对称

η(Eta)＝默认值

衰减系数(Decay)＝0.5

迭代(Iteration)＝50

γ(Gamma)＝0.001

(根据任务，专题论题数可由10变化到200)

步骤四、预测且细分新用户：

1、对于每一位新用户，构建该用户的兴趣点属性字典；

2、将该用户的兴趣点从文字格式转化为BOW格式，再将BOW格式的训练数据填入训练好的LDA模型；

3、LDA模型按照该用户的实际兴趣点输出跟该用户相关的各种主题标签及其权重，如下表所示。

用户1001	权重
		学校主题	52％
健身运动主题	30％
		……

也就是说，通过把用户的兴趣点首先用文字描述，然后转变成BOW格式，再输入到训练好的LDA模型来进行对比。按照以上的例子，因为用户1001的兴趣点有52％属于“学校主题”，30％属于“健身运动主题”。那我们就可以判断这位用户是一名喜欢运动的学生用户。

上述说明示出并描述了本发明的一个优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于地理位置和兴趣点信息的用户细分方法，具体包括如下步骤：

步骤三、LDA模型训练：

（1）基于构建好的用户属性字典，创建一个代表整个训练数据集的词袋BOW；

（2）利用创建好的词袋，把所有训练用户的兴趣点信息从文字格式转换到BOW格式；

（3）将BOW格式的训练数据填入LDA模型来进行训练；

步骤四、预测且细分新用户：

（1）对于每一位新用户，按照步骤二的方法构建该用户的兴趣点属性字典；

（2）按照步骤三的方法将该用户的兴趣点从文字格式转化为BOW格式，再将BOW格式的训练数据填入训练好的LDA模型；

（3）LDA 模型按照该用户的兴趣点输出跟该用户相关的各种主题标签及其权重。

2.如权利要求1所述的基于地理位置和兴趣点信息的用户细分方法，其特征在于所述方法还包括移除训练数据中兴趣点出现次数少于5次的属性。

3.如权利要求1或者2所述的基于地理位置和兴趣点信息的用户细分方法，其特征在于所述方法还包括移除训练数据中出现频率高于90%的兴趣点信息。

4.如权利要求1或者2所述的基于地理位置和兴趣点信息的用户细分方法，其特征在于所述地理位置通过ＧＰＳ定位得到。

5.如权利要求4所述的基于地理位置和兴趣点信息的用户细分方法，其特征在于所述兴趣点信息从定位数据对应的电子地图中获取。