CN110991548B

CN110991548B - 一种基于位置记录的用户人口学属性预测方法及系统

Info

Publication number: CN110991548B
Application number: CN201911280717.5A
Authority: CN
Inventors: 韩晓晖; 王连海; 刘广起; 杨淑棉; 张淑慧; 邹丰义; 毕晓燕; 匡瑞雪
Original assignee: Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2023-04-18
Anticipated expiration: 2039-12-13
Also published as: CN110991548A

Abstract

本发明公开了一种基于位置记录的用户人口学属性预测方法及系统，所述方法包括以下步骤：获取多个用户的人口学属性和一段时间内的位置记录；将每个用户的位置记录按照设定天数进行分割，得到多段位置记录；基于每段位置记录均构建一幅活动图像；以所述多个用户的活动图像和相应人口学属性为训练数据，训练人口学属性预测模型；获取人口学属性未知的用户位置记录，基于所述人口学属性预测模型进行人口学属性预测。本发明能够充分利用用户共享的位置数据中隐含的周期性模式与其人口学属性的高度关联性，解决数据稀疏问题，能够对LBS用户的人口学属性进行准确的预测。

Description

一种基于位置记录的用户人口学属性预测方法及系统

技术领域

本发明属于人口学属性预测技术领域，尤其涉及一种基于位置记录的用户人口学属性预测方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

随着智能手机、智能手表等便携式可定位设备的普及，基于位置服务(LocationBased Services，简称LBS)日趋流行，如Foursquare,大众点评等。在这些服务中，用户可以通过发布带有定位标记的内容来分享其日常生活中的位置，从而获得高质量、个性化的信息推荐服务。目前，LBS已经广泛覆盖了零售、交通、旅游、社交和个性化搜索等领域。在LBS向用户推荐各类信息的过程中，除位置信息外，用户的人口学属性(如性别、年龄、收入、文化程度等)也是重要的推荐依据。这些属性是影响用户潜在需求的重要因素，例如，同样位于商圈的用户，女性用户更偏向于访问服饰店和化妆品店，而男性用户更偏向于访问电子产品商店。因此，充分的利用用户的人口学属性能够有效的提高信息推荐的精准度。

目前，LBS网站所采用的用户人口学属性信息主要来自于用户在注册时填写的个人资料。然而，出于保护隐私等原因，绝大部分用户在注册时不会填写所有的个人资料项，并且已填写的属性信息也往往不是其真实的个人信息。属性缺失和信息不实严重影响了LBS的信息推荐效果，而人口学属性预测技术可基于用户产生的数据预测其人口学属性，能够有效的减轻上述不利影响，因而对于LBS网站有着重要意义。

针对网络用户的人口学属性预测技术近些年已经引起广泛的关注，现有大致可分为三类。其中，一类技术使用关联分析的方法挖掘用户人口学属性与搜索、浏览内容之间的联系，以实现对用户人口学属性的预测；另一类技术通过从用户发布的文本内容中抽取写作特征，使用SVM、决策树等分类算法实现对用户人口学属性的预测；还有一类技术根据用户社交网络中邻居节点的属性使用基于图标记更新的分类算法来预测该用户的人口学属性。

然而，上述技术在LBS环境下准确度都难以达到理想的效果，主要原因在于：首先，预测所依赖的数据与用户人口学属性的相关性有限，难以提取有效的特征；其次，部分预测所依赖的数据在LBS中比较匮乏(如长文本内容)，难以获得充足的数据构建模型。

发明内容

为克服上述现有技术的不足，本发明提供了一种基于位置记录的用户人口学属性预测方法及系统。能够充分利用用户共享的位置数据中隐含的周期性模式与其人口学属性的高度关联性，解决数据稀疏问题，能够对LBS用户的人口学属性进行准确的预测。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

一种基于位置记录的用户人口学属性预测方法，包括以下步骤：

获取多个用户的人口学属性和一段时间内的位置记录；

将每个用户的位置记录按照设定天数进行分割，得到多段位置记录；

基于每段位置记录均构建一幅活动图像；

以所述多个用户的活动图像和相应人口学属性为训练数据，训练人口学属性预测模型；

获取人口学属性未知的用户位置记录，基于所述人口学属性预测模型进行人口学属性预测。

进一步地，获取多个用户的位置记录后，还对这些位置记录进行预处理，将其中的具体位置名称替换为相应的位置类别。

进一步地，基于每段位置记录均构建一幅活动图像包括：

为所有位置类别赋予不同的像素值；

对于该段位置记录，以一天24小时的位置类别为一行，得到行数为设定天数的活动图像。

进一步地，为所有位置类别赋予不同的像素值包括：

获取所有的位置类别；

基于文本转向量的方法，得到每个位置类别的向量表示；

将每个位置类别的向量表示降维为三维向量表示；

对每个位置类别的三维向量表示进行归一化处理，使每一个分量的取值范围在[0,255]之间。

进一步地，训练人口学属性预测模型包括：

将所述多个用户的活动图像根据人口学属性的种类进行划分；

以所述多个用户的活动图像作为输入，以相应的人口学属性作为输出，训练卷积神经网络模型，得到人口学属性预测模型。

进一步地，所述卷积神经网络模型包括：卷积层、膨胀卷积层、平化层、全连接层和softmax层。

进一步地，对人口学属性未知的用户位置记录进行人口学属性预测包括：

获取人口学属性未知的用户位置记录；

将该用户的位置记录按照设定天数进行分割，得到多段位置记录；

基于每段位置记录均构建一幅活动图像；

对于每幅活动图像，均基于人口学属性预测模型进行人口学属性预测；

若存在多个不同的预测结果，选取数量最多的预测结果作为最终的人口学属性预测结果。

一个或多个实施例提供了一种基于位置记录的用户人口学属性预测系统，包括：

历史数据获取模块，获取多个用户的人口学属性和一段时间内的位置记录；

活动图像构建模块，将每个用户的位置记录按照设定天数进行分割，得到多段位置记录；基于每段位置记录均构建一幅活动图像；

预测模型训练模块，以所述多个用户的活动图像和相应人口学属性为训练数据，训练人口学属性预测模型；

人口学属性预测模块，获取人口学属性未知的用户位置记录，基于所述人口学属性预测模型进行人口学属性预测。

一个或多个实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的一种基于位置记录的用户人口学属性预测方法。

一个或多个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述的一种基于位置记录的用户人口学属性预测方法。

以上一个或多个技术方案存在以下有益效果：

本发明能够充分利用用户共享的位置数据预测用户的人口学属性值，一定程度上解决了数据稀疏问题，能够对LBS用户的人口学属性进行准确的预测。

本发明基于用户日常活动在时间维度的模式与用户的人口学属性的高度关联性，在活动成像的基础上训练卷积神经网络，将用户的日常活动从零散的具体位置抽象到活动层，进而能够捕获相同人口学属性的用户群体共有的周期性活动模式，因而可以获得更好的预测准确率；此外，整个过程不涉及特征提取，消除了特征选择算法对最终结果影响的不确定性。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例中基于位置记录的用户人口学属性预测方法流程图；

图2为本发明实施例中的用户活动成像流程图；

图3为本发明实施例中人口学属性预测模型训练流程图；

图4为本发明实施例中人口学属性预测流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例公开了一种基于位置记录的用户人口学属性预测方法，利用LBS中最丰富的位置数据，通过活动成像的方法，使用卷积神经网络捕获相同人口学属性的用户群体共有的周期性活动模式，能够对LBS用户的人口学属性进行准确的预测。如图1所示，具体包括以下步骤：

步骤1：获取大规模用户的位置记录及用户个人资料中的人口学属性值，形成数据集D；

其中，所述位置记录基于移动终端的LBS数据获取。每一条位置记录一般包括四方面信息，即用户ID、签到的时间戳、签到的地理位置坐标和签到的位置名称，可用四元组表示，例如ID为20196的用户的一条位置记录为[20196,2019年8月6日20:03:12,(40.72,74.00),Taqueria Diana]，其中“20196”为用户ID，“2019年8月6日20:03:12”为签到时间，“(40.72,74.00)”为经纬度坐标，“Taqueria Diana”为地点名称。所述人口学属性包括，如年龄、性别、职业、学历等。位置记录数据和用户人口学属性数据共同构成数据集D。

步骤2：对位置记录进行预处理，将D中用户的每一条位置记录的具体位置名称使用位置类别替代；

例如，如果位置名称为“济南奥体中心”则使用“体育场馆”将其替换，位置“Taqueria Diana”的类型为“墨西哥餐馆”，则用“墨西哥餐馆”替换“Taqueria Diana”。

步骤3：构建用户活动成像模型：将每个用户的位置记录按照设定天数进行分割，得到多段位置记录，基于每段位置记录均构建一幅活动图像。如图2所示，所述步骤3具体包括：

步骤3-1：获取所有用户的所有位置记录，为所有的位置类别赋予不同的像素值；

步骤3-1-1：将D中每一位用户的所有位置记录视为一篇文档，每一条以位置类别表示的位置记录视为构成该文档的一个词汇。则D中所有用户的位置记录构成了一个文档集合D’。具体地，文档中的每一条词汇顺序的对应了用户位置序列中的每一条位置的类别，如用户u的位置记录序列为s_u＝<r₁,r₂,r₃,r₄,…,r_n>，其中r_i为用户签到记录中的第i个位置记录。

步骤3-1-2：使用Word2Vector算法对D’进行处理，得到每一个位置类别(即D’中的词汇)的向量表示。

具体地，假设共有l个位置类别，位置类别v_i由word2vec模型输出的k维向量表示为v_i＝(x₁,x₂,…,x_k)，则所有位置类别的k维向量表示共同构成矩阵X，X的大小为l*k维，其中l>k。对矩阵X进行归一化处理，即：

其中

得到标准化后的矩阵X。

步骤3-1-3：使用主成分分析方法对位置类别的向量表示进行降维，每一个位置类别最终使用3维向量表示。

首先，求X的协方差矩阵R，R为l*l维矩阵，

然后，求协方差矩阵R的特征值及每个特征值对应的特征向量。将特征值按从大到小排列，选择最大的前3个特征值对应的特征向量构成映射矩阵W。使用矩阵W将位置类别的k维原始向量表示转换为3维向量表示，即计算：

Y＝WX

最终，每一个位置类别v_i由Y的第i行的向量y_i＝(y_i1,y_i2,y_i3)表示。

步骤3-1-4：对所有位置类别的3维向量表示进行缩放，使得所有向量的每一个分量的取值范围在[0,255]之间，从而形成了每一个位置类别在RGB色彩空间的一个颜色表示。

具体地，对位置类别的三维向量表示做归一化处理，使向量y_i的每一个分量的取值范围在[0,255]之间：

其中min(y_·j)和max(y_·j)分别为矩阵Y第j列的最小值和最大值。最终形成位置类别v_i在RGB色彩空间的颜色表示y’_i＝(y’_i1,y’_i2,y’_i3)，其中y’_i1,y’_i2,y’_i3分别为像素的r、g、b颜色分量值。

步骤3-2：将每一用户的位置记录按设定天数分割，对于每段位置记录，得到一幅以一天24小时的位置类别为一行，行数为设定天数的活动图像。

将D中每一用户u的位置记录按周进行分割。使用每一周的位置记录生成一副7*24像素的活动图像，其中的像素点(i,j)的颜色取值为用户在一周中第i天的第j个小时所在的位置类别对应的颜色表示，例如，用户在周三的晚上20:31在中国餐馆用餐，则活动图像的(3,8)位置的像素颜色为按照步骤1036获得的“中国餐馆”这一位置类别所对应的RGB色彩值。

由此得到用户u的活动图像集合M_u。将D中所有用户的活动图像集合用M表示。

步骤4：训练针对某一人口学属性attr的预测模型，具体步骤如下：

步骤4-1：在D中选取所有属性attr的值不为空的用户子集，记为DS，其对应的活动图像集合记为MS。

步骤4-2：假设属性attr共有K个取值，则将DS划分为K个子集，每个子集DS_k中的用户在属性attr上的取值相同，不同集合中的用户在属性attr上的取值不同。将DS_k中用户对应的活动图像集合记为MS_k

步骤4-3：将对属性attr的预测视为K类分类问题，使用MS作为训练集、MS_k中的活动图像作为对应属性取值的正例来训练卷积神经网络(CNN)模型，记训练好的模型为C。

如图3所示，所述卷积神经网络(CNN)模型是由“卷积层-膨胀卷积层-平化层-全连接层-softmax层”组成的神经网络。其中，卷积层的卷积核大小为3*3，步长为1，共使用16个特征图(feature map)，用0对边界进行填充，以保证输入与输出的大小相同，卷积操作后使用线性整流函数(ReLU)进行激活；第一个膨胀卷积层卷积核大小为3*3，膨胀率为2，步长为1，共使用32个特征图，用0对边界进行填充，以保证输入与输出的大小相同，卷积操作后使用线性整流函数(ReLU)进行激活；第二个膨胀卷积层卷积核大小为3*3，膨胀率为3，步长为1，共使用32个特征图，用0对边界进行填充，以保证输入与输出的大小相同，卷积操作后使用线性整流函数(ReLU)进行激活；平化(Flatten)层将膨胀卷积层的输出平化为一个向量作为全链接层的输入；全链接层的输出为K维，对应人口学属性属性attr的K个不同取值；使用softmax将全链接层的输出映射成一个概率分布，也就是将向量中每一分量的值转化为(0,1)之间的一个实数，且所有分量之和为1。Softmax函数的具体形式为：

公式左边为输出向量的第i维的值，z为全连接层的输出向量，zi为该向量的第i维。最终，在softmax输出向量的分量中值最大的分量对应输入图像最可能的类别。在训练模型参数时，损失层使用交叉熵损失作为损失函数，其形式如下：

其中

为训练样本在属性attr上的真实取值，p_i为模型预测的attr的取值。基于此损失函数，使用梯度下降法求解模型参数。

步骤5：使用训练好的预测模型对attr属性为空的用户进行取值预测，如图4所示，具体步骤如下：

步骤5-1：基于目标用户t的位置记录生成其活动图像集合Mt。

步骤5-2：对于Mt中的每一幅图像Mt_i，使用C对Mt_i进行类别预测，C的输出为基于Mt_i对t在属性attr上的取值做出的判别

步骤5-3：基于C对Mt中每一幅图像的类别预测，采用投票的方法选取数量最多的类别作为t在属性attr上的最终取值。

实施例二

本实施例的目的是提供一种基于位置记录的用户人口学属性预测系统，包括：

实施例三

本实施例的目的是提供一种电子设备。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤，包括：

获取多个用户的人口学属性和一段时间内的位置记录；

基于每段位置记录均构建一幅活动图像；

实施例四

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行以下步骤：

获取多个用户的人口学属性和一段时间内的位置记录；

基于每段位置记录均构建一幅活动图像；

以上实施例二、三和四中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

以上一个或多个实施例具有以下技术效果：

能够充分利用用户共享的位置数据预测用户的人口学属性值，一定程度上解决了数据稀疏问题，能够对LBS用户的人口学属性进行准确的预测。

基于用户日常活动在时间维度的模式与用户的人口学属性的高度关联性，在活动成像的基础上训练卷积神经网络，将用户的日常活动从零散的具体位置抽象到活动层，进而能够捕获相同人口学属性的用户群体共有的周期性活动模式，因而可以获得更好的预测准确率；此外，整个过程不涉及特征提取，消除了特征选择算法对最终结果影响的不确定性。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于位置记录的用户人口学属性预测方法，其特征在于，包括以下步骤：

获取多个用户的人口学属性和一段时间内的位置记录；

基于每段位置记录均构建一幅活动图像；

2.如权利要求1所述的基于位置记录的用户人口学属性预测方法，其特征在于，获取多个用户的位置记录后，还对这些位置记录进行预处理，将其中的具体位置名称替换为相应的位置类别。

3.如权利要求2所述的基于位置记录的用户人口学属性预测方法，其特征在于，基于每段位置记录均构建一幅活动图像包括：

为所有位置类别赋予不同的像素值；

4.如权利要求3所述的基于位置记录的用户人口学属性预测方法，其特征在于，为所有位置类别赋予不同的像素值包括：

获取所有的位置类别；

基于文本转向量的方法，得到每个位置类别的向量表示；

将每个位置类别的向量表示降维为三维向量表示；

5.如权利要求1所述的基于位置记录的用户人口学属性预测方法，其特征在于，训练人口学属性预测模型包括：

6.如权利要求5所述的基于位置记录的用户人口学属性预测方法，其特征在于，所述卷积神经网络模型包括：卷积层、膨胀卷积层、平化层、全连接层和softmax层。

7.如权利要求4所述的基于位置记录的用户人口学属性预测方法，其特征在于，对人口学属性未知的用户位置记录进行人口学属性预测包括：

获取人口学属性未知的用户位置记录；

基于每段位置记录均构建一幅活动图像；

8.一种基于位置记录的用户人口学属性预测系统，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的一种基于位置记录的用户人口学属性预测方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的一种基于位置记录的用户人口学属性预测方法。