CN106506705B - 基于位置服务的人群分类方法及装置 - Google Patents

基于位置服务的人群分类方法及装置 Download PDF

Info

Publication number
CN106506705B
CN106506705B CN201611249508.0A CN201611249508A CN106506705B CN 106506705 B CN106506705 B CN 106506705B CN 201611249508 A CN201611249508 A CN 201611249508A CN 106506705 B CN106506705 B CN 106506705B
Authority
CN
China
Prior art keywords
matrix
user
track
vector
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611249508.0A
Other languages
English (en)
Other versions
CN106506705A (zh
Inventor
毕野
王建明
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201611249508.0A priority Critical patent/CN106506705B/zh
Priority to PCT/CN2017/076323 priority patent/WO2018120424A1/zh
Publication of CN106506705A publication Critical patent/CN106506705A/zh
Application granted granted Critical
Publication of CN106506705B publication Critical patent/CN106506705B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2237Vectors, bitmaps or matrices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/52Network services specially adapted for the location of the user terminal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/55Push-based network services

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Software Systems (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基于位置服务的人群分类方法及装置。该基于位置服务的人群分类方法包括:基于位置服务获取用户的地理位置信息,所述地理位置信息包括与时间相关联的POI信息;对任一用户在预设期间内所有的地理位置信息进行聚类分析,获取生活习惯轨迹向量表;利用所述生活习惯轨迹向量表构建原始用户轨迹矩阵;采用奇异值分解算法对所述原始用户轨迹矩阵进行矩阵分解,获取重构用户轨迹矩阵;基于所述重构用户轨迹矩阵确定与目标用户相对应的社交相似用户。该基于位置服务的人群分类方法获取与目标用户相对应的相似社交用户的过程操作简单方便,无需采集大量数据,且获取的社交相似用户与目标用户的生活习惯具有较高的相似性和客观性。

Description

基于位置服务的人群分类方法及装置
技术领域
本发明涉及信息处理技术领域,尤其涉及一种基于位置服务的人群分类方法及装置。
背景技术
随着互联网的发展,人们的生活越来越多地与互联网紧密联系在一起。随着人们日常生活节奏越来越快,用户日益希望能够通过互联网快速找到自己需要的产品或服务,以达到节省时间的效果。相应地,产品或服务提供者也希望通过互联网快速找到需要其提供的产品或服务的目标用户,并向目标用户推荐其产品或服务,以促使产品或服务提供者与目标用户之间达到相应的交易。在银行、保险等金融机构给客户提供风险类金融产品时,目标用户的设置,不仅可使金融机构对目标用户进行业务推广或广告宣传,还在一定程度上对风险类金融产品的风险控制管理。
现有相似用户的确定过程如下:通过互联网获取用户基本信息(包括年龄、性别、学历和职业等)和互联网社交信息(如微博、微信和QQ等),并对用户基本信息和互联网社交信息进行分类,以将所有用户划分成若干分类人群(如基于学历、职业、消费能力等),通过对目标用户的用户基本信息和互联网社交信息进行分析处理,确定其所属的分类人群,以确定与目标用户相对应的相似用户,基于相似用户的喜好给目标用户推荐产品或服务,以提高目标用户对推荐产品或服务的接受率。现有相似用户的确定过程,不仅存在信息采集数量大的问题,还存在分类结果准确性较低和主观性较强的问题,导致每一分类人群的相似用户之间的联系性较弱,使得产品或服务提供者向同一分类人群下的相似用户进行业务推广或广告宣传时,无法得到相似用户的响应。
发明内容
本发明针对现有相似用户确定过程中存在的问题,提供一种基于位置服务的人群分类方法及装置。
本发明解决其技术问题所采用的技术方案是:一种基于位置服务的人群分类方法,包括:
基于位置服务获取用户的地理位置信息,所述地理位置信息包括与时间相关联的POI信息;
对任一用户在预设期间内所有的地理位置信息进行聚类分析,获取生活习惯轨迹向量表;
利用所述生活习惯轨迹向量表构建原始用户轨迹矩阵;
采用奇异值分解算法对所述原始用户轨迹矩阵进行矩阵分解,获取重构用户轨迹矩阵;
基于所述重构用户轨迹矩阵确定与目标用户相对应的社交相似用户。
优选地,所述对任一用户在预设期间内所有的地理位置信息进行聚类分析,获取生活习惯轨迹向量表,包括:
采用DBSCAN算法对任一用户在预设期间内所有POI信息进行聚类,以获取若干子集群;
采用K-MEANS算法对每一所述子集群进行迭代聚合,获取每一所述子集群的质心POI信息,并将所述质心POI信息作为轨迹点输出;
依时间顺序将预设期间内所有轨迹点排序,以获取所述生活习惯轨迹向量表。
优选地,所述利用所述生活习惯轨迹向量表构建原始用户轨迹矩阵,包括:
对n个用户的生活习惯轨迹向量表中所有轨迹点进行去重处理,获取m个去重轨迹点;
基于每一用户的生活习惯轨迹向量表中各去重轨迹点出现的次数或频率,以形成m*1阶原始向量;
采用n个用户对应的m*1阶原始向量,构建m*n阶原始用户轨迹矩阵。
优选地,所述采用奇异值分解算法对所述原始用户轨迹矩阵进行矩阵分解,获取重构用户轨迹矩阵,包括:
采用奇异值分解算法对m*n阶原始用户轨迹矩阵进行矩阵分解,以获取m*m阶左奇异向量矩阵、n*n阶右奇异向量矩阵的转置和m*n阶奇异值对角矩阵;
选取所述奇异值对角矩阵的主对角线上前k个奇异值,对所述左奇异向量矩阵、所述右奇异向量矩阵的转置和所述奇异值对角矩阵进行降维处理;以获取m*k阶重构左奇异向量矩阵、n*k阶右奇异向量矩阵的转置和k*k阶奇异值对角矩阵,以形成重构用户轨迹矩阵。
优选地,所述基于所述重构用户轨迹矩阵确定目标用户的社交相似用户,包括:
获取所述目标用户的m*1阶目标向量;
采用余弦相似度算法计算所述目标向量与所述原始向量的相似度;
将相似度最高的所述原始向量对应的用户确定为目标用户的社交相似用户。
本发明还提供一种基于位置服务的人群分类装置,包括:
位置信息获取模块,用于基于位置服务获取用户的地理位置信息,所述地理位置信息包括与时间相关联的POI信息;
轨迹向量表获取模块,用于对任一用户在预设期间内所有的地理位置信息进行聚类分析,获取生活习惯轨迹向量表;
轨迹矩阵构建模块,用于利用所述生活习惯轨迹向量表构建原始用户轨迹矩阵;
矩阵分解模块,用于采用奇异值分解算法对所述原始用户轨迹矩阵进行矩阵分解,获取重构用户轨迹矩阵;
相似用户确定模块,用于基于所述重构用户轨迹矩阵确定与目标用户相对应的社交相似用户。
优选地,所述轨迹向量表获取模块包括:
子集群获取单元,用于采用DBSCAN算法对任一用户在预设期间内所有POI信息进行聚类,以获取若干子集群;
轨迹点获取单元,用于采用K-MEANS算法对每一所述子集群进行迭代聚合,获取每一所述子集群的质心POI信息,并将所述质心POI信息作为轨迹点输出;
向量表获取单元,用于依时间顺序将预设期间内所有轨迹点排序,以获取所述生活习惯轨迹向量表。
优选地,所述轨迹矩阵构建模块包括:
去重轨迹点获取单元,用于对n个用户的生活习惯轨迹向量表中所有轨迹点进行去重处理,获取m个去重轨迹点;
原始向量获取单元,用于基于每一用户的生活习惯轨迹向量表中各去重轨迹点出现的次数或频率,以形成m*1阶原始向量;
原始矩阵构建模块,用于采用n个用户对应的m*1阶原始向量,构建m*n阶原始用户轨迹矩阵。
优选地,所述矩阵分解模块包括:
矩阵分解单元,用于采用奇异值分解算法对m*n阶原始用户轨迹矩阵进行矩阵分解,以获取m*m阶左奇异向量矩阵、n*n阶右奇异向量矩阵的转置和m*n阶奇异值对角矩阵;
矩阵降维单元,用于选取所述奇异值对角矩阵的主对角线上前k个奇异值,对所述左奇异向量矩阵、所述右奇异向量矩阵的转置和所述奇异值对角矩阵进行降维处理;以获取m*k阶重构左奇异向量矩阵、n*k阶右奇异向量矩阵的转置和k*k阶奇异值对角矩阵,以形成重构用户轨迹矩阵。
优选地,所述相似用户确定模块包括:
目标向量获取单元,用于获取所述目标用户的m*1阶目标向量;
相似度计算单元,用于采用余弦相似度算法计算所述目标向量与所述原始向量的相似度;
相似用户确定单元,用于将相似度最高的所述原始向量对应的用户确定为目标用户的社交相似用户。
本发明与现有技术相比具有如下优点:本发明所提供的基于位置服务的人群分类方法及装置中,通过对用户在预设期间内获取的地理位置信息进行聚类分析,获取生活习惯轨迹向量表,由于地理位置信息具有较强的客观性和可靠性,使得形成的生活习惯轨迹向量表也具有较强的客观性和可靠性。再基于生活习惯轨迹向量表构建原始用户轨迹矩阵并采用奇异值分解算法进行矩阵,获取重构用户轨迹矩阵,可基于该重构用户轨迹矩阵确定与目标用户相对应的社交相似用户。基于重构用户轨迹矩阵确定与目标用户相对应的社交相似用户的过程,操作简单方便,无需采集大量数据,且获取的社交相似用户与目标用户的生活习惯具有较高的相似性和客观性,可向目标用户推送与社交相似用户相同的产品或服务,以提高目标用户对推送产品或服务的接受度,有利进行业务推广、广告宣传等。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例1中基于位置服务的人群分类方法的一流程图。
图2是本发明实施例2中基于位置服务的人群分类装置的一原图框图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
实施例1
图1示出本实施例中基于位置服务的人群分类方法的流程图。该基于位置服务的人群分类方法由银行、保险等金融机构中的终端执行,用于确定与目标用户相对应的社交相似用户,进行人群分类,以实现对社交相似用户进行业务推广或广告宣传,也可以对社交相似用户购买风险类金融产品进行风险管控。如图1所示,该基于位置服务的人群分类方法包括如下步骤:
S10:基于位置服务获取用户的地理位置信息,地理位置信息包括与时间相关联的POI信息。
本实施例中,目标用户是所有用户中的一个。以任一用户一天的地理位置信息为例,该地理位置信息中包括0:00—24:00的POI信息,每一POI信息用于指示电子地图中的一点,包括POI点名称、经度和纬度等信息,基于用户的地理位置信息,可了解用户每天经过的家庭住址、办公场所、购物场所、娱乐场所、健身场所等信息。可以理解地,基于位置服务获取用户的地理位置信息,具有较强的客观性和可靠性。
基于位置服务(Location Based Service,简称LBS)是通过电信移动运营商的无线电通讯网络(如GSM网、CDMA网)或外部定位方式(如GPS)获取移动终端用户的位置信息(地理坐标,或大地坐标),在地理信息系统(Geographic Information System,简称GIS)平台的支持下,为用户提供相应服务的一种增值业务。总体来看,LBS由移动通信网络和计算机网络结合而成,两个网络之间通过网关实现交互。移动终端通过移动通信网络发出请求,经过网关传递给LBS服务平台;LBS服务平台根据用户请求和用户当前位置进行处理,并将结果通过网关返回给用户。POI(Point Of Interest,即兴趣点或信息点),包括名称、类型、经度、纬度等资料,以使POI可在电子地图上呈现,以标示电子地图上的某个地点信息。
本实施例中,基于位置服务的移动终端为智能手机,通过开启智能手机上的定位功能,以使LBS服务平台实时获取智能手机的地理位置信息,从而了解携带该智能手机的用户的地理位置信息。地理位置信息包括与时间相关联的POI信息中的时间包括日期和时刻,通过该地理位置信息可了解用户在任一时刻所处的POI信息。可以理解地,地理位置信息与用户ID相关联,用户ID用于识别唯一识别用户,可以是身份证号或手机号。
可以理解地,为了减少数据处理量,提高处理效率,可预先设置时间阈值,以使基于位置服务获取用户的地理位置信息时,只获取用户在任一地点停留时间达到该时间阈值的POI信息,以避免采集到的与时间相关联的POI信息的数据量较多,导致处理效率低的问题。
S20:对任一用户在预设期间内所有的地理位置信息进行聚类分析,获取生活习惯轨迹向量表。
其中,生活习惯轨迹向量表由依据时间顺序排序的轨迹点组成。轨迹点是用户日常生活中经过的地点,可以是家庭住址、办公场所、购物场所、娱乐场所、健身场所等地点,可在电子地图中显示。其中,预设期间可以是当前系统时间之前的任意一段时间,可以为一个月、三个月或半年,可根据需求自主设置。可以理解地,预设期间越长,其采集到的地理位置信息的数据量越多,处理结果的准确性越高;预设期间越短,其处理效率越高。本实施例中,从处理结果的准确性和处理效率方面进行考虑,将设预设期间设置为1个月。
在一具体实施方式中,步骤S20包括如下步骤:
S21:采用DBSCAN算法对任一用户在预设期间内所有POI信息进行聚类,以获取若干子集群。
其中,DBSCAN(Density-Based Spatial Clustering of Applications withNoise,具有噪声的基于密度的聚类方法)是一种基于密度的空间算法。该算法将具有足够密度的区域划分为簇,并在具有噪声的空间数据库中发现任意形状的簇,它将簇定义为密度相连的点的最大集合。DBSCAN算法具有聚类速度快且能够有效处理噪声和发现任意形成的空间聚类的优点。
本实施例中,预先设置DBSCAN算法中的预设扫描半径(以下简称为eps)和最小包含点数(minPts),任选一个未被访问(unvisited)的POI信息开始,找出与其距离在eps之内(包括eps)的所有POI信息,将POI信息与距离在eps之内的所有POI信息作为一个子集群输出。
S22:采用K-MEANS算法对每一子集群进行迭代聚合,获取每一子集群的质心POI信息,并将质心POI信息作为轨迹点输出。
K-MEANS算法是很典型的基于距离的算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。其计算公式为
Figure BDA0001197766060000091
其中,k个初始类聚类中心点的选取对聚类结果具有较大的影响,因为在该算法第一步中是随机的选取任意k个对象作为初始聚类的中心,初始地代表一个簇。该算法在每次迭代中对数据集中剩余的每个对象,根据其与各个簇中心的距离将每个对象重新赋给最近的簇。若一次迭代前后,J的值没有发生变化,说明算法已经收敛。K-MEANS算法可快速简单地对数据进行聚类,对大数据集具有较高的效率且可伸缩性,时间复杂度近于线性,而且适合挖掘大规模数据集。
本实施例中,采用K-MEANS算法对每一子集群中的POI信息进行迭代聚合,直到最后一次迭代时,迭代前后数值没有发生变化,则获取该子集群的质心POI信息,该质心POI信息对应一轨迹点。
S23:依时间顺序将预设期间内所有轨迹点排序,以获取生活习惯轨迹向量表。
本实施例中设预设期间为1个月,步骤S23中,先将每天获取到的与时间相关联的轨迹点按时间顺序进行排序,再将连续1个月的轨迹点按日期连接起来,从而形成生活习惯轨迹向量表。该生活习惯轨迹向量表可清楚体现客户在预设期间内所经过的家庭住址、办公场所、购物场所、娱乐场所、健身场所等轨迹点,具有较强的客观性和可靠性。
具体地,若A为家庭住址,B为办公场所,C为购物场所,D为娱乐场所,E为健身场所,F为公园,G为医院等等;且A’和A”为A附近500m内的地点,B’和B”为B附近500m内的地点,C’和C”为C附近500m内的地点,D’和D”为D附近500m内的地点,D’和D”为D附近500m内的地点,D’和D”为D附近500m内的地点,……G’和G”为G附近500m内的地点。在1个月内,第一天的地理位置信息包括A、A’、B’、B、C”、C、B”、B、E”、E、A”、A等POI信息;第二天的地理位置信息包括A、A’、B’、B、D”、D、B”、B、F”、F、A”、A等POI信息……依此类推。步骤S21中采用DBSCAN算法进行聚类时,将1个月内所有POI信息,通过设置扫描半径(以下简称为eps)为500m和最小包含点数(minPts)为1,以将A、A’、A”作为一子集群输出,将B,B’、B”作为一子集群输出……G,G’、G”作为一子集群输出。步骤S22中采用K-MEANS算法对每一子集群进行聚类,获取到子集群中的质心POI信息,对于子集群A、A’、A”而言,采用K-MEANS算法进行迭代聚类时,获取到的质心POI信息为A,将A作为轨迹点输出,依此类推,获取其他轨迹点B、C、D、E、F和G。本实施例中,任一子集群中质心POI信息出现的频率大于其他POI信息出现的频率。步骤S23中,用户第一天的轨迹点为A、B、C、B、E、A,第二天的轨迹点为A、B、D、B、F、A……等,将1个月内所有轨迹点依时间顺序排序,获取的生活习惯轨迹向量表为A、B、C、B、E、A、A、B、D、B、F、A……等。
S30:利用生活习惯轨迹向量表构建原始用户轨迹矩阵。
具体地,原始用户轨迹矩阵由多个用户的生活习惯轨迹向量表形成,与多个用户的生活习惯轨迹向量表中的轨迹点相关联,由于轨迹点的形成具有客观性和可靠性,使得其形成的原始用户轨迹矩阵也具有客观性和可靠性。
在一具体实施方式中,步骤S30包括如下步骤:
S31:对n个用户的生活习惯轨迹向量表中所有轨迹点进行去重处理,获取m个去重轨迹点。
具体地,每一用户的生活习惯轨迹向量表中有多个轨迹点重复,其出现的次数或频率不相同。如,用户的家庭住址和办公场所为最常出现的轨迹点,其出现的次数较多或频率较大;对于身体健康的用户而言,医院为不常出现的轨迹点,其出现的次数较少或频率较小。若一用户的生活习惯轨迹向量表为A、B、C、B、E、A、A、B、D、B、F、A,则对该用户的生活习惯轨迹向量表中所有轨迹点进行去重处理,可得到A、B、C、D、E和F等6个去重轨迹点。同理,对n个用户的生活习惯轨迹向量表中所有轨迹点进行去重处理,将n个用户所有的轨迹点再进行去重处理,以获取m个去重轨迹点,如A、B、C、D、E、F和G等7个去重轨迹点,此时m为7。
S32:基于每一用户的生活习惯轨迹向量表中各去重轨迹点出现的次数或频率,以形成m*1阶原始向量。
以统计每一用户的生活习惯轨迹向量表中各轨迹点的次数为例,若任一用户的生活习惯轨迹向量表为A、B、C、B、E、A、A、B、D、B、F、A,仅包括6个去重后的轨迹点;但对n个用户的生活轨迹轨迹向量表中各轨迹点进行去重处理后,得到m个去重轨迹点,此时m≧6;因此,要基于对n个用户的生活轨迹向量表获取到的m个去重轨迹点,构建任一用户的m*1阶原始向量。本实施例中,m为7,将各轨迹点出现的次数作为该m*1阶原始向量的值,通过形成的m*1阶原始向量如下所示,
Figure BDA0001197766060000121
该m*1阶原始向量可直观显示用户的生活习惯轨迹,以便进行社交相似用户查找。本实施例中,还可以将每一用户的生活习惯轨迹向量表中各轨迹点出现的频率,作为m*1阶原始向量的值。
S33:采用n个用户对应的m*1阶原始向量,构建m*n阶原始用户轨迹矩阵。
具体地,将n个用户对应的m*1阶原始向量,以轨迹点数量m为行,以用户数量n为列,构建m*n阶原始用户轨迹矩阵。该m*n阶原始用户轨迹矩阵可直观地显示n个用户的生活习惯,具有较强的客观性。
S40:采用奇异值分解算法对原始用户轨迹矩阵进行矩阵分解,获取重构用户轨迹矩阵。
本实施例中,通过奇异值分解算法对原始用户轨迹矩阵进行矩阵分解,可获取降维后的重构用户轨迹矩阵,以便基于重构用户轨迹矩阵确定影响人群分类的各轨迹点的相似度,从而获取相似社交用户。
在一具体实施方式中,步骤S40包括如下步骤:
S41:采用奇异值分解算法对m*n阶原始用户轨迹矩阵进行矩阵分解,以获取m*m阶左奇异向量矩阵、n*n阶右奇异向量矩阵的转置和m*n阶奇异值对角矩阵。
具体地,奇异值分解算法包括M=UΣVT;其中,M为m*n阶原始用户轨迹矩阵,U为m*m阶左奇异向量矩阵,V为n*n阶右奇异向量矩阵,VT为n*n阶右奇异向量矩阵的转置,∑为m*n阶奇异值对角矩阵,奇异值对角矩阵的主对角线上的值为奇异值,每个奇异值为非负数,并按从大到小降序排列。U矩阵是一个原始空间的正交矩阵,它的每一个列向量都是原始空间的规范正交基;而V矩阵则是变换之后的域的正交矩阵,它的每一个列向量都是变换空间的规范正交基。奇异值对角矩阵Σ的值则对应了从原始空间(U)到变换空间(V)的对应关系,具体来说就是两个空间的基向量的拉伸程度。
S42:选取奇异值对角矩阵的主对角线上前k个奇异值,对左奇异向量矩阵、右奇异向量矩阵的转置和奇异值对角矩阵进行降维处理;以获取m*k阶重构左奇异向量矩阵、n*k阶右奇异向量矩阵的转置和k*k阶奇异值对角矩阵,以形成重构用户轨迹矩阵。
本实施例中,降维后的m*k阶左奇异向量矩阵U用于限定用户之间的相似性,而降维后的n*k阶右奇异向量矩阵的转置VT用于限定轨迹点之间的相似性,降维后的k*k阶奇异值对角矩阵∑的主对角线上的奇异值,用于体现用户与轨迹点之间的相关关系。将降维后的m*k阶左奇异向量矩阵U、降维后的k*k阶奇异值对角矩阵∑和与降维后的n*k阶右奇异向量矩阵的转置VT的乘积作为重构用户轨迹矩阵输出。
本实施例中,若m为7,而n为5,则形成7*5阶原始用户轨迹矩阵M,采用奇异值分解算法进行矩阵分解后,形成7*7阶左奇异向量矩阵U,5*5右奇异向量矩阵的转置VT,7*5阶奇异值对角矩阵∑。选取奇异值对角矩阵的主对角线上前k=2个奇异值,并进行降维;则获取降维后的7*2阶左奇异向量矩阵U,5*2右奇异向量矩阵的转置VT,2*2阶奇异值对角矩阵∑。在进行相似性分析时,将7*2阶左奇异向量矩阵U的每一列当成x值,第二列当前y值,构建二维空间坐标系,任意两点之间夹角越小,且对应用户的生活习惯越相似,从而确定相似用户。同理,将5*2右奇异向量矩阵的转置VT在构建好的二维空间坐标系中体现,任意两点之间夹角越小,其对应生活习惯越相似,从而确定具有相似生活习惯。
S50:基于重构用户轨迹矩阵确定与目标用户相对应的社交相似用户。
本实施例中获取的重构用户轨迹矩阵中,可确定用户之间的相似性,轨迹点对应的生活习惯的相似性,以及用户与轨迹点之间的相似性;因此,可基于该重构用户轨迹矩阵确定与目标用户相对应的社交相似用户,以便利用该社交相似用户进行业务推广、广告宣传等。本实施例中,基于重构用户轨迹矩阵确定与目标用户相对应的社交相似用户的过程,操作简单方便,无需采集大量数据,具分类结果较高。
具体地,降维后的m*k阶左奇异向量矩阵U用于限定用户之间的相似性,而降维后的n*k阶右奇异向量矩阵的转置VT用于限定轨迹点之间的相似性,可通过目标用户与m*k阶左奇异向量矩阵U进行处理,以确定该社交相似用户,也可通过目标用户的轨迹点和相应的次数或频率与n*k阶右奇异向量矩阵的转置VT进行处理,以确定该社交相似用户。
在一具体实施方式中,步骤S50具体包括如下步骤:
S51:获取目标用户的m*1阶目标向量。
采用与m*1阶原始向量相同的获取过程,获取目标用户的m*1阶目标向量,操作过程简单方便,数据处理量少。
S52:采用余弦相似度算法计算目标向量与原始向量的相似度。
本实施例中采用向量空间余弦相似度(Cosine Similarity)计算目标向量与原始向量的相似度。具体地,若a向量是(x1,y1),b向量是(x2,y2),则向量空间余弦相似度的计算公式如下:
Figure BDA0001197766060000151
由此可计算任意两个用户之间的相似度。
S53:将相似度最高的原始向量对应的用户确定为目标用户的社交相似用户。
本实施例中,余弦值越接近1,则表明夹角越接近0度,即两个向量越相似;夹角等于0,即两个向量相等。基于目标用户的目标向量与任一用户的原始向量的向量空间余弦相似度,确定相似度最高的原始向量对应的用户为目标用户的社交相似用户,从而获取与目标用户的生活习惯高度相似的社交相似用户。
本实施例所提供的基于位置服务的人群分类方法中,通过对用户在预设期间内获取的地理位置信息进行聚类分析,获取生活习惯轨迹向量表,由于地理位置信息具有较强的客观性和可靠性,使得形成的生活习惯轨迹向量表也具有较强的客观性和可靠性。再基于生活习惯轨迹向量表构建原始用户轨迹矩阵并采用奇异值分解算法进行矩阵,获取重构用户轨迹矩阵,可基于该重构用户轨迹矩阵确定与目标用户相对应的社交相似用户。基于重构用户轨迹矩阵确定与目标用户相对应的社交相似用户的过程,操作简单方便,无需采集大量数据,且获取的社交相似用户与目标用户的生活习惯具有较高的相似性和客观性,可向目标用户推送与社交相似用户相同的产品或服务,以提高目标用户对推送产品或服务的接受度,有利进行业务推广、广告宣传等。
实施例2
图2示出本实施例中基于位置服务的人群分类装置的原理框图。该基于位置服务的人群分类装置由银行、保险等金融机构中的终端执行,用于确定与目标用户相对应的社交相似用户,进行人群分类,以实现对社交相似用户进行业务推广或广告宣传,也可以对社交相似用户购买风险类金融产品进行风险管控。如图2所示,该基于位置服务的人群分类装置包括位置信息获取模块10、轨迹向量表获取模块20、轨迹矩阵构建模块30、矩阵分解模块40和相似用户确定模块50。
位置信息获取模块10,用于基于位置服务获取用户的地理位置信息,地理位置信息包括与时间相关联的POI信息。
本实施例中,目标用户是所有用户中的一个。以任一用户一天的地理位置信息为例,该地理位置信息中包括0:00—24:00的POI信息,每一POI信息用于指示电子地图中的一点,包括POI点名称、经度和纬度等信息,基于用户的地理位置信息,可了解用户每天经过的家庭住址、办公场所、购物场所、娱乐场所、健身场所等信息。可以理解地,基于位置服务获取用户的地理位置信息,具有较强的客观性和可靠性。
基于位置服务(Location Based Service,简称LBS)是通过电信移动运营商的无线电通讯网络(如GSM网、CDMA网)或外部定位方式(如GPS)获取移动终端用户的位置信息(地理坐标,或大地坐标),在地理信息系统(Geographic Information System,简称GIS)平台的支持下,为用户提供相应服务的一种增值业务。总体来看,LBS由移动通信网络和计算机网络结合而成,两个网络之间通过网关实现交互。移动终端通过移动通信网络发出请求,经过网关传递给LBS服务平台;LBS服务平台根据用户请求和用户当前位置进行处理,并将结果通过网关返回给用户。POI(Point Of Interest,即兴趣点或信息点),包括名称、类型、经度、纬度等资料,以使POI可在电子地图上呈现,以标示电子地图上的某个地点信息。
本实施例中,基于位置服务的移动终端为智能手机,通过开启智能手机上的定位功能,以使LBS服务平台实时获取智能手机的地理位置信息,从而了解携带该智能手机的用户的地理位置信息。地理位置信息包括与时间相关联的POI信息中的时间包括日期和时刻,通过该地理位置信息可了解用户在任一时刻所处的POI信息。可以理解地,地理位置信息与用户ID相关联,用户ID用于识别唯一识别用户,可以是身份证号或手机号。
可以理解地,为了减少数据处理量,提高处理效率,可预先设置时间阈值,以使基于位置服务获取用户的地理位置信息时,只获取用户在任一地点停留时间达到该时间阈值的POI信息,以避免采集到的与时间相关联的POI信息的数据量较多,导致处理效率低的问题。
轨迹向量表获取模块20,用于对任一用户在预设期间内所有的地理位置信息进行聚类分析,获取生活习惯轨迹向量表。
其中,生活习惯轨迹向量表由依据时间顺序排序的轨迹点组成。轨迹点是用户日常生活中经过的地点,可以是家庭住址、办公场所、购物场所、娱乐场所、健身场所等地点,可在电子地图中显示。其中,预设期间可以是当前系统时间之前的任意一段时间,可以为一个月、三个月或半年,可根据需求自主设置。可以理解地,预设期间越长,其采集到的地理位置信息的数据量越多,处理结果的准确性越高;预设期间越短,其处理效率越高。本实施例中,从处理结果的准确性和处理效率方面进行考虑,将设预设期间设置为1个月。
在一具体实施方式中,轨迹向量表获取模块20具体包括子集群获取单元21、轨迹点获取单元22和向量表获取单元23。
子集群获取单元21,用于采用DBSCAN算法对任一用户在预设期间内所有POI信息进行聚类,以获取若干子集群。
其中,DBSCAN(Density-Based Spatial Clustering of Applications withNoise,具有噪声的基于密度的聚类方法)是一种基于密度的空间算法。该算法将具有足够密度的区域划分为簇,并在具有噪声的空间数据库中发现任意形状的簇,它将簇定义为密度相连的点的最大集合。DBSCAN算法具有聚类速度快且能够有效处理噪声和发现任意形成的空间聚类的优点。
本实施例中,预先设置DBSCAN算法中的预设扫描半径(以下简称为eps)和最小包含点数(minPts),任选一个未被访问(unvisited)的POI信息开始,找出与其距离在eps之内(包括eps)的所有POI信息,将POI信息与距离在eps之内的所有POI信息作为一个子集群输出。
轨迹点获取单元22,用于采用K-MEANS算法对每一子集群进行迭代聚合,获取每一子集群的质心POI信息,并将质心POI信息作为轨迹点输出。
K-MEANS算法是很典型的基于距离的算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。其计算公式为
Figure BDA0001197766060000181
其中,k个初始类聚类中心点的选取对聚类结果具有较大的影响,因为在该算法第一步中是随机的选取任意k个对象作为初始聚类的中心,初始地代表一个簇。该算法在每次迭代中对数据集中剩余的每个对象,根据其与各个簇中心的距离将每个对象重新赋给最近的簇。若一次迭代前后,J的值没有发生变化,说明算法已经收敛。K-MEANS算法可快速简单地对数据进行聚类,对大数据集具有较高的效率且可伸缩性,时间复杂度近于线性,而且适合挖掘大规模数据集。
本实施例中,采用K-MEANS算法对每一子集群中的POI信息进行迭代聚合,直到最后一次迭代时,迭代前后数值没有发生变化,则获取该子集群的质心POI信息,该质心POI信息对应一轨迹点。
向量表获取单元23,用于依时间顺序将预设期间内所有轨迹点排序,以获取生活习惯轨迹向量表。
本实施例中设预设期间为1个月,向量表获取单元23中,先将每天获取到的与时间相关联的轨迹点按时间顺序进行排序,再将连续1个月的轨迹点按日期连接起来,从而形成生活习惯轨迹向量表。该生活习惯轨迹向量表可清楚体现客户在预设期间内所经过的家庭住址、办公场所、购物场所、娱乐场所、健身场所等轨迹点,具有较强的客观性和可靠性。
具体地,若A为家庭住址,B为办公场所,C为购物场所,D为娱乐场所,E为健身场所,F为公园,G为医院等等;且A’和A”为A附近500m内的地点,B’和B”为B附近500m内的地点,C’和C”为C附近500m内的地点,D’和D”为D附近500m内的地点,D’和D”为D附近500m内的地点,D’和D”为D附近500m内的地点,……G’和G”为G附近500m内的地点。在1个月内,第一天的地理位置信息包括A、A’、B’、B、C”、C、B”、B、E”、E、A”、A等POI信息;第二天的地理位置信息包括A、A’、B’、B、D”、D、B”、B、F”、F、A”、A等POI信息……依此类推。子集群获取单元21中采用DBSCAN算法进行聚类时,将1个月内所有POI信息,通过设置扫描半径(以下简称为eps)为500m和最小包含点数(minPts)为1,以将A、A’、A”作为一子集群输出,将B,B’、B”作为一子集群输出……G,G’、G”作为一子集群输出。轨迹点获取单元22中采用K-MEANS算法对每一子集群进行聚类,获取到子集群中的质心POI信息,对于子集群A、A’、A”而言,采用K-MEANS算法进行迭代聚类时,获取到的质心POI信息为A,将A作为轨迹点输出,依此类推,获取其他轨迹点B、C、D、E、F和G。本实施例中,任一子集群中质心POI信息出现的频率大于其他POI信息出现的频率。向量表获取单元23中,用户第一天的轨迹点为A、B、C、B、E、A,第二天的轨迹点为A、B、D、B、F、A……等,将1个月内所有轨迹点依时间顺序排序,获取的生活习惯轨迹向量表为A、B、C、B、E、A、A、B、D、B、F、A……等。
轨迹矩阵构建模块30,用于利用生活习惯轨迹向量表构建原始用户轨迹矩阵。
具体地,原始用户轨迹矩阵由多个用户的生活习惯轨迹向量表形成,与多个用户的生活习惯轨迹向量表中的轨迹点相关联,由于轨迹点的形成具有客观性和可靠性,使得其形成的原始用户轨迹矩阵也具有客观性和可靠性。
在一具体实施方式中,轨迹矩阵构建模块30具体包括去重轨迹点获取单元31、原始向量获取单元32和原始矩阵构建模块33。
去重轨迹点获取单元31,用于对n个用户的生活习惯轨迹向量表中所有轨迹点进行去重处理,获取m个去重轨迹点。
具体地,每一用户的生活习惯轨迹向量表中有多个轨迹点重复,其出现的次数或频率不相同。如,用户的家庭住址和办公场所为最常出现的轨迹点,其出现的次数较多或频率较大;对于身体健康的用户而言,医院为不常出现的轨迹点,其出现的次数较少或频率较小。若一用户的生活习惯轨迹向量表为A、B、C、B、E、A、A、B、D、B、F、A,则对该用户的生活习惯轨迹向量表中所有轨迹点进行去重处理,可得到A、B、C、D、E和F等6个去重轨迹点。同理,对n个用户的生活习惯轨迹向量表中所有轨迹点进行去重处理,将n个用户所有的轨迹点再进行去重处理,以获取m个去重轨迹点,如A、B、C、D、E、F和G等7个去重轨迹点,此时m为7。
原始向量获取单元32,用于基于每一用户的生活习惯轨迹向量表中各去重轨迹点出现的次数或频率,以形成m*1阶原始向量。
以统计每一用户的生活习惯轨迹向量表中各轨迹点的次数为例,若任一用户的生活习惯轨迹向量表为A、B、C、B、E、A、A、B、D、B、F、A,仅包括6个去重后的轨迹点;但对n个用户的生活轨迹轨迹向量表中各轨迹点进行去重处理后,得到m个去重轨迹点,此时m≧6;因此,要基于对n个用户的生活轨迹向量表获取到的m个去重轨迹点,构建任一用户的m*1阶原始向量。本实施例中,m为7,将各轨迹点的次数作为该m*1阶原始向量的值,通过形成的m*1阶原始向量如下所示,
Figure BDA0001197766060000211
该m*1阶原始向量可直观显示用户的生活习惯轨迹,以便进行社交相似用户查找。本实施例中,还可以将每一用户的生活习惯轨迹向量表中各轨迹点出现的频率,作为m*1阶原始向量的值。
原始矩阵构建模块33,用于采用n个用户对应的m*1阶原始向量,构建m*n阶原始用户轨迹矩阵。
具体地,将n个用户对应的m*1阶原始向量,以轨迹点数量m为行,以用户数量n为列,构建m*n阶原始用户轨迹矩阵。该m*n阶原始用户轨迹矩阵可直观地显示n个用户的生活习惯,具有较强的客观性。
矩阵分解模块40,用于采用奇异值分解算法对原始用户轨迹矩阵进行矩阵分解,获取重构用户轨迹矩阵。
本实施例中,通过奇异值分解算法对原始用户轨迹矩阵进行矩阵分解,可获取降维后的重构用户轨迹矩阵,以便基于重构用户轨迹矩阵确定影响人群分类的各轨迹点的相似度,从而获取相似社交用户。
在一具体实施方式中,矩阵分解模块40具体包括矩阵分解单元41和矩阵降维单元42。
矩阵分解单元41,用于采用奇异值分解算法对m*n阶原始用户轨迹矩阵进行矩阵分解,以获取m*m阶左奇异向量矩阵、n*n阶右奇异向量矩阵的转置和m*n阶奇异值对角矩阵。
具体地,奇异值分解算法包括M=UΣVT;其中,M为m*n阶原始用户轨迹矩阵,U为m*m阶左奇异向量矩阵,V为n*n阶右奇异向量矩阵,VT为n*n阶右奇异向量矩阵的转置,∑为m*n阶奇异值对角矩阵,奇异值对角矩阵的主对角线上的值为奇异值,每个奇异值为非负数,并按从大到小降序排列。U矩阵是一个原始空间的正交矩阵,它的每一个列向量都是原始空间的规范正交基;而V矩阵则是变换之后的域的正交矩阵,它的每一个列向量都是变换空间的规范正交基。奇异值对角矩阵Σ的值则对应了从原始空间(U)到变换空间(V)的对应关系,具体来说就是两个空间的基向量的拉伸程度。
矩阵降维单元42,用于选取奇异值对角矩阵的主对角线上前k个奇异值,对左奇异向量矩阵、右奇异向量矩阵的转置和奇异值对角矩阵进行降维处理;以获取m*k阶重构左奇异向量矩阵、n*k阶右奇异向量矩阵的转置和k*k阶奇异值对角矩阵,以形成重构用户轨迹矩阵。
本实施例中,降维后的m*k阶左奇异向量矩阵U用于限定用户之间的相似性,而降维后的n*k阶右奇异向量矩阵的转置VT用于限定轨迹点之间的相似性,降维后的k*k阶奇异值对角矩阵∑的主对角线上的奇异值,用于体现用户与轨迹点之间的相关关系。将降维后的m*k阶左奇异向量矩阵U、降维后的k*k阶奇异值对角矩阵∑和与降维后的n*k阶右奇异向量矩阵的转置VT的乘积作为重构用户轨迹矩阵输出。
本实施例中,若m为7,而n为5,则形成7*5阶原始用户轨迹矩阵M,采用奇异值分解算法进行矩阵分解后,形成7*7阶左奇异向量矩阵U,5*5右奇异向量矩阵的转置VT,7*5阶奇异值对角矩阵∑。选取奇异值对角矩阵的主对角线上前k=2个奇异值,并进行降维;则获取降维后的7*2阶左奇异向量矩阵U,5*2右奇异向量矩阵的转置VT,2*2阶奇异值对角矩阵∑。在进行相似性分析时,将7*2阶左奇异向量矩阵U的每一列当成x值,第二列当前y值,构建二维空间坐标系,任意两点之间夹角越小,且对应用户的生活习惯越相似,从而确定相似用户。同理,将5*2右奇异向量矩阵的转置VT在构建好的二维空间坐标系中体现,任意两点之间夹角越小,其对应生活习惯越相似,从而确定具有相似生活习惯。
相似用户确定模块50,用于基于重构用户轨迹矩阵确定与目标用户相对应的社交相似用户。
本实施例中获取的重构用户轨迹矩阵中,可确定用户之间的相似性,轨迹点对应的生活习惯的相似性,以及用户与轨迹点之间的相似性;因此,可基于该重构用户轨迹矩阵确定与目标用户相对应的社交相似用户,以便利用该社交相似用户进行业务推广、广告宣传等。本实施例中,基于重构用户轨迹矩阵确定与目标用户相对应的社交相似用户的过程,操作简单方便,无需采集大量数据,具分类结果较高。
具体地,降维后的m*k阶左奇异向量矩阵U用于限定用户之间的相似性,而降维后的n*k阶右奇异向量矩阵的转置VT用于限定轨迹点之间的相似性,可通过目标用户与m*k阶左奇异向量矩阵U进行处理,以确定该社交相似用户,也可通过目标用户的轨迹点和相应的次数或频率与n*k阶右奇异向量矩阵的转置VT进行处理,以确定该社交相似用户。
在一具体实施方式中,相似用户确定模块50具体包括目标向量获取单元51、相似度计算单元52和相似用户确定单元53。
目标向量获取单元51,用于获取目标用户的m*1阶目标向量。
采用与m*1阶原始向量相同的获取过程,获取目标用户的m*1阶目标向量,操作过程简单方便,数据处理量少。
相似度计算单元52,用于采用余弦相似度算法计算目标向量与原始向量的相似度。
本实施例中采用向量空间余弦相似度(Cosine Similarity)计算目标向量与原始向量的相似度。具体地,若a向量是(x1,y1),b向量是(x2,y2),则向量空间余弦相似度的计算公式如下:
Figure BDA0001197766060000241
由此可计算任意两个用户之间的相似度。
相似用户确定单元53,用于将相似度最高的原始向量对应的用户确定为目标用户的社交相似用户。
本实施例中,余弦值越接近1,则表明夹角越接近0度,即两个向量越相似;夹角等于0,即两个向量相等。基于目标用户的目标向量与任一用户的原始向量的向量空间余弦相似度,确定相似度最高的原始向量对应的用户为目标用户的社交相似用户,从而获取与目标用户的生活习惯高度相似的社交相似用户。
本实施例所提供的基于位置服务的人群分类装置中,通过对用户在预设期间内获取的地理位置信息进行聚类分析,获取生活习惯轨迹向量表,由于地理位置信息具有较强的客观性和可靠性,使得形成的生活习惯轨迹向量表也具有较强的客观性和可靠性。再基于生活习惯轨迹向量表构建原始用户轨迹矩阵并采用奇异值分解算法进行矩阵,获取重构用户轨迹矩阵,可基于该重构用户轨迹矩阵确定与目标用户相对应的社交相似用户。基于重构用户轨迹矩阵确定与目标用户相对应的社交相似用户的过程,操作简单方便,无需采集大量数据,且获取的社交相似用户与目标用户的生活习惯具有较高的相似性和客观性,可向目标用户推送与社交相似用户相同的产品或服务,以提高目标用户对推送产品或服务的接受度,有利进行业务推广、广告宣传等。
本发明是通过几个具体实施例进行说明的,本领域技术人员应当明白,在不脱离本发明范围的情况下,还可以对本发明进行各种变换和等同替代。另外,针对特定情形或具体情况,可以对本发明做各种修改,而不脱离本发明的范围。因此,本发明不局限于所公开的具体实施例,而应当包括落入本发明权利要求范围内的全部实施方式。

Claims (8)

1.一种基于位置服务的人群分类方法,其特征在于,包括:
基于位置服务实时获取用户在任一地点停留时间达到时间阈值的地理位置信息,所述地理位置信息包括与时间相关联的POI信息;
对任一用户在预设期间内所有的地理位置信息进行聚类分析,获取生活习惯轨迹向量表;
利用所述生活习惯轨迹向量表构建原始用户轨迹矩阵;
采用奇异值分解算法对所述原始用户轨迹矩阵进行矩阵分解,获取重构用户轨迹矩阵;
基于所述重构用户轨迹矩阵确定与目标用户相对应的社交相似用户;
所述对任一用户在预设期间内所有的地理位置信息进行聚类分析,获取生活习惯轨迹向量表,包括:采用DBSCAN算法对预设扫描半径内任一用户在预设期间内所有POI信息进行聚类,以获取若干子集群;采用K-MEANS算法对每一所述子集群进行迭代聚合,获取每一所述子集群的质心POI信息,并将所述质心POI信息作为轨迹点输出;依时间顺序将预设期间内所有轨迹点排序,以获取所述生活习惯轨迹向量表。
2.根据权利要求1所述的基于位置服务的人群分类方法,其特征在于,所述利用所述生活习惯轨迹向量表构建原始用户轨迹矩阵,包括:
对n个用户的生活习惯轨迹向量表中所有轨迹点进行去重处理,获取m个去重轨迹点;
基于每一用户的生活习惯轨迹向量表中各去重轨迹点出现的次数或频率,以形成m*1阶原始向量;
采用n个用户对应的m*1阶原始向量,构建m*n阶原始用户轨迹矩阵。
3.根据权利要求2所述的基于位置服务的人群分类方法,其特征在于,所述采用奇异值分解算法对所述原始用户轨迹矩阵进行矩阵分解,获取重构用户轨迹矩阵,包括:
采用奇异值分解算法对m*n阶原始用户轨迹矩阵进行矩阵分解,以获取m*m阶左奇异向量矩阵、n*n阶右奇异向量矩阵的转置和m*n阶奇异值对角矩阵;
选取所述奇异值对角矩阵的主对角线上前k个奇异值,对所述左奇异向量矩阵、所述右奇异向量矩阵的转置和所述奇异值对角矩阵进行降维处理;以获取m*k阶重构左奇异向量矩阵、n*k阶右奇异向量矩阵的转置和k*k阶奇异值对角矩阵,以形成重构用户轨迹矩阵。
4.根据权利要求3所述的基于位置服务的人群分类方法,其特征在于,所述基于所述重构用户轨迹矩阵确定目标用户的社交相似用户,包括:
获取所述目标用户的m*1阶目标向量;
采用余弦相似度算法计算所述目标向量与所述原始向量的相似度;
将相似度最高的所述原始向量对应的用户确定为目标用户的社交相似用户。
5.一种基于位置服务的人群分类装置,其特征在于,包括:
位置信息获取模块,用于基于位置服务实时获取用户在任一地点停留时间达到时间阈值的地理位置信息,所述地理位置信息包括与时间相关联的POI信息;
轨迹向量表获取模块,用于对任一用户在预设期间内所有的地理位置信息进行聚类分析,获取生活习惯轨迹向量表;
轨迹矩阵构建模块,用于利用所述生活习惯轨迹向量表构建原始用户轨迹矩阵;
矩阵分解模块,用于采用奇异值分解算法对所述原始用户轨迹矩阵进行矩阵分解,获取重构用户轨迹矩阵;
相似用户确定模块,用于基于所述重构用户轨迹矩阵确定与目标用户相对应的社交相似用户;
所述轨迹向量表获取模块包括:子集群获取单元,用于采用DBSCAN算法对预设扫描半径内任一用户在预设期间内所有POI信息进行聚类,以获取若干子集群;轨迹点获取单元,用于采用K-MEANS算法对每一所述子集群进行迭代聚合,获取每一所述子集群的质心POI信息,并将所述质心POI信息作为轨迹点输出;向量表获取单元,用于依时间顺序将预设期间内所有轨迹点排序,以获取所述生活习惯轨迹向量表。
6.根据权利要求5所述的基于位置服务的人群分类装置,其特征在于,所述轨迹矩阵构建模块包括:
去重轨迹点获取单元,用于对n个用户的生活习惯轨迹向量表中所有轨迹点进行去重处理,获取m个去重轨迹点;
原始向量获取单元,用于基于每一用户的生活习惯轨迹向量表中各去重轨迹点出现的次数或频率,以形成m*1阶原始向量;
原始矩阵构建模块,用于采用n个用户对应的m*1阶原始向量,构建m*n阶原始用户轨迹矩阵。
7.根据权利要求6所述的基于位置服务的人群分类装置,其特征在于,所述矩阵分解模块包括:
矩阵分解单元,用于采用奇异值分解算法对m*n阶原始用户轨迹矩阵进行矩阵分解,以获取m*m阶左奇异向量矩阵、n*n阶右奇异向量矩阵的转置和m*n阶奇异值对角矩阵;
矩阵降维单元,用于选取所述奇异值对角矩阵的主对角线上前k个奇异值,对所述左奇异向量矩阵、所述右奇异向量矩阵的转置和所述奇异值对角矩阵进行降维处理;以获取m*k阶重构左奇异向量矩阵、n*k阶右奇异向量矩阵的转置和k*k阶奇异值对角矩阵,以形成重构用户轨迹矩阵。
8.根据权利要求7所述的基于位置服务的人群分类装置,其特征在于,所述相似用户确定模块包括:
目标向量获取单元,用于获取所述目标用户的m*1阶目标向量;
相似度计算单元,用于采用余弦相似度算法计算所述目标向量与所述原始向量的相似度;
相似用户确定单元,用于将相似度最高的所述原始向量对应的用户确定为目标用户的社交相似用户。
CN201611249508.0A 2016-12-29 2016-12-29 基于位置服务的人群分类方法及装置 Active CN106506705B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201611249508.0A CN106506705B (zh) 2016-12-29 2016-12-29 基于位置服务的人群分类方法及装置
PCT/CN2017/076323 WO2018120424A1 (zh) 2016-12-29 2017-03-10 基于位置服务的人群分类方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611249508.0A CN106506705B (zh) 2016-12-29 2016-12-29 基于位置服务的人群分类方法及装置

Publications (2)

Publication Number Publication Date
CN106506705A CN106506705A (zh) 2017-03-15
CN106506705B true CN106506705B (zh) 2020-07-28

Family

ID=58334519

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611249508.0A Active CN106506705B (zh) 2016-12-29 2016-12-29 基于位置服务的人群分类方法及装置

Country Status (2)

Country Link
CN (1) CN106506705B (zh)
WO (1) WO2018120424A1 (zh)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991159B (zh) 2017-03-30 2018-07-24 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
WO2019000468A1 (zh) 2017-06-30 2019-01-03 广东欧珀移动通信有限公司 用户位置识别方法、装置、存储介质及电子设备
CN109558961B (zh) * 2017-09-25 2023-05-02 阿里巴巴集团控股有限公司 确定位置信息的方法和系统、存储介质、处理器以及装置
CN109801091B (zh) * 2017-11-16 2022-12-20 腾讯科技(深圳)有限公司 目标用户群体定位方法、装置、计算机设备和存储介质
CN108173847A (zh) * 2017-12-27 2018-06-15 百度在线网络技术(北京)有限公司 多账号用户追踪方法、装置、设备及计算机可读介质
CN108536851B (zh) * 2018-04-16 2021-04-16 武汉大学 一种基于移动轨迹相似度比较的用户身份识别方法
CN110210691B (zh) * 2018-04-27 2024-02-06 腾讯科技(深圳)有限公司 资源推荐方法、装置、存储介质及设备
CN110572813A (zh) * 2018-05-19 2019-12-13 北京融信数联科技有限公司 一种基于移动大数据的手机用户行为相似度分析方法
CN110928914A (zh) * 2018-08-30 2020-03-27 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN109271555B (zh) * 2018-09-19 2021-04-06 上海哔哩哔哩科技有限公司 信息聚类方法、系统、服务器及计算机可读存储介质
CN109359682B (zh) * 2018-10-11 2019-08-30 北京市交通信息中心 一种基于f-dbscan迭代聚类的机场巴士候选站点筛选方法
CN111191021A (zh) * 2018-11-14 2020-05-22 北京嘀嘀无限科技发展有限公司 职业预测方法、装置、设备及计算机可读存储介质
CN111311292B (zh) * 2018-12-12 2023-08-04 北京嘀嘀无限科技发展有限公司 一种用户分类方法和系统
CN109902129B (zh) * 2019-01-25 2023-06-20 平安科技(深圳)有限公司 基于大数据分析的保险代理人归类方法及相关设备
CN111694875B (zh) * 2019-03-14 2023-04-25 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN111861526B (zh) * 2019-04-30 2024-05-21 京东城市(南京)科技有限公司 一种分析对象来源的方法和装置
CN110348990A (zh) * 2019-06-19 2019-10-18 北京淇瑀信息科技有限公司 基于用户出行轨迹的信贷额度调整方法、装置及电子设备
CN110309437B (zh) * 2019-06-26 2020-06-23 京东数字科技控股有限公司 一种信息推送方法和装置
CN112541646B (zh) * 2019-09-20 2024-03-26 杭州海康威视数字技术股份有限公司 周期行为分析方法及装置
CN111008323A (zh) * 2019-11-29 2020-04-14 北京明略软件系统有限公司 一种身份标识的伴随关系确定方法及装置
CN113034157B (zh) * 2019-12-24 2023-12-26 中国移动通信集团浙江有限公司 集团成员识别方法、装置及计算设备
CN111274475A (zh) * 2020-01-16 2020-06-12 深圳市前海随手数据服务有限公司 轨迹特征的提取方法、装置、存储介质及终端
CN111258558B (zh) * 2020-02-13 2023-06-30 苏宁智能终端有限公司 运动轨迹的着色处理方法及装置
CN113497717B (zh) * 2020-03-19 2023-03-31 中国移动通信有限公司研究院 网络流量的预测方法、装置、设备及存储介质
CN111506829B (zh) * 2020-03-20 2023-08-25 微梦创科网络科技(中国)有限公司 一种异常关注行为批量实时识别方法及装置
CN111931998B (zh) * 2020-07-27 2023-05-02 大连海事大学 一种基于移动定位数据的个体出行模式预测方法及系统
CN112560910B (zh) * 2020-12-02 2024-03-01 中国联合网络通信集团有限公司 用户分类方法和装置
CN112561948B (zh) * 2020-12-22 2023-11-21 中国联合网络通信集团有限公司 基于时空轨迹的伴随轨迹识别方法、设备及存储介质
CN113438603B (zh) * 2021-03-31 2024-01-23 南京邮电大学 一种基于差分隐私保护的轨迹数据发布方法及系统
CN113011787B (zh) * 2021-04-22 2023-07-21 中国平安人寿保险股份有限公司 基于数据聚类的虚拟对象分配方法及相关设备
CN113792766A (zh) * 2021-08-26 2021-12-14 广西电网有限责任公司 一种基于奇异谱分析的线变关系识别方法
CN114372114B (zh) * 2021-11-18 2022-11-15 江苏商贸职业学院 一种基于矩阵分解模型的出行轨迹还原方法及系统
CN117648495B (zh) * 2024-01-18 2024-04-26 卓世科技(海南)有限公司 一种基于云原生向量数据的数据推送方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103700018A (zh) * 2013-12-16 2014-04-02 华中科技大学 一种移动社会网络中的人群划分方法
CN104424235A (zh) * 2013-08-26 2015-03-18 腾讯科技(深圳)有限公司 实现用户信息聚类的方法和装置
CN104820905A (zh) * 2015-05-19 2015-08-05 威海北洋电气集团股份有限公司 基于空间轨迹大数据分析的人员管控方法及系统
CN106022934A (zh) * 2016-05-05 2016-10-12 北京邮电大学 一种基于移动轨迹模式的潜在好友发现方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765873B (zh) * 2015-04-24 2019-03-26 百度在线网络技术(北京)有限公司 用户相似度确定方法和装置
CN106021305A (zh) * 2016-05-05 2016-10-12 北京邮电大学 一种模式与偏好感知的poi推荐方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104424235A (zh) * 2013-08-26 2015-03-18 腾讯科技(深圳)有限公司 实现用户信息聚类的方法和装置
CN103700018A (zh) * 2013-12-16 2014-04-02 华中科技大学 一种移动社会网络中的人群划分方法
CN104820905A (zh) * 2015-05-19 2015-08-05 威海北洋电气集团股份有限公司 基于空间轨迹大数据分析的人员管控方法及系统
CN106022934A (zh) * 2016-05-05 2016-10-12 北京邮电大学 一种基于移动轨迹模式的潜在好友发现方法及系统

Also Published As

Publication number Publication date
CN106506705A (zh) 2017-03-15
WO2018120424A1 (zh) 2018-07-05

Similar Documents

Publication Publication Date Title
CN106506705B (zh) 基于位置服务的人群分类方法及装置
Korolev et al. An improvement of the Berry–Esseen inequality with applications to Poisson and mixed Poisson random sums
Park et al. A simple and fast algorithm for K-medoids clustering
Gao et al. Exploring temporal effects for location recommendation on location-based social networks
Matioli et al. A new algorithm for clustering based on kernel density estimation
Almaatouq et al. Mobile communication signatures of unemployment
CN108805598B (zh) 相似度信息确定方法、服务器及计算机可读存储介质
US20130204831A1 (en) Identifying associations in data
US20110264617A1 (en) Reducing the dissimilarity between a first multivariate data set and a second multivariate data set
CN107704485A (zh) 一种职位推荐方法及计算设备
Chen et al. From interest to function: Location estimation in social media
US11157657B2 (en) Mixed data fingerprinting with principal components analysis
WO2014210597A1 (en) Dynamic research panel
Hu et al. Nonnegative matrix tri-factorization with user similarity for clustering in point-of-interest
CN106709318A (zh) 一种用户设备唯一性的识别方法、装置和计算设备
CN107633257B (zh) 数据质量评估方法及装置、计算机可读存储介质、终端
CN110287173B (zh) 自动生成有意义的用户段
Rodrigues et al. Exploring multiple evidence to infer users’ location in Twitter
Nam et al. City size distribution as a function of socioeconomic conditions: an eclectic approach to downscaling global population
WO2019100031A1 (en) User interface and method based on sliding-scale cluster groups for precise look-alike modeling
Brunsdon et al. Predicting participation in higher education: A comparative evaluation of the performance of geodemographic classifications
Nguyen et al. Mapping cancer risk in southwestern Ontario with changing census boundaries
Kostakos et al. Where am I? Location archetype keyword extraction from urban mobility patterns
CN111182465A (zh) 终端归属的确定方法及装置
JP2014115911A (ja) 情報推薦装置、情報推薦方法、及び情報推薦プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant