CN106778876A - 基于移动用户轨迹相似性的用户分类方法和系统 - Google Patents
基于移动用户轨迹相似性的用户分类方法和系统 Download PDFInfo
- Publication number
- CN106778876A CN106778876A CN201611191705.1A CN201611191705A CN106778876A CN 106778876 A CN106778876 A CN 106778876A CN 201611191705 A CN201611191705 A CN 201611191705A CN 106778876 A CN106778876 A CN 106778876A
- Authority
- CN
- China
- Prior art keywords
- mobile subscriber
- track
- user
- base station
- mobile
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/24765—Rule-based classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2193—Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Mobile Radio Communication Systems (AREA)
- Telephonic Communication Services (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于移动用户轨迹相似性的用户分类方法和系统,接收移动用户的移动轨迹数据并提取各移动用户的时间位置信息。根据时间位置信息,以移动用户在各基站的平均逗留时长作为权重,采用FP树挖掘对应移动用户的轨迹频繁序列。根据轨迹频繁序列和预设的加权支持度阈值提取得到对应移动用户的常驻地点,根据各移动用户的常驻地点,通过最长公共子序列算法计算移动用户的轨迹相似性结果,并根据轨迹相似性结果对移动用户进行分类。以移动用户在各基站的平均逗留时长作为权重,采用FP树挖掘对应移动用户的轨迹频繁序列并找到移动用户的常驻地点,既能保证用户的轨迹规律,又能降低数据的数量,降低了计算复杂度。
Description
技术领域
本发明涉及通信技术领域,特别是涉及一种基于移动用户轨迹相似性的用户分类方法和系统。
背景技术
随着移动通信和移动应用的快速发展,用户对手机的使用率及依赖性不断提高,移动运营商积累了大量移动用户实时记录的定位数据。分析移动用户位置的相似性,提取移动用户的相似路径在出行路径预测、兴趣区域发现、轨迹聚类、个性化路径推荐等领域具有广泛的应用。
传统的移动用户轨迹相似性计算方法是先对用户位置进行定义建立用户-位置信息模型,然后结合时间效应利用协同过滤的算法找到区域性相似的用户。由于这种算法需要对全地市基站和用户建立矩阵,这样必然会导致稀疏矩阵的出现,数据的稀疏性为算法的执行带来灾难性的后果。传统的移动用户轨迹相似性计算方法存在计算复杂度高的缺点。
发明内容
基于此,有必要针对上述问题,提供一种可降低计算复杂度的基于移动用户轨迹相似性的用户分类方法和系统。
一种基于移动用户轨迹相似性的用户分类方法,包括以下步骤:
接收移动用户的移动轨迹数据并进行提取,得到各移动用户的时间位置信息;
根据所述时间位置信息得到对应移动用户在各基站的平均逗留时长;
以移动用户在各基站的平均逗留时长作为权重,采用FP树挖掘对应移动用户的轨迹频繁序列;
根据所述轨迹频繁序列和预设的加权支持度阈值提取得到对应移动用户的常驻地点;
根据各移动用户的常驻地点,通过最长公共子序列算法计算移动用户的轨迹相似性结果,并根据所述轨迹相似性结果对移动用户进行分类。
一种基于移动用户轨迹相似性的用户分类系统,包括:
轨迹数据提取模块,用于接收移动用户的移动轨迹数据并进行提取,得到各移动用户的时间位置信息;
逗留时长计算模块,用于根据所述时间位置信息得到对应移动用户在各基站的平均逗留时长;
频繁序列挖掘模块,用于以移动用户在各基站的平均逗留时长作为权重,采用FP树挖掘对应移动用户的轨迹频繁序列;
常驻地点提取模块,用于根据所述轨迹频繁序列和预设的加权支持度阈值提取得到对应移动用户的常驻地点;
轨迹相似性计算模块,用于根据各移动用户的常驻地点,通过最长公共子序列算法计算移动用户的轨迹相似性结果,并根据所述轨迹相似性结果对移动用户进行分类。
上述基于移动用户轨迹相似性的用户分类方法和系统,接收移动用户的移动轨迹数据并进行提取,得到各移动用户的时间位置信息。根据时间位置信息得到对应移动用户在各基站的平均逗留时长,以移动用户在各基站的平均逗留时长作为权重,采用FP树挖掘对应移动用户的轨迹频繁序列。根据轨迹频繁序列和预设的加权支持度阈值提取得到对应移动用户的常驻地点,根据各移动用户的常驻地点,通过最长公共子序列算法计算移动用户的轨迹相似性结果,并根据轨迹相似性结果对移动用户进行分类。通过对移动轨迹数据并提取得到各移动用户的时间位置信息,避免移动用户轨迹数据的稀疏性而导致相似度算法效率低下。以移动用户在各基站的平均逗留时长作为权重,采用FP树挖掘对应移动用户的轨迹频繁序列并找到移动用户的常驻地点,解决了移动用户轨迹随机性和繁杂性而导致算法效率和算法低下的问题,既能保证用户的轨迹规律,又能降低数据的数量,降低了计算复杂度。
附图说明
图1为一实施例中基于移动用户轨迹相似性的用户分类方法的流程图;
图2为另一实施例中基于移动用户轨迹相似性的用户分类方法的流程图;
图3为一实施例中基于移动用户在基站逗留时长的加权FP树示意图;
图4为一实施例中基于移动用户轨迹相似性的用户分类系统的结构图;
图5为另一实施例中基于移动用户轨迹相似性的用户分类系统的结构图。
具体实施方式
在一个实施例中,一种基于移动用户轨迹相似性的用户分类方法,如图1所示,包括以下步骤:
步骤S110:接收移动用户的移动轨迹数据并进行提取,得到各移动用户的时间位置信息。
移动轨迹数据具体包括移动用户发生业务的起始时间、起始基站名称、切换基站的时间、切换基站的名称、在每一个基站的逗留时长、主叫号码、被叫号码、用户发生的业务类型等数据。移动用户的轨迹一般由一系列按照时间依次排序的位置组成,Tri={(L1,t1),(L2,t2),…,(Li,ti),…,(Ln,tn)}。(Li,ti)表示用户出现在某个基站的位置Li对应的时间ti。移动用户轨迹是按照时间序列形成有序的集合,因此,在考虑时间因素的情况下,可将移动用户的轨迹抽取移动用户的时间位置序列。上述的移动用户轨迹的表示为Tri={(L1,L2,t1,t2),(L2,L3,t2,t3),…,(Li,ti,Li+1,ti+1),…,(Ln-1,tn-1,Ln,tn)}。序列中(L1,L2,t1,t2)表示移动用户在时刻t1出现在基站L1,然后在时刻t2离开基站L1前往基站L2。
利用运营商的移动用户动态的、具有时间时效性的用户移动轨迹数据查找用户轨迹度,抽取移动用户的时间位置序列,按照发生业务的起始时间的顺序对每一个用户的时间位置数据。将位置序列映射为具有时间和地理位置信息的序列,以发生时间的序列表示移动用户的轨迹,避免由于轨迹稀疏性而导致算法低下的问题。
步骤S120:根据时间位置信息得到对应移动用户在各基站的平均逗留时长。
根据提取得到的时间位置信息可知道移动用户在各基站的出现时刻和离开时刻,可直接计算出移动用户在各基站的平均逗留时长。
步骤S130:以移动用户在各基站的平均逗留时长作为权重,采用FP树挖掘对应移动用户的轨迹频繁序列。
对于移动用户轨迹数据的频繁模式定义为如下形式:
Li→Lj
定义是一个移动用户从位置Li向位置Lj移动的规律。移动用户频繁轨迹提取是从移动用户移动轨迹数据集中提取支持度大于最小支持度阈值的集合。因此,移动用户频繁模式反映了移动用户群体在移动行为上具有相同特征或规律。
本实施例中引入闭合频繁项集来保证挖掘得到的移动用户行为信息量最全面且数据规模最小。假设频繁移动模式Tpi属于频繁闭合移动模式,其必须满足:在频繁模式集中不存在任一个模式Tpj,满足且(Tpj)>=Tpi。采用频繁闭合序列模式挖掘经典算法,以基站平均逗留时间作为项目权重构建FP树,挖掘对应移动用户的轨迹频繁序列,轨迹频繁序列表征移动用户逗留各基站的权重。具体地,在一个实施例中,步骤S130包括步骤132至步骤136。
步骤132:将各基站的平均逗留时长作为对应的项目权重,挖掘得到用户轨迹项集及对应的项集权重。
根据用户在每一个基站的逗留时长设置每一个项目(基站)的权重,挖掘用户发生轨迹的项目项集(基站组合)得到用户轨迹项集,将用户轨迹项集的项集权重定义为各项目权重的平均值。
步骤134:根据用户轨迹项集及对应的项集权重生成条件模式基。
查询所有用户轨迹项集,可得知各项目在哪些用户轨迹项集中出现,统计有某一项目出现的用户轨迹项集的数量得到该项目的总计值。根据各项目的总计值降序依次为头节点和其他节点,生成条件模式基。
此外,步骤132之后,步骤134之前,还可包括对用户轨迹项集的项集权重进行归一化处理的步骤,步骤134中根据归一化处理后的项集权重生成条件模式基,便于数据处理。
步骤136:根据条件模式基构造对应的加权FP树,并得到对应移动用户的轨迹频繁序列。
结合移动用户在各基站的平均逗留时长,根据FP树构造的思想,采用条件模式基构造对应的加权FP树,根据加权FP树导出对应移动用户的轨迹频繁序列。
步骤S140:根据轨迹频繁序列和预设的加权支持度阈值提取得到对应移动用户的常驻地点。
加权支持度阈值的具体取值并不唯一。根据轨迹频繁序列,按照设定的加权支持度阈值判断相应的频繁模式,获得该移动用户的用户常驻区域模式,从而得到移动用户的常驻地点。
在查找常驻点过程中,采用驻留时长作为权值,有效剔除一些常去的但是逗留很短的地方(比如:地铁站、公交站等),这些地方由于用户改变交通工具而使得轨迹发生一定程度的变化。以移动用户在各基站的平均逗留时长作为权重,采用加权FP树查找用户的常驻点,解决了移动用户轨迹随机性和繁杂性而导致算法效率和算法低下的问题。
步骤S150:根据各移动用户的常驻地点,通过最长公共子序列算法计算移动用户的轨迹相似性结果,并根据轨迹相似性结果对移动用户进行分类。
采用传统的LCSS(Longest Common Subsequence,最长公共子序列)算法,是通过轨迹本身计算轨迹相似度。本实施例中,在计算得到各移动用户的常驻地点之后,结合轨迹本身和移动用户出现在某个地方的时间规律计算轨迹相似度,得到移动用户的轨迹相似性结果。根据轨迹相似性结果对移动用户进行分类的具体方式并不唯一,可以是在计算得到两个移动用户的轨迹相似度之后,若轨迹相似度高于预设值,则将这两个移动用户分为同一类;还可以是在计算某一移动用户与其他所有移动用户的轨迹相似度之后,将该移动用户以及与该移动用户的轨迹相似度高于预设值的其他移动用户分为同一类。通过根据轨迹相似性结果对移动用户进行分类,将轨迹相似度高的移动用户分为同一类,以便于对通信运营商或者移动运营商不同的业务需求挖掘提供数据支持。
在一个实施例中,步骤S150中根据各移动用户的常驻地点,通过最长公共子序列算法计算移动用户的轨迹相似性结果,包括步骤152至步骤156。
步骤152:根据移动用户的时间位置信息,提取移动用户间的最长公共子序列以及各移动用户的常驻地点对应的时间。
由于各个移动用户的时间位置信息已知,根据建立的具有时间和地理位置信息的序列可直接提取得到两个移动用户之间的最长公共子序列,以及这两个移动用户在常驻地点所对应的时间。
步骤154:根据各移动用户的常驻地点对应的时间计算移动用户间的时间相似性系数。
获得用户常驻区域模式的基础上,结合时间因素,以时间相似性系数反映所有用户在邻近时间在相同的地理位置的比例。具体地,本实施例中,步骤154包括:
其中,COL为时间相似性系数,△T为精度,本实施例中设为1个小时。Ti(u)表示移动用户u在某一个时间精度内达到某一个基站Li(u)的时刻,Tj(v)表示移动用户v在某一个时间精度内达到某一个基站Lj(v)的时刻,δ(Li(u),Lj(v))为重合性公式,当两个用户的基站重合时值为1,否则为0。
步骤156:根据移动用户间的最长公共子序列以及对应移动用户间的时间相似性系数计算得到移动用户的轨迹相似性结果。
结合时间和地理的因素衡量用户轨迹的相似性,提升了用户轨迹相似度计算的精度。例如可剔除一些家里住在附近,公司是同事的用户。毕竟用户的上下班时间有一定的规律。在相似时间出现在相同地点的用户数据对商家的营销活动才具有一定的参考性,对于用车出行的商家、运营商的重入网用户的识别才有实际的意义。具体地,本实施例中,步骤156包括:
其中,DLCSS表示用户u和用户v的轨迹相似性,公式的第一部分表示用户u和用户v一天的最长公共子序列,第二部分表示在每一个时间精度下,两位用户在邻近时间在相同的地理位置的比例。
在一个实施例中,如图2所示,步骤S150之后,基于移动用户轨迹相似性的用户分类还可包括步骤S160。
步骤S160:根据移动用户的移动轨迹数据对轨迹相似性结果进行准确性验证,得到验证结果并显示。
具体可根据相似性结果关联电话号码进行正确率验证,得到验证结果并发送至显示器进行显示,以便操作人员得知相似性计算准确性。
为了更好地理解上述基于移动用户轨迹相似性的用户分类方法,下面结合具体实施例进行详细的解释说明。
用户移动轨迹数据的提取和预处理。随机抽取某运营商的10000名移动用户两周的轨迹数据,除了用户的发生业务的起始时间、起始基站名称、切换基站的时间、切换基站的名称、在每一个基站的逗留时长、主叫号码、被叫号码、用户发生的业务类型等。在对数据进行挖掘之前,先对数据进行预处理,剔除与求解轨迹相似度无关的字段;然后抽取用户的时间位置序列,最后按照发生业务的起始时间的顺序对每一个用户的时间位置数据。用户轨迹预处理结果具体如表1所示。
移动用户号码 | 起始时间 | 结束时间 | 起始基站CI | 结束基站CI |
18676445*** | 20140601001905 | 20140601001918 | 2353 | 672 |
18676445*** | 20140601001918 | 20140601001932 | 672 | 6582 |
18676445*** | 20140601001932 | 20140601001942 | 6582 | 31058 |
18676445*** | 20140601001942 | 20140601001745 | 42487 | 31271 |
18676445*** | 20140601001948 | 20140601002008 | 31271 | 57522 |
18676445*** | 20140602001017 | 20140602001140 | 57522 | 57523 |
18676445*** | 20140602001140 | 20140602011351 | 57523 | 57522 |
18676445*** | 20140602001351 | 20140602031846 | 57522 | 57522 |
18676445*** | 20140602001446 | 20140602001846 | 57522 | 57522 |
表1
经过对移动用户原始的轨迹处理进行预处理之后,得到每一个移动用户的时间位置信息,为下一步数据挖掘做准备。
采用FP树挖掘移动用户轨迹频繁序列。对用户移动轨迹的项目以及项集的数据处理。在获取用户时间位置信息的基础上,计算移动用户在每一个基站的平均逗留时间,以此作为项目权重。项目名称及权重如表2所示。
项目名称——基站ID | 权重——平均逗留时间(秒) |
2353 | 286 |
672 | 30 |
6582 | 45 |
42487 | 67 |
31271 | 15 |
57522 | 266 |
表2
从用户移动轨迹处理结果提取用户的项集X={2353,672,6582,42487,31271,57522},根据用户在每一个基站的逗留时间设置每一个项目(基站)的权重,当项目(基站)具有一个权重后,用户发生轨迹的项目项集(基站组合)的权重定义为各项目权重的平均值。用户轨迹项集及权重如表3所示。例如X={2353-42487-672-6582},用户的移动轨迹项集权重为WT(t)=(286+67+30+45)/4=107,经过归一化操作之后,该项集的归一化权重为0.1488。
表3
建立加权FP树。扫描表3可得到各项目{2353,672,6582,42487,31271,57522}的总计为{5,4,3,4,2,1}。结合用户在每一个基站的逗留时长,根据FP树构造的思想,得到某用户移动轨迹的加权FP树如图3所示。
根据加权FP树导出用户逗留基站的权重分别是:2353:0.6558;42487:0.6558;6582:0.5487;672:0.3394;31271:0.2616;57522:0.2767。设加权支持度阈值Wminsup=0.45,根据上述的加权条件树得出的频繁模式如表4所示。
表4
基于LCSS算法评价移动用户轨迹相似性的结果。基于加权FP树提取移动用户的常驻地点,再结合移动用户在常驻地点的时间因素,计算的10000名移动用户工作日的轨迹相似度的结果。基于LCSS算法评价移动用户轨迹相似性的准确性如表5所示。
LCSS区间 | 用户数 | 准确率 |
>=0.7 | 10000 | 65.17% |
>=0.6 | 10000 | 79.73% |
>=0.5 | 10000 | 88.56% |
>=0.4 | 10000 | 91.17% |
表5
在计算轨迹相似性时会剔除电话号码的字段进行相似性计算,然后根据相似性的结果再关联电话号码进行正确率验证。由表5可知,LSCC区间的合理范围在(0.4,0.5),通信运营商或者移动运营商可根据不同的业务需求挖掘不同用户之间轨迹的相似性,为营销工作提供数据支撑。
上述基于移动用户轨迹相似性的用户分类方法,通过对移动轨迹数据并提取得到各移动用户的时间位置信息,避免移动用户轨迹数据的稀疏性而导致相似度算法效率低下。以移动用户在各基站的平均逗留时长作为权重,采用FP树挖掘对应移动用户的轨迹频繁序列并找到移动用户的常驻地点,解决了移动用户轨迹随机性和繁杂性而导致算法效率和算法低下的问题,既能保证用户的轨迹规律,又能降低数据的数量,降低了计算复杂度,且考虑了用户移动轨迹的规律性,贴合用户使用习惯特点。
在一个实施例中,一种基于移动用户轨迹相似性的用户分类系统,如图4所示,包括轨迹数据提取模块110、逗留时长计算模块120、频繁序列挖掘模块130、常驻地点提取模块140和轨迹相似性计算模块150。
轨迹数据提取模块110用于接收移动用户的移动轨迹数据并进行提取,得到各移动用户的时间位置信息。
移动轨迹数据具体包括移动用户发生业务的起始时间、起始基站名称、切换基站的时间、切换基站的名称、在每一个基站的逗留时长、主叫号码、被叫号码、用户发生的业务类型等数据。移动用户轨迹是按照时间序列形成有序的集合,因此,在考虑时间因素的情况下,可将移动用户的轨迹抽取移动用户的时间位置序列。
利用运营商的移动用户动态的、具有时间时效性的用户移动轨迹数据查找用户轨迹度,抽取移动用户的时间位置序列,按照发生业务的起始时间的顺序对每一个用户的时间位置数据。将位置序列映射为具有时间和地理位置信息的序列,以发生时间的序列表示移动用户的轨迹,避免由于轨迹稀疏性而导致算法低下的问题。
逗留时长计算模块120用于根据时间位置信息得到对应移动用户在各基站的平均逗留时长。
根据提取得到的时间位置信息可知道移动用户在各基站的出现时刻和离开时刻,可直接计算出移动用户在各基站的平均逗留时长。
频繁序列挖掘模块130用于以移动用户在各基站的平均逗留时长作为权重,采用FP树挖掘对应移动用户的轨迹频繁序列。
本实施例中引入闭合频繁项集来保证挖掘得到的移动用户行为信息量最全面且数据规模最小。采用频繁闭合序列模式挖掘经典算法,以基站平均逗留时间作为项目权重构建FP树,挖掘对应移动用户的轨迹频繁序列,轨迹频繁序列表征移动用户逗留各基站的权重。具体地,在一个实施例中,频繁序列挖掘模块130包括闭合频繁项集构建单元、条件模式基生成单元和轨迹频繁序列计算单元。
闭合频繁项集构建单元用于将各基站的平均逗留时长作为对应的项目权重,挖掘得到用户轨迹项集及对应的项集权重。
根据用户在每一个基站的逗留时长设置每一个项目(基站)的权重,挖掘用户发生轨迹的项目项集(基站组合)得到用户轨迹项集,将用户轨迹项集的项集权重定义为各项目权重的平均值。
条件模式基生成单元用于根据用户轨迹项集及对应的项集权重生成条件模式基。
查询所有用户轨迹项集,可得知各项目在哪些用户轨迹项集中出现,统计有某一项目出现的用户轨迹项集的数量得到该项目的总计值。根据各项目的总计值降序依次为头节点和其他节点,生成条件模式基。
此外,条件模式基生成单元还可对用户轨迹项集的项集权重进行归一化处理,根据归一化处理后的项集权重生成条件模式基,便于数据处理。
轨迹频繁序列计算单元用于根据条件模式基构造对应的加权FP树,并得到对应移动用户的轨迹频繁序列。
结合移动用户在各基站的平均逗留时长,根据FP树构造的思想,采用条件模式基构造对应的加权FP树,根据加权FP树导出对应移动用户的轨迹频繁序列。
常驻地点提取模块140用于根据轨迹频繁序列和预设的加权支持度阈值提取得到对应移动用户的常驻地点。
加权支持度阈值的具体取值并不唯一。根据轨迹频繁序列,按照设定的加权支持度阈值判断相应的频繁模式,获得该移动用户的用户常驻区域模式,从而得到移动用户的常驻地点。
以移动用户在各基站的平均逗留时长作为权重,采用加权FP树查找用户的常驻点,解决了移动用户轨迹随机性和繁杂性而导致算法效率和算法低下的问题。
轨迹相似性计算模块150用于根据各移动用户的常驻地点,通过最长公共子序列算法计算移动用户的轨迹相似性结果,并根据轨迹相似性结果对移动用户进行分类。
采用传统的LCSS算法,是通过轨迹本身计算轨迹相似度。本实施例中,在计算得到各移动用户的常驻地点之后,结合轨迹本身和移动用户出现在某个地方的时间规律计算轨迹相似度,得到移动用户的轨迹相似性结果。根据轨迹相似性结果对移动用户进行分类的具体方式并不唯一。
在一个实施例中,轨迹相似性计算模块150包括时间位置信息提取单元、时间相似性系数计算单元和轨迹相似性计算单元。
时间位置信息提取单元用于提取移动用户间的最长公共子序列以及各移动用户的常驻地点对应的时间。
由于各个移动用户的时间位置信息已知,根据建立的具有时间和地理位置信息的序列可直接提取得到两个移动用户之间的最长公共子序列,以及这两个移动用户在常驻地点所对应的时间。
时间相似性系数计算单元用于根据各移动用户的常驻地点对应的时间计算移动用户间的时间相似性系数。
获得用户常驻区域模式的基础上,结合时间因素,以时间相似性系数反映所有用户在邻近时间在相同的地理位置的比例。具体地,本实施例中,时间相似性系数计算单元根据各移动用户的常驻地点对应的时间计算移动用户间的时间相似性系数包括:
其中,COL为时间相似性系数,△T为精度,本实施例中设为1个小时。Ti(u)表示移动用户u在某一个时间精度内达到某一个基站Li(u)的时刻,Tj(v)表示移动用户v在某一个时间精度内达到某一个基站Lj(v)的时刻,δ(Li(u),Lj(v))为重合性公式,当两个用户的基站重合时值为1,否则为0。
轨迹相似性计算单元用于根据移动用户间的最长公共子序列以及对应移动用户间的时间相似性系数计算得到移动用户的轨迹相似性结果,并根据轨迹相似性结果对移动用户进行分类。
结合时间和地理的因素衡量用户轨迹的相似性,提升了用户轨迹相似度计算的精度。具体地,本实施例中,轨迹相似性计算单元根据移动用户间的最长公共子序列以及对应移动用户间的时间相似性系数计算得到移动用户的轨迹相似性,包括:
其中,DLCSS表示用户u和用户v的轨迹相似性,公式的第一部分表示用户u和用户v一天的最长公共子序列,第二部分表示在每一个时间精度下,两位用户在邻近时间在相同的地理位置的比例。
在一个实施例中,如图5所示,基于移动用户轨迹相似性的用户分类系统还可包括准确性验证模块160。
准确性验证模块160用于在轨迹相似性计算模块150根据各移动用户的常驻地点,通过最长公共子序列算法计算移动用户的轨迹相似性结果,并根据轨迹相似性结果对移动用户进行分类之后,根据移动用户的移动轨迹数据对轨迹相似性结果进行准确性验证,得到验证结果并显示。
具体可根据相似性结果关联电话号码进行正确率验证,得到验证结果并发送至显示器进行显示,以便操作人员得知相似性计算准确性。
上述基于移动用户轨迹相似性的用户分类系统,通过对移动轨迹数据并提取得到各移动用户的时间位置信息,避免移动用户轨迹数据的稀疏性而导致相似度算法效率低下。以移动用户在各基站的平均逗留时长作为权重,采用FP树挖掘对应移动用户的轨迹频繁序列并找到移动用户的常驻地点,解决了移动用户轨迹随机性和繁杂性而导致算法效率和算法低下的问题,既能保证用户的轨迹规律,又能降低数据的数量,降低了计算复杂度,且考虑了用户移动轨迹的规律性,贴合用户使用习惯特点。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于移动用户轨迹相似性的用户分类方法,其特征在于,包括以下步骤:
接收移动用户的移动轨迹数据并进行提取,得到各移动用户的时间位置信息;
根据所述时间位置信息得到对应移动用户在各基站的平均逗留时长;
以移动用户在各基站的平均逗留时长作为权重,采用FP树挖掘对应移动用户的轨迹频繁序列;
根据所述轨迹频繁序列和预设的加权支持度阈值提取得到对应移动用户的常驻地点;
根据各移动用户的常驻地点,通过最长公共子序列算法计算移动用户的轨迹相似性结果,并根据所述轨迹相似性结果对移动用户进行分类。
2.根据权利要求1所述的基于移动用户轨迹相似性的用户分类方法,其特征在于,所述以移动用户在各基站的平均逗留时长作为权重,采用FP树挖掘对应移动用户的轨迹频繁序列的步骤,包括以下步骤:
将各基站的平均逗留时长作为对应的项目权重,挖掘得到用户轨迹项集及对应的项集权重;
根据所述用户轨迹项集及对应的项集权重生成条件模式基;
根据所述条件模式基构造对应的加权FP树,并得到对应移动用户的轨迹频繁序列。
3.根据权利要求1所述的基于移动用户轨迹相似性的用户分类方法,其特征在于,所述根据各移动用户的常驻地点,通过最长公共子序列算法计算移动用户的轨迹相似性结果的步骤,包括以下步骤:
根据移动用户的时间位置信息,提取移动用户间的最长公共子序列以及各移动用户的常驻地点对应的时间;
根据各移动用户的常驻地点对应的时间计算移动用户间的时间相似性系数;
根据所述移动用户间的最长公共子序列以及对应移动用户间的时间相似性系数计算得到移动用户的轨迹相似性结果。
4.根据权利要求3所述的基于移动用户轨迹相似性的用户分类方法,其特征在于,所述根据各移动用户的常驻地点对应的时间计算移动用户间的时间相似性系数,包括:
其中,COL为时间相似性系数,△T为精度,Ti(u)表示移动用户u在某一个时间精度内达到某一个基站Li(u)的时刻,Tj(v)表示移动用户v在某一个时间精度内达到某一个基站Lj(v)的时刻,δ(Li(u),Lj(v))为重合性公式。
5.根据权利要求1所述的基于移动用户轨迹相似性的用户分类方法,其特征在于,所述根据各移动用户的常驻地点,通过最长公共子序列算法计算移动用户的轨迹相似性结果,并根据所述轨迹相似性结果对移动用户进行分类的步骤之后,还包括以下步骤:
根据所述移动用户的移动轨迹数据对轨迹相似性结果进行准确性验证,得到验证结果并显示。
6.一种基于移动用户轨迹相似性的用户分类系统,其特征在于,包括:
轨迹数据提取模块,用于接收移动用户的移动轨迹数据并进行提取,得到各移动用户的时间位置信息;
逗留时长计算模块,用于根据所述时间位置信息得到对应移动用户在各基站的平均逗留时长;
频繁序列挖掘模块,用于以移动用户在各基站的平均逗留时长作为权重,采用FP树挖掘对应移动用户的轨迹频繁序列;
常驻地点提取模块,用于根据所述轨迹频繁序列和预设的加权支持度阈值提取得到对应移动用户的常驻地点;
轨迹相似性计算模块,用于根据各移动用户的常驻地点,通过最长公共子序列算法计算移动用户的轨迹相似性结果,并根据所述轨迹相似性结果对移动用户进行分类。
7.根据权利要求6所述的基于移动用户轨迹相似性的用户分类系统,其特征在于,所述频繁序列挖掘模块包括:
闭合频繁项集构建单元,用于将各基站的平均逗留时长作为对应的项目权重,挖掘得到用户轨迹项集及对应的项集权重;
条件模式基生成单元,用于根据所述用户轨迹项集及对应的项集权重生成条件模式基;
轨迹频繁序列计算单元,用于根据所述条件模式基构造对应的加权FP树,并得到对应移动用户的轨迹频繁序列。
8.根据权利要求6所述的基于移动用户轨迹相似性的用户分类系统,其特征在于,所述轨迹相似性计算模块包括:
时间位置信息提取单元,用于提取移动用户间的最长公共子序列以及各移动用户的常驻地点对应的时间;
时间相似性系数计算单元,用于根据各移动用户的常驻地点对应的时间计算移动用户间的时间相似性系数;
轨迹相似性计算单元,用于根据所述移动用户间的最长公共子序列以及对应移动用户间的时间相似性系数计算得到移动用户的轨迹相似性结果,并根据所述轨迹相似性结果对移动用户进行分类。
9.根据权利要求8所述的基于移动用户轨迹相似性的用户分类系统,其特征在于,所述时间相似性系数计算单元根据各移动用户的常驻地点对应的时间计算移动用户间的时间相似性系数,包括:
其中,COL为时间相似性系数,△T为精度,Ti(u)表示移动用户u在某一个时间精度内达到某一个基站Li(u)的时刻,Tj(v)表示移动用户v在某一个时间精度内达到某一个基站Lj(v)的时刻,δ(Li(u),Lj(v))为重合性公式。
10.根据权利要求6所述的基于移动用户轨迹相似性的用户分类系统,其特征在于,还包括:
准确性验证模块,用于在轨迹相似性计算模块根据各移动用户的常驻地点,通过最长公共子序列算法计算移动用户的轨迹相似性结果,并根据所述轨迹相似性结果对移动用户进行分类之后,根据所述移动用户的移动轨迹数据对轨迹相似性结果进行准确性验证,得到验证结果并显示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611191705.1A CN106778876B (zh) | 2016-12-21 | 2016-12-21 | 基于移动用户轨迹相似性的用户分类方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611191705.1A CN106778876B (zh) | 2016-12-21 | 2016-12-21 | 基于移动用户轨迹相似性的用户分类方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106778876A true CN106778876A (zh) | 2017-05-31 |
CN106778876B CN106778876B (zh) | 2020-06-19 |
Family
ID=58896851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611191705.1A Active CN106778876B (zh) | 2016-12-21 | 2016-12-21 | 基于移动用户轨迹相似性的用户分类方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106778876B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107194434A (zh) * | 2017-06-16 | 2017-09-22 | 中国矿业大学 | 一种基于时空数据的移动对象相似度计算方法及系统 |
CN107679558A (zh) * | 2017-09-19 | 2018-02-09 | 电子科技大学 | 一种基于度量学习的用户轨迹相似性度量方法 |
CN108052924A (zh) * | 2017-12-28 | 2018-05-18 | 武汉大学深圳研究院 | 空间运动行为语义模式的辨识方法 |
CN108470146A (zh) * | 2018-02-11 | 2018-08-31 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 经典航迹的相似航迹识别方法 |
CN108566618A (zh) * | 2018-04-04 | 2018-09-21 | 广州杰赛科技股份有限公司 | 获取用户驻留规律的方法、装置、设备及存储介质 |
CN109769210A (zh) * | 2018-11-23 | 2019-05-17 | 亚信科技(中国)有限公司 | 用户活动区域相似度判断方法、装置、计算机设备 |
CN109948821A (zh) * | 2017-12-21 | 2019-06-28 | 知谷(上海)网络科技有限公司 | 群体的移动模式的确定方法和预测群体目的地的方法 |
CN110610182A (zh) * | 2018-06-15 | 2019-12-24 | 武汉安天信息技术有限责任公司 | 用户轨迹相似度判断方法和相关装置 |
CN110674236A (zh) * | 2019-09-23 | 2020-01-10 | 浙江省北大信息技术高等研究院 | 基于时空轨迹匹配的移动目标关联方法、装置、设备及存储介质 |
CN110856159A (zh) * | 2018-08-21 | 2020-02-28 | 中国移动通信集团湖南有限公司 | 确定家庭圈成员的方法、装置及存储介质 |
CN110955738A (zh) * | 2018-09-26 | 2020-04-03 | 北京融信数联科技有限公司 | 一种基于信令数据结合场景信息的人物画像刻画方法 |
CN110958599A (zh) * | 2018-09-26 | 2020-04-03 | 北京融信数联科技有限公司 | 一种基于轨迹相似性的一机多卡用户判别方法 |
CN111078973A (zh) * | 2019-12-16 | 2020-04-28 | 浙江省北大信息技术高等研究院 | 基于大数据的套牌车识别方法、设备及存储介质 |
CN111223013A (zh) * | 2019-12-25 | 2020-06-02 | 重庆特斯联智慧科技股份有限公司 | 一种基于位置标记的旅游路线智慧生成方法与系统 |
CN111460300A (zh) * | 2020-03-31 | 2020-07-28 | 腾讯云计算(北京)有限责任公司 | 网络内容推送方法、装置及存储介质 |
CN111612249A (zh) * | 2020-05-20 | 2020-09-01 | 北京百度网讯科技有限公司 | 用于预测人流量的方法、装置、设备以及存储介质 |
CN112653995A (zh) * | 2019-10-12 | 2021-04-13 | 中国移动通信有限公司研究院 | 一种用户身份识别方法、装置和计算机可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103914563A (zh) * | 2014-04-18 | 2014-07-09 | 中国科学院上海微系统与信息技术研究所 | 一种时空轨迹的模式挖掘方法 |
US20160364457A1 (en) * | 2015-06-09 | 2016-12-15 | AVAST Software s.r.o. | Length of the longest common subsequence algorithm optimization |
-
2016
- 2016-12-21 CN CN201611191705.1A patent/CN106778876B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103914563A (zh) * | 2014-04-18 | 2014-07-09 | 中国科学院上海微系统与信息技术研究所 | 一种时空轨迹的模式挖掘方法 |
US20160364457A1 (en) * | 2015-06-09 | 2016-12-15 | AVAST Software s.r.o. | Length of the longest common subsequence algorithm optimization |
Non-Patent Citations (10)
Title |
---|
ANNEMARIE TURNWALD等: "《2015 IEEE International Workshop on Advanced Robotics and its Social Impacts (ARSO)》", 10 March 2016 * |
MARK T. RIVERA等: ""Dynamics of Dyads in Social Networks: Assortative, Relational, and Proximity Mechanisms"", 《ANNU. REV. SOCIOL. 2010》 * |
SEOK-LYONG LEE等: "《Proceedings of 16th International Conference on Data Engineering (Cat. No.00CB37073)》", 3 March 2002 * |
SHEN-SHYANG HO等: ""Manifold Learning for Multivariate Variable-Length Sequences With an Application to Similarity Search"", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》 * |
向峰: ""基于移动网络数据的用户行为与城市感知研究"", 《中国博士学位论文全文数据库 信息科技辑》 * |
林树宽等: ""基于用户移动行为相似性聚类的Markov位置预测"", 《东北大学学报(自然科学版)》 * |
王亮等: ""面向移动时空轨迹数据的频繁闭合模式挖掘"", 《西安科技大学学报》 * |
袁华等: ""基于GPS轨迹的用户兴趣点及频繁路径挖掘研究"", 《基于GPS轨迹的用户兴趣点及频繁路径挖掘研究》 * |
贾若然: ""基于位置轨迹数据的用户相似性分析"", 《计算机与数字工程》 * |
陈文: ""基于Fp树的加权频繁模式挖掘算法"", 《计算机工程》 * |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107194434A (zh) * | 2017-06-16 | 2017-09-22 | 中国矿业大学 | 一种基于时空数据的移动对象相似度计算方法及系统 |
CN107679558A (zh) * | 2017-09-19 | 2018-02-09 | 电子科技大学 | 一种基于度量学习的用户轨迹相似性度量方法 |
CN107679558B (zh) * | 2017-09-19 | 2019-09-24 | 电子科技大学 | 一种基于度量学习的用户轨迹相似性度量方法 |
CN109948821A (zh) * | 2017-12-21 | 2019-06-28 | 知谷(上海)网络科技有限公司 | 群体的移动模式的确定方法和预测群体目的地的方法 |
CN108052924B (zh) * | 2017-12-28 | 2020-10-27 | 武汉大学深圳研究院 | 空间运动行为语义模式的辨识方法 |
CN108052924A (zh) * | 2017-12-28 | 2018-05-18 | 武汉大学深圳研究院 | 空间运动行为语义模式的辨识方法 |
CN108470146A (zh) * | 2018-02-11 | 2018-08-31 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 经典航迹的相似航迹识别方法 |
CN108470146B (zh) * | 2018-02-11 | 2022-07-08 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 经典航迹的相似航迹识别方法 |
CN108566618B (zh) * | 2018-04-04 | 2020-07-28 | 广州杰赛科技股份有限公司 | 获取用户驻留规律的方法、装置、设备及存储介质 |
CN108566618A (zh) * | 2018-04-04 | 2018-09-21 | 广州杰赛科技股份有限公司 | 获取用户驻留规律的方法、装置、设备及存储介质 |
CN110610182A (zh) * | 2018-06-15 | 2019-12-24 | 武汉安天信息技术有限责任公司 | 用户轨迹相似度判断方法和相关装置 |
CN110856159B (zh) * | 2018-08-21 | 2022-07-26 | 中国移动通信集团湖南有限公司 | 确定家庭圈成员的方法、装置及存储介质 |
CN110856159A (zh) * | 2018-08-21 | 2020-02-28 | 中国移动通信集团湖南有限公司 | 确定家庭圈成员的方法、装置及存储介质 |
CN110958599B (zh) * | 2018-09-26 | 2022-05-24 | 北京融信数联科技有限公司 | 一种基于轨迹相似性的一机多卡用户判别方法 |
CN110955738B (zh) * | 2018-09-26 | 2023-10-20 | 北京融信数联科技有限公司 | 一种基于信令数据结合场景信息的人物画像刻画方法 |
CN110955738A (zh) * | 2018-09-26 | 2020-04-03 | 北京融信数联科技有限公司 | 一种基于信令数据结合场景信息的人物画像刻画方法 |
CN110958599A (zh) * | 2018-09-26 | 2020-04-03 | 北京融信数联科技有限公司 | 一种基于轨迹相似性的一机多卡用户判别方法 |
CN109769210A (zh) * | 2018-11-23 | 2019-05-17 | 亚信科技(中国)有限公司 | 用户活动区域相似度判断方法、装置、计算机设备 |
CN110674236A (zh) * | 2019-09-23 | 2020-01-10 | 浙江省北大信息技术高等研究院 | 基于时空轨迹匹配的移动目标关联方法、装置、设备及存储介质 |
CN112653995B (zh) * | 2019-10-12 | 2023-03-28 | 中国移动通信有限公司研究院 | 一种用户身份识别方法、装置和计算机可读存储介质 |
CN112653995A (zh) * | 2019-10-12 | 2021-04-13 | 中国移动通信有限公司研究院 | 一种用户身份识别方法、装置和计算机可读存储介质 |
CN111078973A (zh) * | 2019-12-16 | 2020-04-28 | 浙江省北大信息技术高等研究院 | 基于大数据的套牌车识别方法、设备及存储介质 |
CN111078973B (zh) * | 2019-12-16 | 2023-10-20 | 浙江省北大信息技术高等研究院 | 基于大数据的套牌车识别方法、设备及存储介质 |
CN111223013A (zh) * | 2019-12-25 | 2020-06-02 | 重庆特斯联智慧科技股份有限公司 | 一种基于位置标记的旅游路线智慧生成方法与系统 |
CN111460300B (zh) * | 2020-03-31 | 2023-04-25 | 腾讯云计算(北京)有限责任公司 | 网络内容推送方法、装置及存储介质 |
CN111460300A (zh) * | 2020-03-31 | 2020-07-28 | 腾讯云计算(北京)有限责任公司 | 网络内容推送方法、装置及存储介质 |
CN111612249A (zh) * | 2020-05-20 | 2020-09-01 | 北京百度网讯科技有限公司 | 用于预测人流量的方法、装置、设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106778876B (zh) | 2020-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106778876A (zh) | 基于移动用户轨迹相似性的用户分类方法和系统 | |
Bachir et al. | Inferring dynamic origin-destination flows by transport mode using mobile phone data | |
CN110245981B (zh) | 一种基于手机信令数据的人群类型识别方法 | |
Gambs et al. | Next place prediction using mobility markov chains | |
Ahmed et al. | Graph sample and hold: A framework for big-graph analytics | |
Trasarti et al. | Discovering urban and country dynamics from mobile phone data with spatial correlation patterns | |
CN108536851B (zh) | 一种基于移动轨迹相似度比较的用户身份识别方法 | |
CN102722709B (zh) | 一种垃圾图片识别方法和装置 | |
CN103729478B (zh) | 基于MapReduce的LBS兴趣点发现方法 | |
CN109684373B (zh) | 基于出行和话单数据分析的重点关系人发现方法 | |
CN107038168A (zh) | 一种用户通勤轨迹管理方法、装置及系统 | |
Paraskevopoulos et al. | Identification and characterization of human behavior patterns from mobile phone data | |
CN105824813B (zh) | 一种挖掘核心用户的方法及装置 | |
CN108537134A (zh) | 一种视频语义场景分割及标注方法 | |
CN104008203A (zh) | 一种融入本体情境的用户兴趣挖掘方法 | |
US20160232452A1 (en) | Method and device for recognizing spam short messages | |
CN107018493A (zh) | 一种基于连续时序马尔科夫模型的地理位置预测方法 | |
CN102122291A (zh) | 一种基于树形日志模式分析的博客好友推荐方法 | |
CN106791221B (zh) | 一种基于通话的亲友圈关系识别方法 | |
CN103440328B (zh) | 一种基于鼠标行为的用户分类方法 | |
CN107563807A (zh) | 一种基于数据挖掘的区域广告推送系统 | |
Sun et al. | Identifying tourists and locals by K-means clustering method from mobile phone signaling data | |
Jiang et al. | Crowd flow prediction for social internet-of-things systems based on the mobile network big data | |
CN108513262A (zh) | 基于合成似真路径的位置隐私保护方法 | |
CN108090787A (zh) | 一种基于Apriori算法的话单数据深度挖掘和用户行为预测的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |