CN106339716B - 一种基于加权欧氏距离的移动轨迹相似度匹配方法 - Google Patents
一种基于加权欧氏距离的移动轨迹相似度匹配方法 Download PDFInfo
- Publication number
- CN106339716B CN106339716B CN201610677693.7A CN201610677693A CN106339716B CN 106339716 B CN106339716 B CN 106339716B CN 201610677693 A CN201610677693 A CN 201610677693A CN 106339716 B CN106339716 B CN 106339716B
- Authority
- CN
- China
- Prior art keywords
- time
- track
- point
- euclidean distance
- time interval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Abstract
一种改进的基于欧式距离的相似度匹配方法,方法包括:获取移动数据,保留包括IMSI、StartTime、LocLng以及LocLat等移动信息;根据IMSI查询得到若干个移动数据,即轨迹点,以采集时的即时时间排序获取原始轨迹;将特定的时间段分为若干个时间区间,轨迹点放置到相应的时间区间内,根据轨迹点停留时间给予权重,加权计算时间区间特征点位置;根据筛选条件不同,赋予相应时间区间以较高权值,进行加权欧式距离相似度计算;将计算得到的欧氏距离排序,取距离最小的5条轨迹,即为相似度最高的行为轨迹。
Description
技术领域
本发明涉及移动数据分析领域,尤其是针对移动大数据平台下基于移动轨迹数据的相似度匹配方法。
背景技术
近年来,随着移动通信技术以及传感器技术的发展,移动设备的持有率不断攀升。由附近基站接收到的移动数据可大致标定移动设备的位置以及即时时间。进而,通过查询移动设备的唯一标示符,得到其某段时间内的轨迹数据。
由于人类移动轨迹显示出高度的时间以及空间规律性,在大多数情况下,个体会在生活原点附近徘徊,大幅度偏离仅为小概率事件。因其规律性,使得移动轨迹的研究成为可能,其中,移动轨迹的相似度研究已成为热点之一,主要应用于轨迹预测、兴趣点挖掘以及异常轨迹搜索等。
目前,每日产生的移动数据数以亿计,因而,对于轨迹相似度匹配算法的效率有比较高的要求,常用的算法为基于距离的相似度比较算法,主要有欧式距离法、最小边界矩形距离法、最长公共子序列法以及编辑距离法等。其中,欧式距离是度量对象间相似度最为通用的方法。该算法通过计算同一维度两个轨迹点的欧氏距离,即可得到两条轨迹间的欧氏距离,具备较高的效率。但是,由于欧氏距离法要求轨迹间以相同的维度表示,并且该方法没有考虑时间的变化,即两条形状相同的轨迹在不同时间内呈现会被认定为相同的。因而,在移动大数据的环境下,亟需提出一种改进的基于欧式距离的相似度匹配方法,以满足日常个体轨迹间相似度计算的需求。
发明内容
本发明主要解决的技术问题是在移动大数据环境下,针对欧式距离法轨迹间需相同维度以及未考虑时间变化等缺陷,结合其运算效率较高的优势,提出一种基于移动轨迹数据的相似度匹配方法。
为解决如上问题,本发明采用的技术方案主要是:在移动大数据的环境下,一种改进的基于欧式距离的相似度匹配方法,将所提取的轨迹点进行时间维度上的划分,每个时间段内的特征点进行特征提取,在考虑时间维度以及保留数据特征的情况下,降低相似度比较过程中的数据量。所述的方法包括:
步骤1,获取移动数据;利用现有移动数据,每条数据均为主基站接收的信号数据,保留包括IMSI、StartTime、LocLng以及LocLat字段作为移动定位过程中的必要信息,其中,IMSI表示个体携带的移动设备的唯一标识符,StartTime为基站接收到移动信号的即时时间,LocLng以及LocLat为接收基站的经纬度,即基站的地理位置。
步骤2,获取原始轨迹;根据IMSI查询,即可获得特定时间段内该IMSI对应移动设备的若干条移动数据,每条移动数据即为该移动设备移动轨迹的一个轨迹点,其中,轨迹点信息包括该点的位置坐标(经纬度)以及采样时间t。按照轨迹点的即时时间排序,即可构成个体的运动轨迹。
步骤3,分时段特征点采样;以一定的时间区间为单位,将特定时间段划分为若干个时间区间,将采集得到的移动轨迹的轨迹点按照其即时时间,放入每个区间,这样每个时间区间内会有若干按时间排序的轨迹点。在单个时间区间内,通过这些轨迹点的位置坐标可得轨迹经过的位置点(Lngj,Latj),即时时间差可得到个体在某位置点停留的时间Δtj,将位置停留时间作为计算特征点位置的权重条件,按照如下公式计算。
注:wtj表示位置j在计算特征点时该轨迹点位置的权重,Δtj表示在位置j停留的时间,tTotal表示单个时间区间的总时间。
由每个位置点的权重wtj,得到可以代表该个体在该时间区间的综合位置,如以下公式所示。
注:rix以及riy表示在该时间区间i内特征点的总位置经纬度,该时间区间内的总轨迹点数为m,Lngj以及Latj在该时间区间内经过位置点j的经纬度。
经过以上计算,即可得到特定时间段内轨迹的运动位置情况。
步骤4,相似度计算;根据不同的筛选对象,给这些时间区间赋予不同的权值wpi,权值取值范围:1≤wpi≤2。例如,需要筛选家庭成员,则给予夜间时间区间以较高的权值;需要筛选一起工作学习的团体,则给予日间时间区间以较高的权值。选取某个IMSI,作为待匹配对象,得到轨迹R,与库中的各轨迹S进行加权的欧氏距离计算,如下公式所示。
注:R,S分别为两条轨迹,两条轨迹的轨迹点数分别为n,E(R,S)为轨迹R与S间的欧式距离,ri,si分别表示轨迹R与S上第i个轨迹点,rix与riy表示ri的位置坐标,six与siy表示si的位置坐标,wpi为相应时间区间的权值,distance(ri,si)表示ri,si间的欧式距离。
步骤5,给出相似度排序表;根据计算得到的欧氏距离,取出距离最小的5条轨迹,作为与之相似度最高的轨迹集。
本发明的有益效果是:相较于目前的技术情况,本发明通过将提取得到的移动数据进行时间维度上的划分,解决了欧氏距离计算中维度相等的需求。在计算单个时间区间的特征点时,通过给定停留时间较长的位置以较大的权值,可在一定程度上获取该时段更精确的位置点,保留了数据特征并且减少了数据量。并且,由于筛选的人群不同,根据筛选条件给定重要的时间区间以较高的权值,有利于筛选轨迹相似的人群。更多地,由于利用改进的欧式距离方法计算移动大数据轨迹相似问题,具备较高的计算效率。
附图说明
图1是本发明移动数据表结构图;
图2是本发明移动轨迹示意图;
图3是本发明基于加权欧氏距离的移动轨迹相似度匹配实施例结构框图;
图4是本发明实施例相似度计算结果图;
图5是本发明实施例相似度匹配可视化结果图;
图6是本发明的方法流程图。
具体实施方式
为了使该技术领域的人员可以更好地理解本发明方案,下面结合附图对本发明做进一步描述,显然,所描述的实施方式仅仅是本发明一部分的实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创新性劳动前提下所获得的所有其他实施方式,都应当属于本发明保护的范围。
图3为本发明利用所述方法实现的一个基于加权欧氏距离的移动轨迹相似度匹配的实施例。该实施例采集2015年2月5日的移动数据共计1.8亿条左右,涉及杭州市内基站2.5万个左右。利用MongoDB数据库实现大数据分析处理,包括移动数据导入模块、轨迹生成模块以及分时段特征点采样模块,结合SpringMVC框架完成数据业务逻辑应用,其中包含相似度匹配以及相似度排序,最终将匹配结果进行可视化。若有相同实质上的结果,则不以图3为限。
完成该实施例的流程参照图6,主要包括以下5个步骤:
步骤1,获取移动数据;利用现有移动数据,每条数据均为主基站接收的信号数据,保留包括IMSI、StartTime、LocLng以及LocLat字段作为移动定位过程中的必要信息,如图1所示。其中,IMSI表示个体携带的移动设备的唯一标识符,StartTime为基站接收到移动信号的即时时间,LocLng以及LocLat为接收基站的经纬度,即基站的地理位置。
步骤2,获取原始轨迹;根据IMSI查询,即可获得当天时间段内该IMSI对应移动设备的移动数据,每条移动数据即为该移动设备移动轨迹的一个轨迹点,其中,轨迹点信息包括该点的位置坐标(经纬度)以及采样时间t。按照轨迹点的即时时间排序,即可构成个体的运动轨迹,轨迹示意图如图2所示。
步骤3,分时段特征点采样;以半小时为单位,将一天划分为48个时间区间,将采集得到的移动轨迹的轨迹点按照其即时时间,放入每个区间,这样每个时间区间内会有若干按时间排序的轨迹点。在单个时间区间内,通过这些轨迹点的位置坐标可得轨迹经过的地理位置(Lngj,Latj),即时时间差可得到个体在某位置点停留的时间Δtj,将位置停留时间作为计算特征点位置的权重条件,做如下计算。
注:wtj表示位置j在计算特征点时该轨迹点位置的权重,Δtj表示在位置j停留的时间,tTotal表示单个时间区间的总时间。
由每个位置点的权重wtj,得到可以代表该个体在该时间区间的综合位置,如以下公式所示。
注:rix以及riy表示在该时间区间i内特征点的总位置经纬度,该时间区间内的总轨迹点数为m,Lngj以及Latj在该时间区间内经过位置点j的经纬度。
经过以上计算,即可得到一天内库内各轨迹的运动位置情况。
步骤4,相似度计算;根据不同的筛选对象,给这些时间区间赋予不同的权值wpi,权值取值范围:1≤wpi≤2。例如,需要筛选家庭成员,则给予夜间时间区间以较高的权值;需要筛选一起工作学习的团体,则给予日间时间区间以较高的权值。本例中,主要想筛选日间在一起行动的人群,因而,对于9点半到11点半以及2点到5点这两个时间段涉及的时间区间给予1.5的权值。选取IMSI:46000086250****F(由于IMSI有较强的指向性,为了保护移动用户的隐私,故以下涉及到的IMSI均抹去末尾若干位),作为待匹配对象,得到轨迹R,与库中的各轨迹S进行加权的欧氏距离计算,如下公式所示。
注:R,S分别为两条轨迹,两条轨迹的轨迹点数分别为n,E(R,S)为轨迹R与S间的欧式距离,ri,si分别表示轨迹R与S上第i个轨迹点,rix与riy表示ri的位置坐标,six与siy表示si的位置坐标,wpi为相应时间区间的权值,distance(ri,si)表示ri,si间的欧式距离。
步骤5,给出相似度排序表;根据计算得到的欧氏距离,取出距离最小的5条轨迹,作为与之相似度最高的轨迹集,匹配结果如图4所示。借助第三方地图引擎,利用高德地图完成相应的可视化显示,结果如图5所示。
通过上述实施例,本发明提出的一种基于加权欧氏距离的移动轨相似度匹配方法,解决了欧式距离计算过程中维度相同的需求,同时,通过不同位置点停留时间给予不同权重,在计算特征点时起到较好的修正作用,由筛选条件给予时间区间以不同权重,可帮助更好地选取相似度较高的特征人群,由于该方法以欧式距离方法为基础,计算效率较高。
以上实例仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (1)
1.一种改进的基于欧式距离的相似度匹配方法,将所提取的轨迹点进行时间维度上的划分,每个时间段内的特征点进行特征提取,在考虑时间维度以及保留数据特征的情况下,降低相似度比较过程中的数据量;所述的方法包括:
步骤1,获取移动数据;利用现有移动数据,每条数据均为主基站接收的信号数据,保留包括IMSI、StartTime、LocLng以及LocLat字段作为移动定位过程中的必要信息,其中,IMSI表示个体携带的移动设备的唯一标识符,StartTime为基站接收到移动信号的即时时间,LocLng以及LocLat为接收基站的经纬度,即基站的地理位置;
步骤2,获取原始轨迹;根据IMSI查询,即可获得特定时间段内该IMSI对应移动设备的若干条移动数据,每条移动数据即为该移动设备移动轨迹的一个轨迹点,其中,轨迹点信息包括该点的位置坐标以及采样时间t;按照轨迹点的即时时间排序,即可构成个体的运动轨迹;
步骤3,分时段特征点采样;以一定的时间区间为单位,将特定时间段划分为若干个时间区间,将采集得到的移动轨迹的轨迹点按照其即时时间,放入每个区间,这样每个时间区间内会有若干按时间排序的轨迹点;在单个时间区间内,通过这些轨迹点的位置坐标可得轨迹经过的位置点(Lngj,Latj),即时时间差可得到个体在某位置点停留的时间Δtj,将位置停留时间作为计算特征点位置的权重条件,按照如下公式计算;
注:wtj表示位置j在计算特征点时该轨迹点位置的权重,Δtj表示在位置j停留的时间,tTotal表示单个时间区间的总时间;
由每个位置点的权重wtj,得到可以代表该个体在该时间区间的综合位置,如以下公式所示;
注:rix以及riy表示在该时间区间i内特征点的总位置经纬度,该时间区间内的总轨迹点数为m,Lngj以及Latj在该时间区间内经过位置点j的经纬度;
经过以上计算,即可得到特定时间段内轨迹的运动位置情况;
步骤4,相似度计算;根据不同的筛选对象,给这些时间区间赋予不同的权值wpi,权值取值范围:1≤wpi≤2;例如,需要筛选家庭成员,则给予夜间时间区间以较高的权值;需要筛选一起工作学习的团体,则给予日间时间区间以较高的权值;选取某个IMSI,作为待匹配对象,得到轨迹R,与库中的各轨迹S进行加权的欧氏距离计算,如下公式所示;
注:R,S分别为两条轨迹,两条轨迹的轨迹点数分别为n,E(R,S)为轨迹R与S间的欧式距离,ri,si分别表示轨迹R与S上第i个轨迹点,rix与riy表示ri的位置坐标,six与siy表示si的位置坐标,wpi为相应时间区间的权值,distance(ri,si)表示ri,si间的欧式距离;
步骤5,给出相似度排序表;根据计算得到的欧氏距离,取出距离最小的5条轨迹,作为与之相似度最高的轨迹集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610677693.7A CN106339716B (zh) | 2016-08-16 | 2016-08-16 | 一种基于加权欧氏距离的移动轨迹相似度匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610677693.7A CN106339716B (zh) | 2016-08-16 | 2016-08-16 | 一种基于加权欧氏距离的移动轨迹相似度匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106339716A CN106339716A (zh) | 2017-01-18 |
CN106339716B true CN106339716B (zh) | 2019-10-29 |
Family
ID=57825275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610677693.7A Active CN106339716B (zh) | 2016-08-16 | 2016-08-16 | 一种基于加权欧氏距离的移动轨迹相似度匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106339716B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107451553B (zh) | 2017-07-26 | 2019-08-02 | 北京大学深圳研究生院 | 一种基于超图转变的视频中暴力事件检测方法 |
CN107665289B (zh) * | 2017-11-17 | 2020-12-08 | 广州汇智通信技术有限公司 | 一种运营商数据的处理方法及系统 |
CN108022020B (zh) * | 2017-12-15 | 2020-09-18 | 东软集团股份有限公司 | 设备故障管理方法、装置、存储介质和电子设备 |
CN108683995B (zh) * | 2018-03-23 | 2020-06-19 | 广州杰赛科技股份有限公司 | 用户移动轨迹的获得方法和装置 |
CN109508727B (zh) * | 2018-04-23 | 2021-07-16 | 北京航空航天大学 | 一种基于加权欧氏距离的度量功能间相似性的方法 |
CN110610182A (zh) * | 2018-06-15 | 2019-12-24 | 武汉安天信息技术有限责任公司 | 用户轨迹相似度判断方法和相关装置 |
CN109447135A (zh) * | 2018-10-12 | 2019-03-08 | 天津大学 | 一种新的船舶轨迹聚类方法 |
CN109635059A (zh) * | 2018-11-23 | 2019-04-16 | 武汉烽火众智数字技术有限责任公司 | 基于轨迹相似度匹配的人车关联分析方法及系统 |
CN111291141B (zh) * | 2018-12-07 | 2023-06-20 | 阿里巴巴集团控股有限公司 | 一种轨迹相似度确定方法及装置 |
CN111125189B (zh) * | 2019-12-12 | 2021-01-29 | 四川大学 | 基于加权实数代价编辑距离的轨迹相似性度量方法 |
CN111444380B (zh) * | 2020-03-26 | 2023-05-02 | 腾讯音乐娱乐科技(深圳)有限公司 | 音乐搜索排序方法、装置、设备和存储介质 |
CN112733890A (zh) * | 2020-12-28 | 2021-04-30 | 北京航空航天大学 | 一种考虑时空特征的网联车辆轨迹聚类方法 |
CN112849648B (zh) * | 2020-12-31 | 2023-04-28 | 重庆国际复合材料股份有限公司 | 智能托盘识别系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102879791A (zh) * | 2012-10-09 | 2013-01-16 | 潮州市创佳电子有限公司 | 一种基于北斗定位终端的老人活跃度数据感知系统 |
CN103324706A (zh) * | 2013-06-17 | 2013-09-25 | 中国矿业大学 | 具有时间约束的轨迹数据热点区域的方法 |
CN104239556A (zh) * | 2014-09-25 | 2014-12-24 | 西安理工大学 | 基于密度聚类的自适应轨迹预测方法 |
CN104462273A (zh) * | 2014-11-25 | 2015-03-25 | 百度在线网络技术(北京)有限公司 | 提取轨迹的方法及系统 |
CN105787104A (zh) * | 2016-03-21 | 2016-07-20 | 百度在线网络技术(北京)有限公司 | 用户属性信息的获取方法和装置 |
-
2016
- 2016-08-16 CN CN201610677693.7A patent/CN106339716B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102879791A (zh) * | 2012-10-09 | 2013-01-16 | 潮州市创佳电子有限公司 | 一种基于北斗定位终端的老人活跃度数据感知系统 |
CN103324706A (zh) * | 2013-06-17 | 2013-09-25 | 中国矿业大学 | 具有时间约束的轨迹数据热点区域的方法 |
CN104239556A (zh) * | 2014-09-25 | 2014-12-24 | 西安理工大学 | 基于密度聚类的自适应轨迹预测方法 |
CN104462273A (zh) * | 2014-11-25 | 2015-03-25 | 百度在线网络技术(北京)有限公司 | 提取轨迹的方法及系统 |
CN105787104A (zh) * | 2016-03-21 | 2016-07-20 | 百度在线网络技术(北京)有限公司 | 用户属性信息的获取方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106339716A (zh) | 2017-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106339716B (zh) | 一种基于加权欧氏距离的移动轨迹相似度匹配方法 | |
CN110264709B (zh) | 基于图卷积网络的道路的交通流量的预测方法 | |
CN106878951B (zh) | 用户轨迹分析方法及系统 | |
CN107040894B (zh) | 一种基于手机信令数据的居民出行od获取方法 | |
Jiang et al. | Activity-based human mobility patterns inferred from mobile phone data: A case study of Singapore | |
CN110505583B (zh) | 一种基于卡口数据与信令数据的轨迹匹配方法 | |
CN105142106B (zh) | 基于手机信令数据的出行者职住地识别与出行链刻画方法 | |
Li et al. | Hunting or waiting? Discovering passenger-finding strategies from a large-scale real-world taxi dataset | |
CN112182410B (zh) | 基于时空轨迹知识图谱的用户出行模式挖掘方法 | |
CN102289594B (zh) | 海洋中尺度涡旋自动识别与过程重构算法 | |
CN109885643B (zh) | 一种基于语义轨迹的位置预测方法及存储介质 | |
CN106156528B (zh) | 一种轨迹数据停留识别方法及系统 | |
CN105513351A (zh) | 一种基于大数据的交通出行特征数据提取方法 | |
CN107621263B (zh) | 一种基于道路磁场特征的地磁定位方法 | |
CN109688532B (zh) | 一种划分城市功能区域的方法及装置 | |
CN102609616A (zh) | 一种基于手机定位数据的动态人口分布密度检测方法 | |
CN102332210A (zh) | 基于手机定位数据的实时城市道路交通流数据提取方法 | |
CN107194525A (zh) | 一种基于手机信令的城市中心评估方法 | |
Zhou et al. | A data-driven method for trip ends identification using large-scale smartphone-based GPS tracking data | |
EP3211586A1 (en) | Population estimation device, program, and population estimation method | |
CN105785411A (zh) | 一种基于区域划分的异常轨迹检测方法 | |
CN109889974B (zh) | 一种室内定位多源信息指纹库的构建与更新方法 | |
CN109034187B (zh) | 一种用户家庭工作地址挖掘流程 | |
CN110727714A (zh) | 融合时空聚类和支持向量机的居民出行特征提取方法 | |
CN110326323B (zh) | 一种获取发射概率、转移概率以及序列定位的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |