CN106790468A - 一种分析用户WiFi活动轨迹规律的分布式实现方法 - Google Patents
一种分析用户WiFi活动轨迹规律的分布式实现方法 Download PDFInfo
- Publication number
- CN106790468A CN106790468A CN201611134514.1A CN201611134514A CN106790468A CN 106790468 A CN106790468 A CN 106790468A CN 201611134514 A CN201611134514 A CN 201611134514A CN 106790468 A CN106790468 A CN 106790468A
- Authority
- CN
- China
- Prior art keywords
- suffix
- wifi
- frequent
- track
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000004458 analytical method Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 11
- VOYADQIFGGIKAT-UHFFFAOYSA-N 1,3-dibutyl-4-hydroxy-2,6-dioxopyrimidine-5-carboximidamide Chemical compound CCCCn1c(O)c(C(N)=N)c(=O)n(CCCC)c1=O VOYADQIFGGIKAT-UHFFFAOYSA-N 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000002131 composite material Substances 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013480 data collection Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000021152 breakfast Nutrition 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 235000021158 dinner Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000060 site-specific infrared dichroism spectroscopy Methods 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/535—Tracking the activity of the user
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/52—Network services specially adapted for the location of the user terminal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Hardware Design (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明提出了一种分析用户WiFi活动轨迹规律的分布式实现方法,根据MAC的活动规律轨迹可以得到MAC的常驻区域,对活动规律轨迹的时间进行分析,可以预测目标对象在哪个时间段可能出现在哪些区域,也可以查询与该MAC具有相似活动轨迹规律的MAC集。可以对挖掘出来的轨迹进行语义化,找出用户的一些通勤模式,比如上下班路线;可以对挖掘出来的兴趣区域进行语义化,找出用户的上班区域、住宅区域。
Description
技术领域
本发明涉及信息技术领域,尤其涉及一种分析用户WiFi活动轨迹规律的分布式实现方法。
背景技术
在现有技术中,用户手持开启WiFi的智能终端经过WiFi覆盖区域过程中,WiFi采集设备会采集用户终端的WiFi数据,主要包括MAC地址(Media Access Control,物理地址)、扫描时间和扫面设备的经纬度。因此,一般WiFi扫描列表中的数据主要由扫描时间、扫描到的AP(Access Point,无线网络接入点)或MAC地址、信号强度以及相应的SSID(ServiceSet Identifier,服务集标识)构成,然而这其中并不包括显示轨迹的坐标信息。
此外,WiFi数据一方面无法像GPS那样精确记录用户的实际地理坐标;另一方面WiFi数据记录的位置点比较稀疏,不能向GPS那样具有连续的位置点。因此,传统的处理GPS轨迹数据的方法不能完全照搬到WiFi轨迹数据中。
一般用户连接的WiFi多数是由固定AP发出,可以通过AP的部署位置获知对应的WiFi的坐标,因此通过WiFi来分析用户的活动轨迹规律有着潜在的应用价值,而目前比较成熟的频繁模式挖掘算法用于其中,同时现有挖掘算法大多数针对轨迹的空间规律,很少从时间和空间去考虑用户在不同时间尺度(星期、时段)下的活动规律,而这种时空规律对于频繁轨迹和兴趣区域的语义具有重要的参考价值。
发明内容
本发明的目的在于提供一种分析用户WiFi活动轨迹规律的分布式实现方法,提取用户WiFi活动轨迹,并从时间和空间两个方面去考虑用户在不同时间尺度(星期、时段)下的活动规律。
为实现上述目的,本发明提出了一种分析用户WiFi活动轨迹规律的分布式实现方法,包括以下步骤:
(a)轨迹提取:后台服务器查询模块查询后台服务器数据库中的用户移动端MAC地址所对应的WiFi扫描记录,所述WiFi扫描记录为由多台WiFi采集设备采集记录并由所述WiFi采集设备上传至所述后台服务器数据库;
将所述WiFi扫描记录按采集时间进行排序获得WiFi扫描轨迹E={ e1,e2,…,en },其中ei=<pi, ti>,i为自然数,ei表示轨迹点,pi表示地理位置,ti表示扫描时间;
(b)轨迹点预处理:后台服务器的数据处理模块依次遍历WiFi扫描轨迹E,对任意连续的两个轨迹点记录ei和ei+1,如果pi = pi+1且ti+1- ti < Δt,则将所述ei和ei+1两条记录合并为一个复合轨迹点记录ei'= <pi,ti in,ti out>,其中, ti in=ti, ti out= ti+1;由合并后的复合轨迹点记录ei'组成WiFi扫描轨迹E'={ e1', e2',…,en'},其中ei'=<pi,ti in,ti out>,n为自然数,pi表示地理位置,ti in表示ei'采集开始时间,ti out表示ei'采集结束时间;
(c)轨迹片段划分:根据预定规则对步骤(b)中获得的WiFi扫描轨迹E'进行分割,获得只包含有序位置轨迹点位置的多条轨迹片段,并由所述多条轨迹片段得到轨迹集合TR;
(d)频繁轨迹提取:采用并行算法计算步骤(b)中获取的轨迹集合TR中的轨迹点pi出现频率次数,得到频繁轨迹点,进而使用并行后缀树算法实现频繁轨迹提取;
(e)建立语义化模型:对频繁轨迹产生时间的星期和小时进行语义化定义;
(f)建立轨迹语义化:获取频繁轨迹的时间尺度频率次数中次数最多的星期和小时,根据语义化模型将轨迹路径进行分类,获取频繁轨迹的语义化模型。
进一步的,在所述分析用户WiFi活动轨迹规律的分布式实现方法中,所述预定规则包括规则一和规则二:
规则一:如果一个轨迹点<pi,ti in,ti out>的停留时间τi= ti out - ti in >Δt,则将轨迹在pi处进行分割,且将地理位置点pi作为上一段轨迹片段的终点和下一段轨迹片段的起点;
规则二:如果两个轨迹点<pi,ti in,ti out>和<pi+1,ti+1 in,ti+1 out>的间隔时间τi'= ti+1 in -ti out> Δt,则将轨迹在pi处进行分割,其中pi作为上一段轨迹片段的终点,pi+1作为下一段轨迹片段的起点;
根据规则一或规则二对WiFi扫描轨迹E'进行分割后获得轨迹集合TR={TR1, TR2, …,TRn},其中第i条轨迹片段TRi= {pi1, pi2, … , pim},pim表示第i条轨迹片段中的用户移动端经过的第m项轨迹点位置,pim对应WiFi采集设备地理位置。
进一步的,在所述分析用户WiFi活动轨迹规律的分布式实现方法中,所述频繁轨迹提取包括以下步骤:
步骤一,对步骤(b)中的每个项pim对应的WiFi采集设备地理位置PI在TR中出现的频率次数进行计数,然后将WiFi采集设备PI出现频率次数进行降序排序,并从TR中过滤出WiFi采集设备PI出现频率次数大于最小支持度的项作为频繁轨迹点;
步骤二:采用均衡分组算法将步骤1中获得的对应频繁轨迹点均匀地划分到Q个分组中,平衡所有组内的计算负载,其中Q为大于1的自然数;
步骤三:获得每条轨迹片段TRi的后缀模式,所述轨迹片段TRi的后缀{pi1, pi2, … ,pim}包括多种组成模式,所述组成模式为将轨迹片段TRi中所有的有序轨迹点位置任意分成两部分然后由后一部分有序轨迹点位置组成,一种所述组成模式为所述轨迹片段TRi的一种后缀模式;根据后缀模式中第一项是否为频繁轨迹点来判断所述后缀模式的分组,其中,若后缀模式中第一项为频繁轨迹点,则将所述后缀模式归属到其第一项对应的频繁轨迹点所在的分组;若后缀模式中第一项不是频繁轨迹点,则该后缀模式被自动过滤不进入任意分组中;
步骤四:对每个分组构建一个后缀树,获得Q个后缀树,由Q个后缀树构造并行后缀树,对并行后缀树进行并行处理;后缀树的创建为首先建立树的根节点,然后扫描同一个分组内的所有TRi的后缀模式,并对每个后缀模式创建分枝,所述后缀模式中任意轨迹点位置pim为所述后缀模式分枝的节点,将所有的后缀模式分枝连接到根节点,获得每个分组的后缀树,并对所述后缀树进行压缩处理;
步骤五:对后缀树每个后缀树模式分枝内有序的各节点依次计数,通过节点的计数与最小支持度的比较确定频繁轨迹片段,即若某一节点的计数小于最小支持度则停止对所述后缀树模式分枝内后续节点的计数且所述计数小于最小支持度时的节点前面所有节点组合形成一条频繁轨迹片段;或者若所述后缀模式分枝所有节点的计数均满足大于等于最小支持度则所述后缀模式分枝为频繁轨迹片段,由频繁轨迹片段组成频繁轨迹。
进一步的,在所述分析用户WiFi活动轨迹规律的分布式实现方法中,所述最小支持度为频率次数阈值,所述频率次数阈值根据环境进行设置。
进一步的,在所述分析用户WiFi活动轨迹规律的分布式实现方法中,对所述TRi的后缀模式形成的后缀树进行压缩处理方法为:所述后缀模式分枝内某一节点后的节点均为其子节点,若后缀模式分枝内的节点只有一个子节点,且满足该节点的计数与该节点的子节点的计数相同,则将该节点与其子节点合并为一个节点。
进一步的,在所述分析用户WiFi活动轨迹规律的分布式实现方法中,根据频繁轨迹产生时间的星期和小时建立语义化模型,其中将星期分为工作日和休息日,当星期为工作日时,小时分为n个时间段,对n个时间段分别语义化定义n个事件;当星期为休息日时,小时分为m个时间段,对m个时间段分别语义化定义m个事件。
与现有技术相比,本发明的有益效果是:根据MAC的活动规律轨迹可以得到MAC的常驻区域,对活动规律轨迹的时间进行分析,可以预测目标对象在哪个时间段可能出现在哪些区域,也可以查询与该MAC具有相似活动轨迹规律的MAC集。可以对挖掘出来的轨迹进行语义化,找出用户的一些通勤模式,比如上下班路线;可以对挖掘出来的兴趣区域进行语义化,找出用户的上班区域、住宅区域。
构建在大数据平台上能处理大量的数据,通过Flume实时采集数据、HDFS、Hbase存储、Spark分析处理、ElasticSearch查询检索以及并行化的后缀树算法实现的大规模分布式处理平台,能够快速准确的找出MAC地址的活动轨迹规律。
附图说明
图1为本发明一实施例中分析用户WiFi活动轨迹规律的分布式实现方法示意图。
具体实施方式
下面将结合示意图对本发明的分析用户WiFi活动轨迹规律的分布式实现方法进行更详细的描述,其中表示了本发明的优选实施例,应该理解本领域技术人员可以修改在此描述的本发明,而仍然实现本发明的有利效果。因此,下列描述应当被理解为对于本领域技术人员的广泛知道,而并不作为对本发明的限制。
如图1所示,本发明提出了一种分析用户WiFi活动轨迹规律的分布式实现方法,包括以下步骤:
(a)轨迹提取:后台服务器查询模块查询后台服务器数据库中的用户移动端MAC地址所对应的WiFi扫描记录,所述WiFi扫描记录为由多台WiFi采集设备采集记录并由所述WiFi采集设备上传至所述后台服务器数据库;
将所述WiFi扫描记录按采集时间进行排序获得WiFi扫描轨迹E={ e1,e2,…,en },其中ei=<pi, ti>,i为自然数,ei表示轨迹点,pi表示地理位置,ti表示扫描时间;
(b)轨迹点预处理:后台服务器的数据处理模块依次遍历WiFi扫描轨迹E,对任意连续的两个轨迹点记录ei和ei+1,如果pi = pi+1且ti+1- ti < Δt,则将所述ei和ei+1两条记录合并为一个复合轨迹点记录ei'= <pi,ti in,ti out>,其中, ti in=ti, ti out= ti+1;由合并后的复合轨迹点记录ei'组成WiFi扫描轨迹E'={ e1', e2',…,en'},其中ei'=<pi,ti in,ti out>,n为自然数,pi表示地理位置,ti in表示ei'采集开始时间,ti out表示ei'采集结束时间;
(c)轨迹片段划分:根据预定规则对步骤(b)中获得的WiFi扫描轨迹E'进行分割,获得只包含有序位置信息的多条轨迹片段,并由所述多条轨迹片段得到轨迹集合TR;
(d)频繁轨迹提取:采用并行算法计算步骤(b)中获取的轨迹集合TR中的轨迹点pi出现频率次数,得到频繁轨迹点,进而使用并行后缀树算法实现频繁轨迹提取;
(e)建立语义化模型:对频繁轨迹产生时间的星期和小时进行语义化定义;
(f)建立轨迹语义化:获取频繁轨迹的时间尺度频率次数中次数最多的星期和小时,根据语义化模型将轨迹路径进行分类,获取频繁轨迹的语义化模型。
其中,在本实施例中,所述预定规则包括规则一和规则二:
规则一:如果一个轨迹点<pi,ti in,ti out>的停留时间τi= ti out - ti in >Δt,则将轨迹在pi处进行分割,且将地理位置点pi作为上一段轨迹片段的终点和下一段轨迹片段的起点;
规则二:如果两个轨迹点<pi,ti in,ti out>和<pi+1,ti+1 in,ti+1 out>的间隔时间τi'= ti+1 in -ti out> Δt,则将轨迹在pi处进行分割,其中pi作为上一段轨迹片段的终点,pi+1作为下一段轨迹片段的起点。
在本实施例中,根据上述规则一或规则二对WiFi扫描轨迹E'进行分割后获得轨迹集合TR={TR1, TR2, …, TRn},其中第i条轨迹片段TRi= {pi1, pi2, … , pim},pim表示第i条轨迹片段中的用户移动端经过的第m项轨迹点位置,pim对应WiFi采集设备地理位置。
具体的,在本实施例中,所述频繁轨迹提取的方法包括以下步骤:
步骤一,对步骤(b)中的每个项pim对应的WiFi采集设备地理位置PI在TR中出现的频率次数进行计数,然后将WiFi采集设备PI出现频率次数进行降序排序,并从TR中过滤出WiFi采集设备PI出现频率次数大于最小支持度的项作为频繁轨迹点,其中,所述最小支持度为频率次数阈值,所述频率次数阈值根据环境进行设置;
步骤二,采用均衡分组算法将步骤1中获得的对应频繁轨迹点均匀地划分到Q个分组中,平衡所有组内的计算负载,其中Q为大于1的自然数;
步骤三,获得每条轨迹片段TRi的后缀模式,所述轨迹片段TRi的后缀{pi1, pi2, … ,pim}包括多种组成模式,所述组成模式为将轨迹片段TRi中所有序轨迹点位置任意分成两部分然后由后一部分有序轨迹点位置组成,一种所述组成模式为所述轨迹片段TRi的一种后缀模式,如TRi={b,a,n,a,n,a},则TRi的多种后缀模式包括:{b,a,n,a,n,a};{ a,n,a,n,a};{ n,a,n,a };{ a,n,a };{ n,a };{ a },后缀模式中第一项是频繁轨迹点,则将所述后缀模式归属到后缀模式中第一项所在的分组,后缀模式中第一项不是频繁轨迹点,则将所述后缀模式过滤掉,不进入分组。例如:(1)a为频繁轨迹点且a被分在Q1组中,n为频繁轨迹点且被分在Q2组中,则后缀模式{ a,n,a,n,a }被分在Q1组中,{ n,a,n,a }被分在Q2组中;(2)a为频繁轨迹点且a被分在Q1组中,n不是频繁轨迹点,则后缀模式{ n,a,n,a }被直接过滤掉不进入任意分组,{ a,n,a }被分在Q1组中。
步骤四,对每个分组构建一个后缀树,获得Q个后缀树,由Q个后缀树构造形成并行后缀树,对并行后缀树进行并行处理,即对Q个后缀树同时进行计算处理;其中,后缀树的创建首先需要建立树的根节点,然后扫描同一个分组内的所有轨迹片段TRi的后缀模式,并对每个后缀模式创建分枝,所述后缀模式中任意轨迹点位置pim为所述后缀模式分枝的节点,将所有的后缀模式分枝连接到根节点,获得每个分组的后缀树,并对所述后缀树进行压缩处理。所述压缩处理方法为:若后缀模式分枝内的节点只有一个子节点,且满足该节点的计数与该节点的子节点的计数相同,则将该节点与其子节点合并为一个节点。其中子节点定义为所述后缀模式分枝内某一节点后的节点均为其子节点,如后缀树模式{ n,a,n,a }中,第一个n的子节点包括三个,且依次为其后的a,n,a;第二个n的子节点仅包含一个为其后的a。
步骤五,对后缀树每个后缀树模式分枝内有序的各节点依次计数,通过计数与最小支持度的比较确定频繁轨迹片段,即若某一节点的计数小于最小支持度则停止对所述后缀树模式分枝内后续节点的计数,所述计数小于最小支持度时的节点前面所有节点组合形成一条频繁轨迹片段;或者若所述后缀模式分枝所有节点的计数均满足大于等于最小支持度则所述后缀模式分枝形成一条频繁轨迹片段,由频繁轨迹片段组成频繁轨迹。例如:(1)后缀树模式分枝{ a,n,a,n,a },其中节点a,n,a,n和a各自的计数均满足大于等于最小支持度,则后缀树模式分枝{ a,n,a,n,a }为一条频繁轨迹片段;(2)后缀树模式分枝{ a,b,c,d,e },其中节点a,b,c各自的计数均满足大于等于最小支持度而节点d的计数小于最小支持度,则不再对节点e进行计数,且由{a,b,c}形成一条频繁轨迹片段。
优选地,在本实施例中,在所述分析用户WiFi活动轨迹规律的分布式实现方法中,根据频繁轨迹产生时间的星期(week)和小时(hour)建立语义化模型,其中将星期分为工作日和休息日,当星期为工作日时,小时分为n个时间段,对n个时间段分别语义化定义n个事件;当星期为休息日时,小时分为m个时间段,对m个时间段分别语义化定义m个事件,例如:
a)week 为工作日
n1. hour 在7-10点之间 n1 上班路线
n2. hour 在17-20点之间 n2 下班路线
n3. hour 在11-13点之间 n3 午餐时间
n4. hour 在其它时间 n4 其他
b)week 为休息日
m1. hour 在7-9点之间 m1 早餐
m2. hour 在11-13点之间 m2 午餐时间
m3. hour 在18-20点之间 m3 晚餐时间
m4. hour 在其它时间 m4 其他
分析频繁轨迹的时间规律,统计记录的week和hour的出现的次数,根据得到出现次数多的week和hour的语义化获得轨迹的语义化。例如week为工作日且hour在7~10点之间出现的次数较多,根据语义化模型就可以将week为工作日且hour在7~10点之间语义化为上班路线的轨迹,通过上班路线轨迹的起点和终点可以判断为家庭住址和工作地点附近。
综上,在本发明实施例提供的分析用户WiFi活动轨迹规律的分布式实现方法中,根据MAC的活动规律轨迹可以得到MAC的常驻区域,对活动规律轨迹的时间进行分析,可以预测目标对象在哪个时间段可能出现在哪些区域,也可以查询与该MAC具有相似活动轨迹规律的MAC集。可以对挖掘出来的轨迹进行语义化,找出用户的一些通勤模式,比如上下班路线;可以对挖掘出来的兴趣区域进行语义化,找出用户的上班区域、住宅区域。
构建在大数据平台上能处理大量的数据,通过Flume实时采集数据、HDFS、Hbase存储、Spark分析处理、ElasticSearch查询检索以及并行化的后缀树算法实现的大规模分布式处理平台,能够快速准确的找出MAC地址的活动轨迹规律。
上述仅为本发明的优选实施例而已,并不对本发明起到任何限制作用。任何所属技术领域的技术人员,在不脱离本发明的技术方案的范围内,对本发明揭露的技术方案和技术内容做任何形式的等同替换或修改等变动,均属未脱离本发明的技术方案的内容,仍属于本发明的保护范围之内。
Claims (6)
1.一种分析用户WiFi活动轨迹规律的分布式实现方法,其特征在于,包括以下步骤:
(a)轨迹提取:后台服务器查询模块查询后台服务器数据库中的用户移动端MAC地址所对应的WiFi扫描记录,所述WiFi扫描记录为由多台WiFi采集设备采集记录并由所述WiFi采集设备上传至所述后台服务器数据库;
将所述WiFi扫描记录按采集时间进行排序获得WiFi扫描轨迹E={ e1,e2,…,en },其中ei=<pi, ti>,i为自然数,ei表示轨迹点,pi表示地理位置,ti表示扫描时间;
(b)轨迹点预处理:后台服务器的数据处理模块依次遍历WiFi扫描轨迹E,对任意连续的两个轨迹点记录ei和ei+1,如果pi = pi+1且ti+1- ti < Δt,则将所述ei和ei+1两条记录合并为一个复合轨迹点记录ei'= <pi,ti in,ti out>,其中, ti in=ti, ti out= ti+1;由合并后的复合轨迹点记录ei'组成WiFi扫描轨迹E'={ e1', e2',…,en'},其中ei'=<pi,ti in,ti out>,n为自然数,pi表示地理位置,ti in表示ei'采集开始时间,ti out表示ei'采集结束时间;
(c)轨迹片段划分:根据预定规则对步骤(b)中获得的WiFi扫描轨迹E'进行分割,获得只包含有序位置轨迹点位置的多条轨迹片段,并由所述多条轨迹片段得到轨迹集合TR;
(d)频繁轨迹提取:采用并行算法计算步骤(b)中获取的轨迹集合TR中的轨迹点pi出现频率次数,得到频繁轨迹点,进而使用并行后缀树算法实现频繁轨迹提取;
(e)建立语义化模型:对频繁轨迹产生时间的星期和小时进行语义化定义;
(f)建立轨迹语义化:获取频繁轨迹的时间尺度频率次数中次数最多的星期和小时,根据语义化模型将轨迹路径进行分类,获取频繁轨迹的语义化模型。
2.根据权利要求1所述的分析用户WiFi活动轨迹规律的分布式实现方法,其特征在于,所述预定规则包括规则一和规则二:
规则一:如果一个轨迹点<pi,ti in,ti out>的停留时间τi= ti out - ti in >Δt,则将轨迹在pi处进行分割,且将地理位置点pi作为上一段轨迹片段的终点和下一段轨迹片段的起点;
规则二:如果两个轨迹点<pi,ti in,ti out>和<pi+1,ti+1 in,ti+1 out>的间隔时间τi'= ti+1 in -ti out> Δt,则将轨迹在pi处进行分割,其中pi作为上一段轨迹片段的终点,pi+1作为下一段轨迹片段的起点;
根据规则一或规则二对WiFi扫描轨迹E'进行分割后获得轨迹集合TR={TR1, TR2, …,TRn},其中第i条轨迹片段TRi= {pi1, pi2, … , pim},pim表示第i条轨迹片段中的用户移动端经过的第m项轨迹点位置,pim对应WiFi采集设备地理位置。
3.根据权利要求2所述的分析用户WiFi活动轨迹规律的分布式实现方法,其特征在于,所述频繁轨迹提取包括以下步骤:
步骤一,对步骤(b)中的每个项pim对应的WiFi采集设备地理位置PI在TR中出现的频率次数进行计数,然后将WiFi采集设备PI出现频率次数进行降序排序,并从TR中过滤出WiFi采集设备PI出现频率次数大于最小支持度的项作为频繁轨迹点;
步骤二:采用均衡分组算法将步骤1中获得的对应频繁轨迹点均匀地划分到Q个分组中,平衡所有组内的计算负载,其中Q为大于1的自然数;
步骤三:获得每条轨迹片段TRi的后缀模式,所述轨迹片段TRi的后缀{pi1, pi2, … ,pim}包括多种组成模式,所述组成模式为将轨迹片段TRi中所有的有序轨迹点位置任意分成两部分然后由后一部分有序轨迹点位置组成,一种所述组成模式为所述轨迹片段TRi的一种后缀模式;根据后缀模式中第一项是否为频繁轨迹点来判断所述后缀模式的分组,其中,若后缀模式中第一项为频繁轨迹点,则将所述后缀模式归属到其第一项对应的频繁轨迹点所在的分组;若后缀模式中第一项不是频繁轨迹点,则该后缀模式被自动过滤不进入任意分组中;
步骤四:对每个分组构建一个后缀树,获得Q个后缀树,由Q个后缀树构造并行后缀树,对并行后缀树进行并行处理;后缀树的创建为首先建立树的根节点,然后扫描同一个分组内的所有TRi的后缀模式,并对每个后缀模式创建分枝,所述后缀模式中任意轨迹点位置pim为所述后缀模式分枝的节点,将所有的后缀模式分枝连接到根节点,获得每个分组的后缀树,并对所述后缀树进行压缩处理;
步骤五:对后缀树每个后缀树模式分枝内有序的各节点依次计数,通过节点的计数与最小支持度的比较确定频繁轨迹片段,即若某一节点的计数小于最小支持度则停止对所述后缀树模式分枝内后续节点的计数且所述计数小于最小支持度时的节点前面所有节点组合形成一条频繁轨迹片段;或者若所述后缀模式分枝所有节点的计数均满足大于等于最小支持度则所述后缀模式分枝为频繁轨迹片段,由频繁轨迹片段组成频繁轨迹。
4.根据权利要求3所述的分析用户WiFi活动轨迹规律的分布式实现方法,其特征在于,所述最小支持度为频率次数阈值,所述频率次数阈值根据环境进行设置。
5.根据权利要求3所述的分析用户WiFi活动轨迹规律的分布式实现方法,其特征在于,对所述TRi的后缀模式形成的后缀树进行压缩处理方法为:所述后缀模式分枝内某一节点后的节点均为其子节点,若后缀模式分枝内的节点只有一个子节点,且满足该节点的计数与该节点的子节点的计数相同,则将该节点与其子节点合并为一个节点。
6.根据权利要求1所述的分析用户WiFi活动轨迹规律的分布式实现方法,其特征在于,根据频繁轨迹产生时间的星期和小时建立语义化模型,其中将星期分为工作日和休息日,当星期为工作日时,小时分为n个时间段,对n个时间段分别语义化定义n个事件;当星期为休息日时,小时分为m个时间段,对m个时间段分别语义化定义m个事件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611134514.1A CN106790468B (zh) | 2016-12-10 | 2016-12-10 | 一种分析用户WiFi活动轨迹规律的分布式实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611134514.1A CN106790468B (zh) | 2016-12-10 | 2016-12-10 | 一种分析用户WiFi活动轨迹规律的分布式实现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106790468A true CN106790468A (zh) | 2017-05-31 |
CN106790468B CN106790468B (zh) | 2020-06-02 |
Family
ID=58879841
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611134514.1A Active CN106790468B (zh) | 2016-12-10 | 2016-12-10 | 一种分析用户WiFi活动轨迹规律的分布式实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106790468B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108600962A (zh) * | 2018-03-30 | 2018-09-28 | 广州杰赛科技股份有限公司 | 移动路径信息获取方法、系统和装置 |
CN108924238A (zh) * | 2018-07-18 | 2018-11-30 | 成都西加云杉科技有限公司 | 轨迹碰撞分析方法及装置 |
CN109413587A (zh) * | 2018-09-20 | 2019-03-01 | 广州纳斯威尔信息技术有限公司 | 基于WiFi日志的用户轨迹预测方法 |
CN109697221A (zh) * | 2018-11-22 | 2019-04-30 | 东软集团股份有限公司 | 轨迹规律的挖掘方法、装置、存储介质及电子设备 |
CN110475206A (zh) * | 2019-06-28 | 2019-11-19 | 安徽四创电子股份有限公司 | 一种基于wifi日志的监控预警方法 |
CN110907963A (zh) * | 2019-12-06 | 2020-03-24 | Oppo广东移动通信有限公司 | 卫星定位引擎控制方法、装置及电子设备 |
CN110910054A (zh) * | 2018-09-17 | 2020-03-24 | 北京京东尚科信息技术有限公司 | 轨迹的确定方法和装置、时间的推荐方法和装置 |
CN111046128A (zh) * | 2019-12-20 | 2020-04-21 | 北京明略软件系统有限公司 | 轨迹相似度确定方法、装置、电子设备及存储介质 |
CN111078754A (zh) * | 2019-12-19 | 2020-04-28 | 南京柏跃软件有限公司 | 基于海量时空数据的频繁轨迹提取方法及其挖掘系统 |
CN111126653A (zh) * | 2018-11-01 | 2020-05-08 | 百度在线网络技术(北京)有限公司 | 用户职住地预测方法、装置及存储介质 |
CN111405486A (zh) * | 2020-03-19 | 2020-07-10 | 杭州海康威视系统技术有限公司 | 一种轨迹分析方法、装置、电子设备及存储介质 |
CN111797301A (zh) * | 2019-04-09 | 2020-10-20 | Oppo广东移动通信有限公司 | 活动预测方法、装置、存储介质及电子设备 |
CN112104979A (zh) * | 2020-08-24 | 2020-12-18 | 浙江云合数据科技有限责任公司 | 一种基于WiFi扫描记录的用户轨迹提取方法 |
CN113449217A (zh) * | 2020-03-27 | 2021-09-28 | 斑马智行网络(香港)有限公司 | 迁移轨迹、热力图生成及网点确定的方法、设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2570772A1 (en) * | 2011-09-16 | 2013-03-20 | Deutsches Zentrum für Luft- und Raumfahrt e.V. | Method for localisation and mapping of pedestrians or robots using wireless access points |
CN103258049A (zh) * | 2013-05-27 | 2013-08-21 | 重庆邮电大学 | 一种基于海量数据的关联规则挖掘方法 |
CN103476044A (zh) * | 2012-06-08 | 2013-12-25 | 中国电信股份有限公司 | 位置信息校准的方法和装置 |
CN104066134A (zh) * | 2014-05-26 | 2014-09-24 | 河南省尖端智能控制技术有限公司 | 一种WiFi网络多接入点无缝切换方法 |
CN104850604A (zh) * | 2015-05-04 | 2015-08-19 | 华中科技大学 | 一种基于张量的用户轨迹挖掘方法 |
CN105915224A (zh) * | 2016-04-07 | 2016-08-31 | 南京邮电大学 | 一种基于MapReduce的并行化轨迹压缩方法 |
-
2016
- 2016-12-10 CN CN201611134514.1A patent/CN106790468B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2570772A1 (en) * | 2011-09-16 | 2013-03-20 | Deutsches Zentrum für Luft- und Raumfahrt e.V. | Method for localisation and mapping of pedestrians or robots using wireless access points |
CN103476044A (zh) * | 2012-06-08 | 2013-12-25 | 中国电信股份有限公司 | 位置信息校准的方法和装置 |
CN103258049A (zh) * | 2013-05-27 | 2013-08-21 | 重庆邮电大学 | 一种基于海量数据的关联规则挖掘方法 |
CN104066134A (zh) * | 2014-05-26 | 2014-09-24 | 河南省尖端智能控制技术有限公司 | 一种WiFi网络多接入点无缝切换方法 |
CN104850604A (zh) * | 2015-05-04 | 2015-08-19 | 华中科技大学 | 一种基于张量的用户轨迹挖掘方法 |
CN105915224A (zh) * | 2016-04-07 | 2016-08-31 | 南京邮电大学 | 一种基于MapReduce的并行化轨迹压缩方法 |
Non-Patent Citations (2)
Title |
---|
赵哲: "基于WiFi扫描列表的用户生活模式挖掘", 《中国优秀硕士学位论文全文数据库(电子期刊)》 * |
陈传运: "云计算环境下时空轨迹频繁模式挖掘研究", 《中国优秀硕士学位论文全文数据库(电子期刊)》 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108600962A (zh) * | 2018-03-30 | 2018-09-28 | 广州杰赛科技股份有限公司 | 移动路径信息获取方法、系统和装置 |
CN108600962B (zh) * | 2018-03-30 | 2020-06-19 | 广州杰赛科技股份有限公司 | 移动路径信息获取方法、系统和装置 |
CN108924238A (zh) * | 2018-07-18 | 2018-11-30 | 成都西加云杉科技有限公司 | 轨迹碰撞分析方法及装置 |
CN110910054B (zh) * | 2018-09-17 | 2024-04-05 | 北京京东尚科信息技术有限公司 | 轨迹的确定方法和装置、时间的推荐方法和装置 |
CN110910054A (zh) * | 2018-09-17 | 2020-03-24 | 北京京东尚科信息技术有限公司 | 轨迹的确定方法和装置、时间的推荐方法和装置 |
CN109413587A (zh) * | 2018-09-20 | 2019-03-01 | 广州纳斯威尔信息技术有限公司 | 基于WiFi日志的用户轨迹预测方法 |
CN111126653A (zh) * | 2018-11-01 | 2020-05-08 | 百度在线网络技术(北京)有限公司 | 用户职住地预测方法、装置及存储介质 |
CN111126653B (zh) * | 2018-11-01 | 2022-06-17 | 百度在线网络技术(北京)有限公司 | 用户职住地预测方法、装置及存储介质 |
CN109697221B (zh) * | 2018-11-22 | 2021-07-09 | 东软集团股份有限公司 | 轨迹规律的挖掘方法、装置、存储介质及电子设备 |
CN109697221A (zh) * | 2018-11-22 | 2019-04-30 | 东软集团股份有限公司 | 轨迹规律的挖掘方法、装置、存储介质及电子设备 |
CN111797301A (zh) * | 2019-04-09 | 2020-10-20 | Oppo广东移动通信有限公司 | 活动预测方法、装置、存储介质及电子设备 |
CN110475206A (zh) * | 2019-06-28 | 2019-11-19 | 安徽四创电子股份有限公司 | 一种基于wifi日志的监控预警方法 |
CN110907963A (zh) * | 2019-12-06 | 2020-03-24 | Oppo广东移动通信有限公司 | 卫星定位引擎控制方法、装置及电子设备 |
CN111078754A (zh) * | 2019-12-19 | 2020-04-28 | 南京柏跃软件有限公司 | 基于海量时空数据的频繁轨迹提取方法及其挖掘系统 |
CN111078754B (zh) * | 2019-12-19 | 2020-08-25 | 南京柏跃软件有限公司 | 基于海量时空数据的频繁轨迹提取方法及其挖掘系统 |
CN111046128A (zh) * | 2019-12-20 | 2020-04-21 | 北京明略软件系统有限公司 | 轨迹相似度确定方法、装置、电子设备及存储介质 |
CN111046128B (zh) * | 2019-12-20 | 2024-01-19 | 北京明略软件系统有限公司 | 轨迹相似度确定方法、装置、电子设备及存储介质 |
CN111405486A (zh) * | 2020-03-19 | 2020-07-10 | 杭州海康威视系统技术有限公司 | 一种轨迹分析方法、装置、电子设备及存储介质 |
CN111405486B (zh) * | 2020-03-19 | 2021-11-26 | 杭州海康威视系统技术有限公司 | 一种轨迹分析方法、装置、电子设备及存储介质 |
CN113449217A (zh) * | 2020-03-27 | 2021-09-28 | 斑马智行网络(香港)有限公司 | 迁移轨迹、热力图生成及网点确定的方法、设备 |
CN112104979A (zh) * | 2020-08-24 | 2020-12-18 | 浙江云合数据科技有限责任公司 | 一种基于WiFi扫描记录的用户轨迹提取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106790468B (zh) | 2020-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106790468A (zh) | 一种分析用户WiFi活动轨迹规律的分布式实现方法 | |
CN104239556B (zh) | 基于密度聚类的自适应轨迹预测方法 | |
Pappalardo et al. | Human mobility modelling: exploration and preferential return meet the gravity model | |
CN103150156B (zh) | 基于地理模型和移动轨迹实时获取特征人群的方法及系统 | |
CN107016126A (zh) | 一种基于序列模式挖掘的多用户模型移动轨迹预测方法 | |
CN108320501A (zh) | 基于用户手机信令的公交线路识别方法 | |
KR100923723B1 (ko) | 도로 네트워크 공간에서 이동객체의 유사 궤적 클러스터링방법 | |
CN105206048A (zh) | 一种基于交通od数据的城市居民群体换乘模式发现系统及方法 | |
CN106778876A (zh) | 基于移动用户轨迹相似性的用户分类方法和系统 | |
CN107194434B (zh) | 一种基于时空数据的移动对象相似度计算方法及系统 | |
CN106339716A (zh) | 一种基于加权欧氏距离的移动轨迹相似度匹配方法 | |
CN106920387A (zh) | 获取交通道路中路线热度的方法及装置 | |
CN109684373A (zh) | 基于出行和话单数据分析的重点关系人发现方法 | |
CN109688532A (zh) | 一种划分城市功能区域的方法及装置 | |
Shang et al. | Modeling of traffic-aware travel time in spatial networks | |
EP2875623A1 (en) | Method and system for traffic estimation | |
CN105808754A (zh) | 一种从移动轨迹数据中快速发现聚集模式的方法 | |
CN107820214A (zh) | 一种基于时间地理学的用户轨迹分析系统 | |
CN104636457B (zh) | 一种位置搜索认知的方法及装置 | |
CN110326323B (zh) | 一种获取发射概率、转移概率以及序列定位的方法和装置 | |
KR101304567B1 (ko) | 도로망 기반의 빈번 차량 궤적 클러스터링 시스템 및 방법 | |
CN107276854B (zh) | 一种大数据下molap统计分析的方法 | |
CN106060865A (zh) | 一种基于wifi信息建立用户画像的方法 | |
CN110059795A (zh) | 一种融合地理位置与时间特征的移动用户节点组网方法 | |
CN102004771A (zh) | 基于动态裁剪的移动对象反向近邻查询方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |