CN113704373A - 基于移动轨迹数据的用户识别方法、装置及存储介质 - Google Patents
基于移动轨迹数据的用户识别方法、装置及存储介质 Download PDFInfo
- Publication number
- CN113704373A CN113704373A CN202110955784.3A CN202110955784A CN113704373A CN 113704373 A CN113704373 A CN 113704373A CN 202110955784 A CN202110955784 A CN 202110955784A CN 113704373 A CN113704373 A CN 113704373A
- Authority
- CN
- China
- Prior art keywords
- information
- initial
- grid
- road section
- track data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000012549 training Methods 0.000 claims abstract description 25
- 230000000977 initiatory effect Effects 0.000 claims description 37
- 238000004891 communication Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 13
- 230000009471 action Effects 0.000 claims description 8
- 238000012512 characterization method Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 abstract description 8
- 238000012545 processing Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 15
- 238000005259 measurement Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000008719 thickening Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000000691 measurement method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000007637 random forest analysis Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- JAQUADIPBIOFCE-UHFFFAOYSA-N 1,N(2)-ethenoguanine Chemical compound N1C2=NC=CN2C(=O)C2=C1N=CN2 JAQUADIPBIOFCE-UHFFFAOYSA-N 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012850 discrimination method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/029—Location-based management or tracking services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Remote Sensing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Traffic Control Systems (AREA)
- Navigation (AREA)
Abstract
本申请提供了一种基于移动轨迹数据的用户识别方法、装置及存储介质,该方法包括:获取任意两条待判别的目标轨迹数据,其中,目标轨迹数据为从目标区域中提取出的路径信息,目标区域为用户访问过的区域;将目标轨迹数据的表征集合输入到目标模型内,判断目标轨迹数据是否来自同一用户,其中,目标模型是由初始判别模型训练得到的,输入初始判别模型的训练参数包括:任意两条初始轨迹数据之间的共现次数、任意两条初始轨迹数据之间的角度余弦值、任意两条初始轨迹数据之间的概率偏差值、任意两条初始轨迹数据之间的相似度数值以及用于指示任意两条初始轨迹数据是否来自同一用户的标注信息。通过本申请,解决了相关技术中存在的用户识别准确率较低,稳定性不高的问题。
Description
技术领域
本申请涉及计算机领域,尤其涉及一种基于移动轨迹数据的用户识别方法、装置及存储介质。
背景技术
轨迹数据是时空环境下,通过对移动对象运动过程的采样所获得的数据类型,包含经纬度、时间、海拔、速度等信息,这些采样点按照时间顺序构成了轨迹数据。随着科学与技术的发展,位置获取技术例如GPS和蜂窝通信网格定位越来越普及,更多的轨迹数据被收集并用于位置服务。基于轨迹数据的用户识别是轨迹数据挖掘中的重要研究方向之一,通过对移动轨迹间的相似性度量可以识别未知轨迹的真实用户信息,这在用户画像构建、社会安全防范等方面具有较大的应用价值。
相关技术在利用轨迹数据进行用户识别的研究中,大多基于规则的网格展开(如矩形、六边形等),然而城市路网与地形分布对人、车等运动物体的轨迹形成有着巨大的影响,规则的网格忽略了真实的地理位置信息,无法有效地反应用户真实的访问位置;同时,除频繁访问位置外,用户在地理空间上的移动路径信息也具有独特性,用户在访问位置间的移动路径可能是不同的,现有的研究方向中未曾同时利用频繁访问位置和移动路径信息构造用户轨迹特征,无法充分表示用户的移动行为。以往的用户识别任务只用单一的相似性度量方法进行实验,没有考虑多个维度的相似性度量方法对实验结果的影响,更好地提高用户识别的效率。此外,相关研究未考虑数据集采样比例、表征集合规模、轨迹时长等因素对识别结果稳定性的影响。
所以,相关技术在利用轨迹路径识别多条轨迹所对应的用户真实身份信息的过程中,存在用户识别准确率较低,稳定性不高的问题。
发明内容
本申请提供了一种基于移动轨迹数据的用户识别方法、装置及存储介质,以至少解决相关技术中存在用户识别准确率较低,稳定性不高的问题。
根据本申请实施例的一个方面,提供了一种基于移动轨迹数据的用户识别方法,该方法包括:获取任意两条待判别的目标轨迹数据,其中,所述目标轨迹数据为从目标区域中提取出的路径信息,所述目标区域为用户访问过的区域;将所述目标轨迹数据的表征集合输入到目标模型内,判断所述目标轨迹数据是否来自同一用户,其中,所述目标模型是由初始判别模型训练得到的,输入所述初始判别模型的训练参数包括:任意两条初始轨迹数据之间的共现次数、任意两条初始轨迹数据之间的角度余弦值、任意两条初始轨迹数据之间的概率偏差值、任意两条初始轨迹数据之间的相似度数值以及用于指示任意两条初始轨迹数据是否来自同一所述用户的标注信息。
根据本申请实施例的另一个方面,还提供了一种基于移动轨迹数据的用户识别装置,该装置包括:第一获取单元,用于获取任意两条待判别的目标轨迹数据,其中,所述目标轨迹数据为从目标区域中提取出的路径信息,所述目标区域为用户访问过的区域;得到单元,用于将所述目标轨迹数据的表征集合输入到目标模型内,判断所述目标轨迹数据是否来自同一用户,其中,所述目标模型是由初始判别模型训练得到的,输入所述初始判别模型的训练参数包括:任意两条初始轨迹数据之间的共现次数、任意两条初始轨迹数据之间的角度余弦值、任意两条初始轨迹数据之间的概率偏差值、任意两条初始轨迹数据之间的相似度数值以及用于指示任意两条初始轨迹数据是否来自同一所述用户的标注信息。
可选地,该装置还包括:第二获取单元,用于在所述将所述目标轨迹数据的表征集合输入到目标模型内之前,获取所述目标区域内的所有地图信息;第一生成单元,用于根据所述所有地图信息,生成所述所有地图信息所对应的所有的网格信息和所有的路段信息;第三获取单元,用于获取任意两条所述初始轨迹数据,其中,所述初始轨迹数据为用户访问所述目标区域时所产生的数据;第二生成单元,用于根据所述初始轨迹数据、所述网格信息和所述路段信息,生成所述用户访问的网格信息集合和所述用户途经的路段信息集合,其中,所述网格信息集合内包含各个子网格信息,所述子网格信息为用户在预设周期内访问次数大于第一预设阈值的网格信息,所述路段信息集合内包含各个子路段,所述子路段为用户在所述预设周期内途经次数大于第二预设阈值的路段信息;第三生成单元,用于根据所述网格信息集合和所述路段信息集合,生成所述初始轨迹数据之间的所述共现次数、所述角度余弦值、所述概率偏差值以及所述相似度数值。
可选地,第一生成单元包括:第一生成模块,用于根据所述所有地图信息,生成路网文件,其中,所述路网文件中包含所有道路信息中的道路边和道路交点;转换模块,用于将所述路网文件转换为栅格图片;操作模块,用于对所述栅格图片中的原始路网进行加工操作;提取模块,用于提取所述栅格图片中所有的所述网格信息和所有的所述路段信息。
可选地,第二生成单元包括:第一确定模块,用于根据所述初始轨迹数据,确定所述用户的行动轨迹点;第二确定模块,用于根据所述行动轨迹点、所述网格信息和所述路段信息,确定所述用户当前所处在的第一子网格信息和第一子路段信息;第二生成模块,用于在所述用户在所述预设周期内访问所述第一子网格信息的次数大于所述第一预设阈值的情况下,将所述第一子网格信息加入所述网格信息集合内,生成所述网格信息集合;在所述用户在所述预设周期内途经所述第一子路段信息的次数大于所述第二预设阈值的情况下,将所述第一子路段信息加入所述路段信息集合内,生成所述路段信息集合。
可选地,第二生成单元包括:获取模块,用于获取所述网格信息集合内各个所述第一子网格信息的第一分布频率和所述路段信息集合内各个所述第一子路段信息的第二分布频率;第一得到模块,用于按照从大到小的顺序依次对所述第一分布频率和所述第二分布频率进行排列,得到第一排列序列和第二排列序列;选取模块,用于选取所述第一排列序列中位于前预设个数的子网格编号和所述第二排列序列中位于前所述预设个数的子路段编号;第二得到模块,用于将所述子网格编号对应的子网格信息进行集合,得到所述网格信息集合,将所述子路段编号对应的子路段信息进行集合,得到所述路段信息集合。
可选地,第三生成单元包括:第三得到模块,用于根据所述网格信息集合和所述路段信息集合,得到所述初始行动轨迹之间的出现的所述共现次数,其中,所述共现次数为所述初始行动轨迹之间共同出现网格信息和路段信息的次数;第四得到模块,用于根据所述网格信息集合、所述路段信息集合、所述共现次数,得到所述初始行动轨迹之间的所述角度余弦值,其中,所述角度余弦值依据所述初始行动轨迹之间出现共现区间的个数;第五得到模块,用于根据所述网格信息集合、所述路段信息集合、所述初始行动轨迹访问所述子网格信息的数量和途经所述子路段信息的数量,得到所述初始行动轨迹之间的所述概率偏差值,其中,所述概率偏差值同时依据所述初始行动轨迹之间出现共现区间和非共现区间的个数;第六得到模块,用于根据所述网格信息集合、所述路段信息集合、所述共现次数,得到所述相似度数值,其中,所述相似度数值用于表征所述初始行动轨迹之间的相似度。
可选地,第三得到模块包括:得到子单元,用于将所述网格信息集合和所述路段信息集合相合并,得到合并集合;设置子单元,用于从所述合并集合中确定出所述初始行动轨迹在同一网格信息和同一路段信息中出现的分布频率组;确定子单元,用于根据所述分布频率组的个数,确定所述共现次数。
根据本申请实施例的又一个方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;其中,存储器,用于存储计算机程序;处理器,用于通过运行所述存储器上所存储的所述计算机程序来执行上述任一实施例中的方法步骤。
根据本申请实施例的又一个方面,还提供了一种计算机可读的存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一实施例中的方法步骤。
在本申请实施例中,采用轨迹数据处理的方式,通过获取任意两条待判别的目标轨迹数据,其中,目标轨迹数据为从目标区域中提取出的路径信息,目标区域为用户访问过的区域;将目标轨迹数据的表征集合输入到目标模型内,判断目标轨迹数据是否来自同一用户,其中,目标模型是由初始判别模型训练得到的,输入初始判别模型的训练参数包括:任意两条初始轨迹数据之间的共现次数、任意两条初始轨迹数据之间的角度余弦值、任意两条初始轨迹数据之间的概率偏差值、任意两条初始轨迹数据之间的相似度数值以及用于指示任意两条初始轨迹数据是否来自同一用户的标注信息。由于本申请基于训练好的目标模型来完成对任意两条待判别的目标轨迹数据的用户身份的识别,其目标模型是基于多维度参数进行的相似性度量,其中多维度参数是基于频繁访问位置和频繁途经路段的轨迹特征来确定的,从而可以有效地识别用户真实身份信息,判断多条目标轨迹数据是否来自同一用户,对用户身份的识别效果上更具备准确性和稳定性,进而解决了相关技术中存在的用户识别准确率较低,稳定性不高的问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种可选的基于移动轨迹数据的用户识别方法的硬件环境的示意图;
图2是本申请实施例提供的一种可选的基于移动轨迹数据的用户识别方法的流程示意图;
图3a是现有技术提供的基于规则矩形的网格划分示意图;
图3b是本申请实施例提供的基于真实路网进行网格划分示意图;
图4a是本申请实施例对原始路网进行道路加粗示意图;
图4b是本申请实施例对原始路网加粗后得到的主干道路示意图;
图4c是本申请实施例对主干道路进行细化后得到道路中心线的示意图;
图4d是本申请实施例基于道路中心线形成的网格编号和路段编号示意图;
图5是本申请实施例提供的轨迹点的网格和路段匹配示意图;
图6是本申请实施例提供的轨迹相似度融合框架图;
图7是本申请实施例提供的一种可选的基于移动轨迹数据的用户识别装置的结构框图;
图8是本申请实施例提供的一种可选的电子设备的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例的一个方面,提供了一种基于移动轨迹数据的用户识别方法。可选地,在本实施例中,上述基于移动轨迹数据的用户识别方法可以应用于如图1所示的硬件环境中。如图1所示,终端102中可以包含有存储器104、处理器106和显示器108(可选部件)。终端102可以通过网格110与服务器112进行通信连接,该服务器112可用于为终端或终端上安装的客户端提供服务(如应用服务等),可在服务器112上或独立于服务器112设置数据库114,用于为服务器112提供数据存储服务。此外,服务器112中可以运行有处理引擎116,该处理引擎116可以用于执行由服务器112所执行的步骤。
可选地,终端102可以但不限于为可以计算数据的终端,如移动终端(例如手机、平板电脑)、笔记本电脑、PC(Personal Computer,个人计算机)机等终端上,上述网格可以包括但不限于无线网格或有线网格。其中,该无线网格包括:蓝牙、WIFI(Wireless Fidelity,无线保真)及其他实现无线通信的网格。上述有线网格可以包括但不限于:广域网、城域网、局域网。上述服务器112可以包括但不限于任何可以进行计算的硬件设备。
此外,在本实施例中,上述基于移动轨迹数据的用户识别方法还可以但不限于应用于处理能力较强大的独立的处理设备中,而无需进行数据交互。例如,该处理设备可以但不限于为处理能力较强大的终端设备,即,上述基于移动轨迹数据的用户识别方法中的各个操作可以集成在一个独立的处理设备中。上述仅是一种示例,本实施例中对此不作任何限定。
可选地,在本实施例中,上述基于移动轨迹数据的用户识别方法可以由服务器112来执行,也可以由终端102来执行,还可以是由服务器112和终端102共同执行。其中,终端102执行本申请实施例的基于移动轨迹数据的用户识别方法也可以是由安装在其上的客户端来执行。
以运行在服务器为例,图2是本申请实施例提供的一种可选的基于移动轨迹数据的用户识别方法的流程示意图,如图2所示,该方法的流程可以包括以下步骤:
步骤S201,获取任意两条待判别的目标轨迹数据,其中,目标轨迹数据为从目标区域中提取出的路径信息,目标区域为用户访问过的区域;
步骤S202,将目标轨迹数据的表征集合输入到目标模型内,判断目标轨迹数据是否来自同一用户,其中,目标模型是由初始判别模型训练得到的,输入初始判别模型的训练参数包括:任意两条初始轨迹数据之间的共现次数、任意两条初始轨迹数据之间的角度余弦值、任意两条初始轨迹数据之间的概率偏差值、任意两条初始轨迹数据之间的相似度数值以及用于指示任意两条初始轨迹数据是否来自同一用户的标注信息。
可选地,在本申请实施例中,服务器获取到任意两条待判别的目标轨迹数据,然后对目标轨迹数据进行用户身份的识别。其中,目标轨迹数据是从目标区域中提取出的路径信息,目标区域是用户已经访问过的区域。可以理解的是,本申请实施例在获取待判别的目标轨迹数据时,是以成对的方式获取的。
将获取的目标轨迹数据输入到进行轨迹相似度识别,判定目标轨迹数据之间是否来自同一用户的目标模型里面,其中,该目标模型可以是判别模型,且该目标模型是由初始判别模型训练得到的,输入初始判别模型的训练参数包括:任意两条初始轨迹数据之间的共现次数、任意两条初始轨迹数据之间的角度余弦值、任意两条初始轨迹数据之间的概率偏差值、任意两条初始轨迹数据之间的相似度数值以及用于指示任意两条初始轨迹数据是否来自同一用户的标注信息。其中,共现次数、角度余弦值、概率偏差值、相似度数值的计算方式在后续的实施例中会给予相应的阐述说明,此处不再赘述。
在本申请实施例中,采用轨迹数据处理的方式,通过获取任意两条待判别的目标轨迹数据,其中,目标轨迹数据为从目标区域中提取出的路径信息,目标区域为用户访问过的区域;将目标轨迹数据输入到目标模型内,判断目标轨迹数据是否来自同一用户,其中,目标模型是由初始判别模型训练得到的,输入初始判别模型的训练参数包括:任意两条初始轨迹数据之间的共现次数、任意两条初始轨迹数据之间的角度余弦值、任意两条初始轨迹数据之间的概率偏差值、任意两条初始轨迹数据之间的相似度数值以及用于指示任意两条初始轨迹数据是否来自同一用户的标注信息。由于本申请基于训练好的目标模型来完成对任意两条待判别的目标轨迹数据的用户身份的识别,其目标模型是基于多维度参数进行的相似性度量,其中多维度参数是基于频繁访问位置和频繁途经路段的轨迹特征来确定的,从而可以有效地识别用户真实身份信息,判断多条目标轨迹数据是否来自同一用户,对用户身份的识别效果上更具备准确性和稳定性,进而解决了相关技术中存在的用户识别准确率较低,稳定性不高的问题。
作为一种可选实施例,在将目标轨迹数据输入到目标模型内之前,方法还包括:
获取目标区域内的所有地图信息;
根据所有地图信息,生成所有地图信息所对应的所有的网格信息和所有的路段信息;
获取任意两条初始轨迹数据,其中,初始轨迹数据为用户访问目标区域时所产生的数据;
根据初始轨迹数据、网格信息和路段信息,生成用户访问的网格信息集合和用户途经的路段信息集合,其中,网格信息集合内包含各个子网格信息,子网格信息为用户在预设周期内访问次数大于第一预设阈值的网格信息,路段信息集合内包含各个子路段,子路段为用户在预设周期内途经次数大于第二预设阈值的路段信息;
根据网格信息集合和路段信息集合,生成初始轨迹数据之间的共现次数、角度余弦值、概率偏差值以及相似度数值。
可选地,在相关技术的对于路径的划分大多基于规则的矩形网格划分,如图3a所示,它将一个用户的访问位置划分成多个子网格,不利于轨迹分布区域的真实表示,很难反映出真实的访问位置信息,基于此,本申请实施例获取到目标区域内所有地图信息,基于这些地图信息,生成路网文件。路网通常由一些主要的道路组成,如高速、国道、省道等,它们自然地划分了一座城市,可以用一组网格和路段的集合来表示真实地理情况。如图3b所示,图3b是基于真实的路网进行网格的划分。图3b能够有效地提取用户的频繁访问区域,同时还能得到用户在访问区域间的路段信息,更好地表示用户轨迹特征。
路网文件中包含了所有道路信息中的道路边和道路交点,将道路边和道路交点转化为栅格图片,然后对栅格图片中的原始路网进行加工操作,包括:加粗、细化、提取中心线的操作,具体为:对路网(图4a)进行加粗处理,使其加粗后重叠,从而得到路网的主干(图4b),对加粗后的路网进行细化操作,得到道路中心线(图4c),对基于道路中心线形成的网格和路段进行提取,得到形成的所有网格信息和所有的路段信息,然后对所有的网格信息和所有的路段信息进行编号,如图4d所示。
经过上述处理,城市被划分成了一系列的网格和路段,可以用如下的集合来表示所有的网格和路段:
{Rj,<lngjs,latjs>,<lngje,latje>},1≤j≤NR
其中,Gi和Rj分别表示网格和路段的编号,表示顺时针围成网格Gi的Ni个坐标点,<lngjs,latjs>,<lngje,latje>分别表示路段Rj的起点与终点坐标,NG和NR分别表示网格和路段的数量。
用户访问的位置(即网格)和途经的路段都有对应的轨迹点,对于所有的轨迹点都可以提取出它所属的网格和路段。为了找到用户频繁访问的位置和途经的路段,本申请实施例获取到任意两条初始轨迹数据,这些初始轨迹数据是用户访问目标区域是所产生的数据,这样就可以统计出用户的初始轨迹数据中包含的网格信息和路段信息。
基于上述得到的网格信息和路段信息,可以生成用户访问的网格信息集合和用户途经的路段信息集合,但是为了便于统计出用户频繁访问网格位置和频繁途经路段,在将获取的网格信息加入到网格信息集合之前,需要满足其访问次数在预设周期内大于第一预设阈值,同时,在将获取的路段信息加入到路段信息集合之前,需要满足其途经次数在预设周期内大于第二预设阈值,这样最终得到网格信息集合和路段信息集合。
然后基于网格信息集合和路段信息集合,生成初始轨迹数据之间的共现次数、角度余弦值、概率偏差值以及相似度数值。
在本申请实施例中,基于真实路网的网格和路段划分能更好地反应用户真实的访问位置和移动路径,同时利用用户频繁访问的网格位置和频繁途经路段来表征用户轨迹,能够丰富轨迹特征表示,更好地区分不同用户,这样得到的训练初始判别模型的参数更加能够准确识别用户信息。
作为一种可选实施例,根据初始轨迹数据、网格信息和路段信息,生成用户访问的网格信息集合和用户途经的路段信息集合包括:
根据初始轨迹数据,确定用户的行动轨迹点;
根据行动轨迹点、网格信息和路段信息,确定用户当前所处在的第一子网格信息和第一子路段信息;
在用户在预设周期内访问第一子网格信息的次数大于第一预设阈值的情况下,将第一子网格信息加入网格信息集合内,生成网格信息集合;在用户在预设周期内途经第一子路段信息的次数大于第二预设阈值的情况下,将第一子路段信息加入路段信息集合内,生成路段信息集合。
可选地,每个初始轨迹数据是由多个轨迹点组成的,这时,可以利用水平交叉点数判别法寻找各个轨迹点所属的网格,以轨迹点为端点水平向右引出一条射线,如果射线与网格的交点个数为奇数,那个该点在网格内部,记录其网格信息,如果为偶数(包括0),则该点在网格外部,如图5所示;计算轨迹点到路段的最短距离,设置距离阈值为εd,当最短距离小于εd时,则认为该点在实际生活中是行走在道路上的点,记录其路段信息。
设置定εG和εR分别为网格和路段的分布频率阈值,当用户初始轨迹数据(即初始轨迹)分布在某个网格或某条路段上的频率值大于εG(即第一预设阈值)或εR(即第二预设阈值)时,将该网格或路段的信息分别归入到用户频繁访问的网格信息集合和用户频繁途经的路段信息集合中。可以理解的是,网格信息集合内包含各个子网格信息,子网格信息为用户在预设周期内访问次数大于第一预设阈值的网格信息,路段信息集合内包含各个子路段,子路段为用户在预设周期内途经次数大于第二预设阈值的路段信息。
以用户当前所处的位置为第一子网格信息,途经的路段为第一子路段信息为例,用户在预设周期内访问第一子网格信息的次数大于第一预设阈值εG时,将第一子网格信息加入网格信息集合内,依次类推,生成网格信息集合;用户在预设周期内途经第一子路段信息的次数大于第二预设阈值εR时,将第一子路段信息加入路段信息集合内,依次类推,生成路段信息集合。
作为一种可选实施例,生成用户访问的网格信息集合和用户途经的路段信息集合包括:
获取网格信息集合内各个第一子网格信息的第一分布频率和路段信息集合内各个第一子路段信息的第二分布频率;
按照从大到小的顺序依次对第一分布频率和第二分布频率进行排列,得到第一排列序列和第二排列序列;
选取第一排列序列中位于前预设个数的子网格编号和第二排列序列中位于前预设个数的子路段编号;
将子网格编号对应的子网格信息进行集合,得到网格信息集合,将子路段编号对应的子路段信息进行集合,得到路段信息集合。
可选地,在本申请实施例中,获取的网格信息集合除了满足上述实施例中各个子网格信息对应的用户在预设周期内访问次数大于第一预设阈值;路段信息集合除了满足上述实施例中各个子路段对应的用户在预设周期内途经次数大于第二预设阈值以外,还需要对各个子网格信息对应的分布频率和各个子路段信息对应的分布频率进行从大到小的顺序排序。
更具体地,获取各个子网格信息的第一分布频率和各个子路段信息的第二分布频率,对第一分布频率和第二分布频率按照频率值由大到小进行排序后,得到第一排列序列和第二排列序列,由于前述实施例中,已经对各个网格和路段进行了编号,所以可以依据编号选取出第一排列序列中位于前预设个数的子网格信号和选取出第二排列序列中位于前预设个数的子路段,其中,预设个数可以是N,得到的TOP-N网格信息集合表示为:TOP-N路段信息集合表示为:其中,和分别表示用户轨迹在网格Guid,j和路段Ruid,k上的频率分布,j和k表示从大到小的排序顺序,
作为一种可选实施例,根据网格信息集合和路段信息集合,生成初始轨迹数据之间的共现次数、角度余弦值、概率偏差值以及相似度数值包括:
根据网格信息集合和路段信息集合,得到初始行动轨迹之间的出现的共现次数,其中,共现次数为初始行动轨迹之间共同出现网格信息和路段信息的次数;
根据网格信息集合、路段信息集合、共现次数,得到初始行动轨迹之间的角度余弦值,其中,角度余弦值依据初始行动轨迹之间出现共现区间的个数;
根据网格信息集合、路段信息集合、初始行动轨迹访问子网格信息的数量和途经子路段信息的数量,得到初始行动轨迹之间的概率偏差值,其中,概率偏差值同时依据初始行动轨迹之间出现共现区间和非共现区间的个数;
根据网格信息集合、路段信息集合、共现次数,得到相似度数值,其中,相似度数值用于表征初始行动轨迹之间的相似度。
可选地,(1)计算共现次数:
定义共现次数的含义:共现次数表示两条轨迹共同出现的网格和路段个数。由于在上述实施例中将待判别的任意两条目标轨迹数据输入到目标模型来判定这些目标轨迹数据是否由同一用户产生,所以在本申请实施例中,需要获取到同一用户TOP-N网格信息集合TGuid和TOP-N路段信息集合TRuid,进行集合之间的合并,得到用户网格路段集合:
对于任意两条轨迹数据T1和T2,它们的网格信息集合和路段信息集合分别是TGR1和TGR2,用如下符号来表示共现的网格和路段:
其中,表示轨迹T1和T2在同一网格或路段出现的频率,取值范围均为0~1,G1i表示轨迹T1的第i个网格编号,G2j表示轨迹T2的第j个网格编号,R1i表示路段R1的第i个路段编号,R2j表示路段R2的第j个路段编号。
在得到两条轨迹的共现网格和路段集合后,可以计算两条轨迹的共现次数,记为CO
(2)计算角度余弦值:
向量的余弦相似度通过测量两个向量夹角的余弦值来度量相似性,它的结果与向量的指向方向相关。类似地可以定义集合的余弦相似度,分别计算共现集合的点积和集合长度:
最终集合的余弦相似度为:
(3)计算概率偏差值:
概率偏差相似度基于轨迹T1和T2同时包含的所有区域,累积共同分布网格和路网的概率偏差,计算平均偏差。概率偏差越小,相似性越大,计算公式如下:
|TGR1|和|TGR2|分别表示轨迹T1和T2的频繁访问网格位置和途经路段的数量。概率偏差在依据共现区域分布概率的同时,也依据了非共现区域的影响。两条轨迹的共现区域越多且非共现区域越少时,概率偏差相似度越高。
(4)计算相似度数值:
在本申请实施例中,在计算相似度数值时,利用的是加权杰卡德相似度。
加权杰卡德相似度衡量的是两个加权集合间的相似性,轨迹T1和T2的加权杰卡德相似度定义如下:
另外,如图6所示,图6是本申请实施例提供的轨迹相似度融合框架图,图6的流程分为:得到原始轨迹序列:和其中,定义1:轨迹T={p1,p2,...,pn}表示一系列在时间上有序的时空点,每个点pi都由3个属性(lngi,lati,ti)构成,其中(lngi,lati)表示pi的经纬度,ti表示pi被记录时的时间戳。定义2(轨迹数据集):一个轨迹数据集D包含多条轨迹,D中每条轨迹Ti都有一个对应的用户标签Ti.id。
然后得到用户TOP-N的网格和路段信息集合;
获取相似度集合,分别计算CO,AC,PD,WJS的数值;
将CO,AC,PD,WJS输入判别模型随机森林模型内;
得到用户识别结果。
在本申请实施例中,融合多维度相似性度量,将多维度的相似性度量方法与判别模型相结合,充分考虑不同相似度对实验结果的影响,更好地判别轨迹的真实用户身份。
基于上述各个实施例,在基于轨迹数据的用户身份识别上,在公开数据集上有着优秀的性能表现,其实验数据为公开的用户移动轨迹数据集Geolife,判别模型为随机森林算法。以往基于规则矩形划分的用户识别方法,无法获得用户真实的访问位置,本发明基于真实的路网划分,在识别任务上的效率提高了1.67%(92.74%~94.41%)。同时,融入用户轨迹的路段信息,能够将识别准确率提高2.8%(94.41%~97.21%),说明加入用户的移动路径信息确实能够有效地表征用户轨迹特征,提高识别效率。融合多维度的相似性度量方法能够有效地提高用户识别率,融合前各相似性度量指标中最高的为94.97%,通过随机森林模型融合相似度指标后能够有效地提高2.24%的识别准确率。
此外,本申请受用户频繁访问位置和途经路段数量的影响较小,同时仅需要用户几天的轨迹数据就能有效地识别用户真实身份信息,更具稳定性和高效性。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM(Read-Only Memory,只读存储器)/RAM(Random Access Memory,随机存取存储器)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网格设备等)执行本申请各个实施例的方法。
根据本申请实施例的另一个方面,还提供了一种用于实施上述基于移动轨迹数据的用户识别方法的基于移动轨迹数据的用户识别装置。图7是本申请实施例提供的一种可选的基于移动轨迹数据的用户识别装置的结构框图,如图7所示,该装置可以包括:
第一获取单元701,用于获取任意两条待判别的目标轨迹数据,其中,目标轨迹数据为从目标区域中提取出的路径信息,目标区域为用户访问过的区域;
得到单元702,用于将目标轨迹数据的表征集合输入到目标模型内,判断目标轨迹数据是否来自同一用户,其中,目标模型是由初始判别模型训练得到的,输入初始判别模型的训练参数包括:任意两条初始轨迹数据之间的共现次数、任意两条初始轨迹数据之间的角度余弦值、任意两条初始轨迹数据之间的概率偏差值、任意两条初始轨迹数据之间的相似度数值以及用于指示任意两条初始轨迹数据是否来自同一用户的标注信息。
需要说明的是,该实施例中的第一获取单元701可以用于执行上述步骤S201,该实施例中的得到单元702可以用于执行上述步骤S202。
通过上述模块,基于训练好的目标模型来完成对任意两条待判别的目标轨迹数据的用户身份的识别,其目标模型是基于多维度参数进行的相似性度量,其中多维度参数是基于频繁访问位置和频繁途经路段的轨迹特征来确定的,从而可以有效地识别用户真实身份信息,判断多条目标轨迹数据是否来自同一用户,对用户身份的识别效果上更具备准确性和稳定性,进而解决了相关技术中存在的用户识别准确率较低,稳定性不高的问题。
作为一种可选的实施例,该装置还包括:第二获取单元,用于在将目标轨迹数据的表征集合输入到目标模型内之前,获取目标区域内的所有地图信息;第一生成单元,用于根据所有地图信息,生成所有地图信息所对应的所有的网格信息和所有的路段信息;第三获取单元,用于获取任意两条初始轨迹数据,其中,初始轨迹数据为用户访问目标区域时所产生的数据;第二生成单元,用于根据初始轨迹数据、网格信息和路段信息,生成用户访问的网格信息集合和用户途经的路段信息集合,其中,网格信息集合内包含各个子网格信息,子网格信息为用户在预设周期内访问次数大于第一预设阈值的网格信息,路段信息集合内包含各个子路段,子路段为用户在预设周期内途经次数大于第二预设阈值的路段信息;第三生成单元,用于根据网格信息集合和路段信息集合,生成初始轨迹数据之间的共现次数、角度余弦值、概率偏差值以及相似度数值。
作为一种可选的实施例,第一生成单元包括:第一生成模块,用于根据所有地图信息,生成路网文件,其中,路网文件中包含所有道路信息中的道路边和道路交点;转换模块,用于将路网文件转换为栅格图片;操作模块,用于对栅格图片中的原始路网进行加工操作;提取模块,用于提取栅格图片中所有的网格信息和所有的路段信息。
作为一种可选的实施例,第二生成单元包括:第一确定模块,用于根据初始轨迹数据,确定用户的行动轨迹点;第二确定模块,用于根据行动轨迹点、网格信息和路段信息,确定用户当前所处在的第一子网格信息和第一子路段信息;第二生成模块,用于在用户在预设周期内访问第一子网格信息的次数大于第一预设阈值的情况下,将第一子网格信息加入网格信息集合内,生成网格信息集合;在用户在预设周期内途经第一子路段信息的次数大于第二预设阈值的情况下,将第一子路段信息加入路段信息集合内,生成路段信息集合。
作为一种可选的实施例,第二生成单元包括:获取模块,用于获取网格信息集合内各个第一子网格信息的第一分布频率和路段信息集合内各个第一子路段信息的第二分布频率;第一得到模块,用于按照从大到小的顺序依次对第一分布频率和第二分布频率进行排列,得到第一排列序列和第二排列序列;选取模块,用于选取第一排列序列中位于前预设个数的子网格编号和第二排列序列中位于前预设个数的子路段编号;第二得到模块,用于将子网格编号对应的子网格信息进行集合,得到网格信息集合,将子路段编号对应的子路段信息进行集合,得到路段信息集合。
作为一种可选的实施例,第三生成单元包括:第三得到模块,用于根据网格信息集合和路段信息集合,得到初始行动轨迹之间的出现的共现次数,其中,共现次数为初始行动轨迹之间共同出现网格信息和路段信息的次数;第四得到模块,用于根据网格信息集合、路段信息集合、共现次数,得到初始行动轨迹之间的角度余弦值,其中,角度余弦值依据初始行动轨迹之间出现共现区间的个数;第五得到模块,用于根据网格信息集合、路段信息集合、初始行动轨迹访问子网格信息的数量和途经子路段信息的数量,得到初始行动轨迹之间的概率偏差值,其中,概率偏差值同时依据初始行动轨迹之间出现共现区间和非共现区间的个数;第六得到模块,用于根据网格信息集合、路段信息集合、共现次数,得到相似度数值,其中,相似度数值用于表征初始行动轨迹之间的相似度。
作为一种可选的实施例,第三得到模块包括:得到子单元,用于将网格信息集合和路段信息集合相合并,得到合并集合;设置子单元,用于从合并集合中确定出初始行动轨迹在同一网格信息和同一路段信息中出现的分布频率组;确定子单元,用于根据分布频率组的个数,确定共现次数。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现,其中,硬件环境包括网格环境。
根据本申请实施例的又一个方面,还提供了一种用于实施上述基于移动轨迹数据的用户识别方法的电子设备,该电子设备可以是服务器、终端、或者其组合。
图8是本申请实施例提供的一种可选的电子设备的结构框图,如图8所示,包括处理器801、通信接口802、存储器803和通信总线804,其中,处理器801、通信接口802和存储器803通过通信总线804完成相互间的通信,其中,
存储器803,用于存储计算机程序;
处理器801,用于执行存储器803上所存放的计算机程序时,实现如下步骤:
S1,获取任意两条待判别的目标轨迹数据,其中,目标轨迹数据为从目标区域中提取出的路径信息,目标区域为用户访问过的区域;
S2,将目标轨迹数据的表征集合输入到目标模型内,判断目标轨迹数据是否来自同一用户,其中,目标模型是由初始判别模型训练得到的,输入初始判别模型的训练参数包括:任意两条初始轨迹数据之间的共现次数、任意两条初始轨迹数据之间的角度余弦值、任意两条初始轨迹数据之间的概率偏差值、任意两条初始轨迹数据之间的相似度数值以及用于指示任意两条初始轨迹数据是否来自同一用户的标注信息。
可选地,在本实施例中,上述的通信总线可以是PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线、或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括RAM,也可以包括非易失性存储器(non-volatile memory),例如,至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
作为一种示例,如图8所示,上述存储器803中可以但不限于包括上述基于移动轨迹数据的用户识别装置中的第一获取单元701、得到单元702。此外,还可以包括但不限于上述基于移动轨迹数据的用户识别装置中的其他模块单元,本示例中不再赘述。
上述处理器可以是通用处理器,可以包含但不限于:CPU(Central ProcessingUnit,中央处理器)、NP(Network Processor,网格处理器)等;还可以是DSP(DigitalSignal Processing,数字信号处理器)、ASIC(Application Specific IntegratedCircuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
此外,上述电子设备还包括:显示器,用于显示轨迹数据的处理结果。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本领域普通技术人员可以理解,图8所示的结构仅为示意,实施上述基于移动轨迹数据的用户识别方法的设备可以是终端设备,该终端设备可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图8其并不对上述电子设备的结构造成限定。例如,终端设备还可包括比图8中所示更多或者更少的组件(如网格接口、显示装置等),或者具有与图8所示的不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、ROM、RAM、磁盘或光盘等。
根据本申请实施例的又一个方面,还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于执行基于移动轨迹数据的用户识别方法的程序代码。
可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网格中的多个网格设备中的任意一个网格设备上。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
S1,获取任意两条待判别的目标轨迹数据,其中,目标轨迹数据为从目标区域中提取出的路径信息,目标区域为用户访问过的区域;
S2,将目标轨迹数据的表征集合输入到目标模型内,判断目标轨迹数据是否来自同一用户,其中,目标模型是由初始判别模型训练得到的,输入初始判别模型的训练参数包括:任意两条初始轨迹数据之间的共现次数、任意两条初始轨迹数据之间的角度余弦值、任意两条初始轨迹数据之间的概率偏差值、任意两条初始轨迹数据之间的相似度数值以及用于指示任意两条初始轨迹数据是否来自同一用户的标注信息。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例中对此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、ROM、RAM、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
根据本申请实施例的又一个方面,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中;计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一个实施例中的基于移动轨迹数据的用户识别方法步骤。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网格设备等)执行本申请各个实施例基于移动轨迹数据的用户识别方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,也可以分布到多个网格单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例中所提供的方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种基于移动轨迹数据的用户识别方法,其特征在于,所述方法包括:
获取任意两条待判别的目标轨迹数据,其中,所述目标轨迹数据为从目标区域中提取出的路径信息,所述目标区域为用户访问过的区域;
将所述目标轨迹数据的表征集合输入到目标模型内,判断所述目标轨迹数据是否来自同一用户,其中,所述目标模型是由初始判别模型训练得到的,输入所述初始判别模型的训练参数包括:任意两条初始轨迹数据之间的共现次数、任意两条初始轨迹数据之间的角度余弦值、任意两条初始轨迹数据之间的概率偏差值、任意两条初始轨迹数据之间的相似度数值以及用于指示任意两条初始轨迹数据是否来自同一所述用户的标注信息。
2.根据权利要求1所述的方法,其特征在于,在所述将所述目标轨迹数据的表征集合输入到目标模型内之前,所述方法还包括:
获取所述目标区域内的所有地图信息;
根据所述所有地图信息,生成所述所有地图信息所对应的所有的网格信息和所有的路段信息;
获取任意两条所述初始轨迹数据,其中,所述初始轨迹数据为用户访问所述目标区域时所产生的数据;
根据所述初始轨迹数据、所述网格信息和所述路段信息,生成所述用户访问的网格信息集合和所述用户途经的路段信息集合,其中,所述网格信息集合内包含各个子网格信息,所述子网格信息为用户在预设周期内访问次数大于第一预设阈值的网格信息,所述路段信息集合内包含各个子路段,所述子路段为用户在所述预设周期内途经次数大于第二预设阈值的路段信息;
根据所述网格信息集合和所述路段信息集合,生成所述初始轨迹数据之间的所述共现次数、所述角度余弦值、所述概率偏差值以及所述相似度数值。
3.根据权利要求2所述的方法,其特征在于,所述根据所述所有地图信息,生成所述所有地图信息所对应的所有的网格信息和所有的路段信息包括:
根据所述所有地图信息,生成路网文件,其中,所述路网文件中包含所有道路信息中的道路边和道路交点;
将所述路网文件转换为栅格图片;
提取所述栅格图片中所有的所述网格信息和所有的所述路段信息。
4.根据权利要求2所述的方法,其特征在于,所述根据所述初始轨迹数据、所述网格信息和所述路段信息,生成所述用户访问的网格信息集合和所述用户途经的路段信息集合包括:
根据所述初始轨迹数据,确定所述用户的行动轨迹点;
根据所述行动轨迹点、所述网格信息和所述路段信息,确定所述用户当前所处在的第一子网格信息和第一子路段信息;
在所述用户在所述预设周期内访问所述第一子网格信息的次数大于所述第一预设阈值的情况下,将所述第一子网格信息加入所述网格信息集合内,生成所述网格信息集合;在所述用户在所述预设周期内途经所述第一子路段信息的次数大于所述第二预设阈值的情况下,将所述第一子路段信息加入所述路段信息集合内,生成所述路段信息集合。
5.根据权利要求4所述的方法,其特征在于,所述生成所述用户访问的网格信息集合和所述用户途经的路段信息集合包括:
获取所述网格信息集合内各个所述第一子网格信息的第一分布频率和所述路段信息集合内各个所述第一子路段信息的第二分布频率;
按照从大到小的顺序依次对所述第一分布频率和所述第二分布频率进行排列,得到第一排列序列和第二排列序列;
选取所述第一排列序列中位于前预设个数的子网格编号和所述第二排列序列中位于前所述预设个数的子路段编号;
将所述子网格编号对应的子网格信息进行集合,得到所述网格信息集合,将所述子路段编号对应的子路段信息进行集合,得到所述路段信息集合。
6.根据权利要求5所述的方法,其特征在于,所述根据所述网格信息集合和所述路段信息集合,生成所述初始轨迹数据之间的所述共现次数、所述角度余弦值、所述概率偏差值以及所述相似度数值包括:
根据所述网格信息集合和所述路段信息集合,得到所述初始行动轨迹之间的出现的所述共现次数,其中,所述共现次数为所述初始行动轨迹之间共同出现网格信息和路段信息的次数;
根据所述网格信息集合、所述路段信息集合、所述共现次数,得到所述初始行动轨迹之间的所述角度余弦值,其中,所述角度余弦值依据所述初始行动轨迹之间出现共现区间的个数;
根据所述网格信息集合、所述路段信息集合、所述初始行动轨迹访问所述子网格信息的数量和途经所述子路段信息的数量,得到所述初始行动轨迹之间的所述概率偏差值,其中,所述概率偏差值同时依据所述初始行动轨迹之间出现共现区间和非共现区间的个数;
根据所述网格信息集合、所述路段信息集合、所述共现次数,得到所述相似度数值,其中,所述相似度数值用于表征所述初始行动轨迹之间的相似度。
7.根据权利要求6所述的方法,其特征在于,所述根据所述网格信息集合和所述路段信息集合,得到所述初始行动轨迹之间的出现的所述共现次数包括:
将所述网格信息集合和所述路段信息集合相合并,得到合并集合;
从所述合并集合中确定出所述初始行动轨迹在同一网格信息和同一路段信息中出现的分布频率组;
根据所述分布频率组的个数,确定所述共现次数。
8.一种基于移动轨迹数据的用户识别装置,其特征在于,所述装置包括:
第一获取单元,用于获取任意两条待判别的目标轨迹数据,其中,所述目标轨迹数据为从目标区域中提取出的路径信息,所述目标区域为用户访问过的区域;
得到单元,用于将所述目标轨迹数据的表征集合输入到目标模型内,判断所述目标轨迹数据是否来自同一用户,其中,所述目标模型是由初始判别模型训练得到的,输入所述初始判别模型的训练参数包括:任意两条初始轨迹数据之间的共现次数、任意两条初始轨迹数据之间的角度余弦值、任意两条初始轨迹数据之间的概率偏差值、任意两条初始轨迹数据之间的相似度数值以及用于指示任意两条初始轨迹数据是否来自同一所述用户的标注信息。
9.一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信,其特征在于,
所述存储器,用于存储计算机程序;
所述处理器,用于通过运行所述存储器上所存储的所述计算机程序来执行权利要求1至7中任一项所述的方法步骤。
10.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1至7中任一项中所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110955784.3A CN113704373B (zh) | 2021-08-19 | 2021-08-19 | 基于移动轨迹数据的用户识别方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110955784.3A CN113704373B (zh) | 2021-08-19 | 2021-08-19 | 基于移动轨迹数据的用户识别方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113704373A true CN113704373A (zh) | 2021-11-26 |
CN113704373B CN113704373B (zh) | 2023-12-05 |
Family
ID=78653647
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110955784.3A Active CN113704373B (zh) | 2021-08-19 | 2021-08-19 | 基于移动轨迹数据的用户识别方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113704373B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115056746A (zh) * | 2022-06-10 | 2022-09-16 | 浙江吉利控股集团有限公司 | 应用于车辆的用户意图识别方法、装置、设备 |
CN115470872A (zh) * | 2022-11-14 | 2022-12-13 | 武汉大学 | 一种基于车辆轨迹数据的司机画像构建方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105674995A (zh) * | 2015-12-31 | 2016-06-15 | 百度在线网络技术(北京)有限公司 | 一种基于用户出行轨迹获取通勤路线的方法及装置 |
US20170286845A1 (en) * | 2016-04-01 | 2017-10-05 | International Business Machines Corporation | Automatic extraction of user mobility behaviors and interaction preferences using spatio-temporal data |
CN108536851A (zh) * | 2018-04-16 | 2018-09-14 | 武汉大学 | 一种基于移动轨迹相似度比较的用户身份识别方法 |
CN110958599A (zh) * | 2018-09-26 | 2020-04-03 | 北京融信数联科技有限公司 | 一种基于轨迹相似性的一机多卡用户判别方法 |
CN111144446A (zh) * | 2019-12-06 | 2020-05-12 | 北京中交兴路信息科技有限公司 | 一种基于时空网格的司机身份识别方法和系统 |
CN111814914A (zh) * | 2020-08-26 | 2020-10-23 | 珠海大横琴科技发展有限公司 | 一种目标对象识别方法及装置 |
CN111831967A (zh) * | 2020-06-19 | 2020-10-27 | 北京嘀嘀无限科技发展有限公司 | 一种到店识别方法、装置、电子设备及介质 |
CN113220876A (zh) * | 2021-04-16 | 2021-08-06 | 山东师范大学 | 一种用于英文文本的多标签分类方法及系统 |
-
2021
- 2021-08-19 CN CN202110955784.3A patent/CN113704373B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105674995A (zh) * | 2015-12-31 | 2016-06-15 | 百度在线网络技术(北京)有限公司 | 一种基于用户出行轨迹获取通勤路线的方法及装置 |
US20170286845A1 (en) * | 2016-04-01 | 2017-10-05 | International Business Machines Corporation | Automatic extraction of user mobility behaviors and interaction preferences using spatio-temporal data |
CN108536851A (zh) * | 2018-04-16 | 2018-09-14 | 武汉大学 | 一种基于移动轨迹相似度比较的用户身份识别方法 |
CN110958599A (zh) * | 2018-09-26 | 2020-04-03 | 北京融信数联科技有限公司 | 一种基于轨迹相似性的一机多卡用户判别方法 |
CN111144446A (zh) * | 2019-12-06 | 2020-05-12 | 北京中交兴路信息科技有限公司 | 一种基于时空网格的司机身份识别方法和系统 |
CN111831967A (zh) * | 2020-06-19 | 2020-10-27 | 北京嘀嘀无限科技发展有限公司 | 一种到店识别方法、装置、电子设备及介质 |
CN111814914A (zh) * | 2020-08-26 | 2020-10-23 | 珠海大横琴科技发展有限公司 | 一种目标对象识别方法及装置 |
CN113220876A (zh) * | 2021-04-16 | 2021-08-06 | 山东师范大学 | 一种用于英文文本的多标签分类方法及系统 |
Non-Patent Citations (4)
Title |
---|
MENGJUN QI 等: "Identifying Users by Asynchronous Mobility Trajectories", 《IGARSS 2019 - 2019 IEEE INTERNATIONAL GEOSCIENCE AND REMOTE SENSING SYMPOSIUM》, pages 6811 - 6814 * |
邢玲 等: "复杂网络视角下跨社交网络用户身份识别研究综述", 《电子科技大学学报》, vol. 49, no. 6, pages 905 - 917 * |
陈鸿昶 等: "一种基于用户轨迹的跨社交网络用户身份识别算法", 《电子与信息学报》, vol. 40, no. 11, pages 2758 - 2764 * |
黄超 等: "突发事件案例表示方法", 《清华大学学报(自然科学版) 》, vol. 54, no. 2, pages 149 - 152 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115056746A (zh) * | 2022-06-10 | 2022-09-16 | 浙江吉利控股集团有限公司 | 应用于车辆的用户意图识别方法、装置、设备 |
CN115470872A (zh) * | 2022-11-14 | 2022-12-13 | 武汉大学 | 一种基于车辆轨迹数据的司机画像构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113704373B (zh) | 2023-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xiao et al. | Inferring social ties between users with human location history | |
Jurgens et al. | Geolocation prediction in twitter using social networks: A critical analysis and review of current practice | |
Zheng et al. | Diagnosing New York city's noises with ubiquitous data | |
Shaw et al. | Learning to rank for spatiotemporal search | |
Yu et al. | Geo-friends recommendation in gps-based cyber-physical social network | |
CN103795613B (zh) | 一种在线社交网络中朋友关系预测的方法 | |
CN106681996B (zh) | 确定地理范围内兴趣区域、兴趣点的方法和装置 | |
CN105183870B (zh) | 一种利用微博位置信息的城市功能区探测方法及系统 | |
Zhou et al. | A data-driven method for trip ends identification using large-scale smartphone-based GPS tracking data | |
CN111914569A (zh) | 基于融合图谱的预测方法、装置、电子设备及存储介质 | |
Lin et al. | Uncertainty analysis of crowd-sourced and professionally collected field data used in species distribution models of Taiwanese moths | |
CN105532030A (zh) | 用于分析目标实体的移动的装置、系统和方法 | |
CN113704373B (zh) | 基于移动轨迹数据的用户识别方法、装置及存储介质 | |
CN110263840B (zh) | 一种线路分析方法、装置及程序产品、存储介质 | |
CN111695019B (zh) | 一种识别关联账号的方法及装置 | |
Guo et al. | Transportation mode recognition with deep forest based on GPS data | |
McKenzie et al. | Measuring urban regional similarity through mobility signatures | |
Yuan et al. | Human mobility discovering and movement intention detection with GPS trajectories | |
CN115408618B (zh) | 一种基于社交关系融合位置动态流行度和地理特征的兴趣点推荐方法 | |
EP3192061B1 (en) | Measuring and diagnosing noise in urban environment | |
Jia et al. | Measuring the vibrancy of urban neighborhoods using mobile phone data with an improved PageRank algorithm | |
Liu et al. | Modeling the interaction coupling of multi-view spatiotemporal contexts for destination prediction | |
CN112836146A (zh) | 一种基于网络消息的地理空间坐标信息获取方法及装置 | |
CN110263250A (zh) | 一种推荐模型的生成方法及装置 | |
CN110619090B (zh) | 一种区域吸引力评估方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |