CN115495678B - 一种基于稀疏蜂窝信令数据的共乘匹配方法、系统及设备 - Google Patents
一种基于稀疏蜂窝信令数据的共乘匹配方法、系统及设备 Download PDFInfo
- Publication number
- CN115495678B CN115495678B CN202211453077.5A CN202211453077A CN115495678B CN 115495678 B CN115495678 B CN 115495678B CN 202211453077 A CN202211453077 A CN 202211453077A CN 115495678 B CN115495678 B CN 115495678B
- Authority
- CN
- China
- Prior art keywords
- time
- multiplication
- sequence
- base station
- signaling data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16Y—INFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
- G16Y10/00—Economic sectors
- G16Y10/40—Transportation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16Y—INFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
- G16Y20/00—Information sensed or collected by the things
- G16Y20/10—Information sensed or collected by the things relating to the environment, e.g. temperature; relating to location
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16Y—INFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
- G16Y20/00—Information sensed or collected by the things
- G16Y20/40—Information sensed or collected by the things relating to personal data, e.g. biometric data, records or preferences
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16Y—INFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
- G16Y40/00—IoT characterised by the purpose of the information processing
- G16Y40/10—Detection; Monitoring
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16Y—INFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
- G16Y40/00—IoT characterised by the purpose of the information processing
- G16Y40/20—Analytics; Diagnosis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16Y—INFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
- G16Y40/00—IoT characterised by the purpose of the information processing
- G16Y40/60—Positioning; Navigation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/029—Location-based management or tracking services
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W64/00—Locating users or terminals or network equipment for network management purposes, e.g. mobility management
- H04W64/006—Locating users or terminals or network equipment for network management purposes, e.g. mobility management with additional information processing, e.g. for direction or speed determination
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Remote Sensing (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Development Economics (AREA)
- Environmental & Geological Engineering (AREA)
- Accounting & Taxation (AREA)
- Toxicology (AREA)
- Business, Economics & Management (AREA)
- Operations Research (AREA)
- Radar, Positioning & Navigation (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种基于稀疏蜂窝信令数据的共乘匹配方法、系统及设备,本方法通过获取蜂窝信令数据中的多个基站轨迹序列,基站轨迹序列为乘车时关联基站的时间和位置的轨迹序列;将任意两个基站轨迹序列进行时间对齐,并按预设时间分割时间对齐后的任意两个基站轨迹序列,获得分割轨迹序列;对分割轨迹序列中的位置进行空间编码,获得空间编码特征序列;对分割轨迹序列中的时间进行时间编码,获得时间编码特征序列;对空间编码特征序列和时间编码特征序列进行表征学习,获取时空联合表征;根据时空联合表征,计算共乘匹配的结果。本发明能够降低共乘匹配难度,提高共乘匹配准确度。
Description
技术领域
本发明涉及共乘服务技术领域,尤其是涉及一种基于稀疏蜂窝信令数据的共乘匹配方法、系统及设备。
背景技术
在移动蜂窝系统中,把信号覆盖区域划分为若干个小区,每一个小区被分配了相应的基站为用户提供通信服务。随着蜂窝基站的增多和移动设备的普及,移动蜂窝网络的使用已经渗透到智能手机和平板电脑用户的日常生活中,使用户能够随时访问和分享信息。多名用户在某时间段内乘坐同一辆车出行的事件称为共乘,了解用户的共乘行为对于各种商业和社会应用至关重要,包括居民资料建档、基于位置的服务、精准广告、城市治理等。
在基于蜂窝信令数据的移动传感方面,国内外也有很多相关研究。然而,大部分研究集中在用户个体或群体的状态感知上,很少考虑用户之间的相关性。例如利用蜂窝信令数据推断城市尺度下用户出行的方式、实时城市人口建模、用户轨迹跟踪等。另一方面,虽然已有一些运动轨迹挖掘和匹配方法,但它们通常基于细粒度的GPS (GlobalPositioning System)数据。但GPS数据存在一些问题,不足以支撑大规模用户共乘匹配的研究。首先,与GPS数据相比,蜂窝信令数据是被动收集的,没有用户隐私问题;其次,蜂窝网络实现了所在区域的全覆盖,而GPS信号在有建筑物遮挡的地方会减弱甚至消失;最后,GPS的能耗高,部分用户不一定全时间段开启。
然而,利用蜂窝信令数据进行大规模共乘匹配是非常具有挑战性的,需要克服以下三个硬性障碍。首先,为了使匹配方法通用化到所有蜂窝网络,只能使用蜂窝信令数据(数据中仅使用用户关联的时间和基站),由于蜂窝信号的无线覆盖范围大,用户的记录在时间和空间上都是稀疏的,因此很难对用户的乘车路线进行表征。其次,根据网络管理和调度规则,即使共乘的用户以相同的路线移动,用户之间关联的基站以及基站发生切换的时间点也可能不同,而如何匹配频率不同的共乘轨迹是一个棘手的问题。最后,当不同车辆的用户在近距离行驶时,由于使用的是粗粒度的蜂窝信令数据,用户之间的基站轨迹很可能有相似的时空趋势表征,进一步混淆了共乘,增加了匹配的难度。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种基于稀疏蜂窝信令数据的共乘匹配方法、系统及设备,能够降低共乘匹配难度,提高共乘匹配准确度。
第一方面,本发明实施例提供了一种基于稀疏蜂窝信令数据的共乘匹配方法,所述基于稀疏蜂窝信令数据的共乘匹配方法包括:
获取蜂窝信令数据中的多个基站轨迹序列,所述基站轨迹序列为乘车时关联基站的时间和位置的轨迹序列;
将任意两个所述基站轨迹序列进行时间对齐,并按预设时间分割所述时间对齐后的任意两个所述基站轨迹序列,获得分割轨迹序列;
对所述分割轨迹序列中的位置进行空间编码,获得空间编码特征序列;
对所述分割轨迹序列中的时间进行时间编码,获得时间编码特征序列;
对所述空间编码特征序列和所述时间编码特征序列进行表征学习,获取时空联合表征;
根据所述时空联合表征,计算任意两个所述基站轨迹序列的共乘相似度分数和非共乘相似度分数,并根据所述共乘相似度分数和所述非共乘相似度分数,获得共乘匹配的结果。
与现有技术相比,本发明第一方面具有以下有益效果:
本方法通过获取蜂窝信令数据中的多个基站轨迹序列,基站轨迹序列为乘车时关联基站的时间和位置的轨迹序列;将任意两个基站轨迹序列进行时间对齐,并按预设时间分割时间对齐后的任意两个基站轨迹序列,获得分割轨迹序列;对分割轨迹序列中的位置进行空间编码,获得空间编码特征序列;对分割轨迹序列中的时间进行时间编码,获得时间编码特征序列;对空间编码特征序列和时间编码特征序列进行表征学习,获取时空联合表征;根据时空联合表征,计算共乘匹配的结果。本方法采用蜂窝信令数据获取多个基站轨迹序列,蜂窝信令数据相比GPS数据更易大范围获得,并且蜂窝信令数据是用户在使用手机的过程中被动获取的,不涉及用户的隐私问题,能够保证用户隐私。本方法通过对空间编码特征序列和时间编码特征序列进行表征学习,使用了深度学习方法,能够降低共乘匹配难度,提高匹配效率,并且综合考虑了时间编码特征和时间编码特征,最大程度的表征了用户之间的共乘行为和非共乘行为,能够提高共乘匹配的准确度。
根据本发明的一些实施例,在所述获取蜂窝信令数据中的多个基站轨迹序列之前,所述基于稀疏蜂窝信令数据的共乘匹配方法还包括:
采用DBSCAN聚类算法过滤预设的远程基站的噪声。
根据本发明的一些实施例,在所述对所述分割轨迹序列中的位置进行空间编码之前,所述基于稀疏蜂窝信令数据的共乘匹配方法还包括:
将基站的位置映射至预设放大尺寸的网格中,计算所述网格的坐标:
其中,表示所述基站的经度,表示所述基站的纬度,表示地图的放大尺寸,表示所述网格的坐标;
将所述坐标中的x和y分别除以像素值256,获得所述网格的ID。
根据本发明的一些实施例,所述对所述分割轨迹序列中的位置进行空间编码,获得空间编码特征序列,包括:
获取所述分割轨迹序列中的位置对应的所述网格的ID;
采用四叉树键的编码原则对所述分割轨迹序列中的位置对应的所述网格的ID进行编码,获得空间编码特征序列。
根据本发明的一些实施例,所述对所述分割轨迹序列中的时间进行时间编码,获得时间编码特征,包括:
采用独热向量编码方法对所述分割轨迹序列中的时间进行时间编码,获得时间编码特征。
根据本发明的一些实施例,所述对所述空间编码特征序列和所述时间编码特征序列进行表征学习,获取时空联合表征,包括:
采用双层LSTM网络对所述空间编码特征序列进行表征学习,获得空间表征;
采用MLP网络对所述时间编码特征序列进行表征学习,获得时间表征;
将所述空间表征和所述时间表征进行拼接,获得时空联合表征。
根据本发明的一些实施例,所述根据所述时空联合表征,计算共乘匹配的结果,包括:
根据全连接网络和softmax层,构建匹配模型;
根据所述时空联合表征,采用所述匹配模型中的所述全连接网络计算任意两个所述基站轨迹序列的共乘相似度分数和非共乘相似度分数;
采用所述匹配模型中的所述softmax层对所述共乘相似度分数和所述非共乘相似度分数进行平滑,取所述共乘相似度分数和所述非共乘相似度分数中最大值作为所述共乘匹配的结果。
第二方面,本发明实施例还提供了一种基于稀疏蜂窝信令数据的共乘匹配系统,所述基于稀疏蜂窝信令数据的共乘匹配系统包括:
基站轨迹序列获取单元,用于获取蜂窝信令数据中的多个基站轨迹序列,所述基站轨迹序列为乘车时关联基站的时间和位置的轨迹序列;
分割轨迹序列获取单元,用于将任意两个所述基站轨迹序列进行时间对齐,并按预设时间分割所述时间对齐后的任意两个所述基站轨迹序列,获得分割轨迹序列;
空间编码特征获取单元,用于对所述分割轨迹序列中的位置进行空间编码,获得空间编码特征序列;
时间编码特征获取单元,用于对所述分割轨迹序列中的时间进行时间编码,获得时间编码特征序列;
时空联合表征获取单元,用于对所述空间编码特征序列和所述时间编码特征序列进行表征学习,获取时空联合表征;
共乘匹配结果计算单元,用于根据所述时空联合表征,计算任意两个所述基站轨迹序列的共乘相似度分数和非共乘相似度分数,并根据所述共乘相似度分数和所述非共乘相似度分数,获得共乘匹配的结果。
第三方面,本发明实施例还提供了一种基于稀疏蜂窝信令数据的共乘匹配设备,包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如上所述的一种基于稀疏蜂窝信令数据的共乘匹配方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如上所述的一种基于稀疏蜂窝信令数据的共乘匹配方法。
可以理解的是,上述第二方面至第四方面与相关技术相比存在的有益效果与上述第一方面与相关技术相比存在的有益效果相同,可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一实施例的一种基于稀疏蜂窝信令数据的共乘匹配方法的流程图;
图2是本发明一实施例的对比试验结果的示意图;
图3是本发明一实施例的PR曲线对比结果的示意图;
图4是本发明一实施例的一种基于稀疏蜂窝信令数据的共乘匹配系统的结构图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,如果有描述到第一、第二等只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
本发明的描述中,需要说明的是,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
首先,对相关名词进行解释:
最长公共子序列(LCSS):一个经典的轨迹相似度计算方法,这里考虑同时加入空间阈值和时间阈值进行分类。
长短期记忆网络(LSTM):一种循环神经网络(CNN)的变体,适合于处理和预测时间序列中间隔和延迟非常长的重要事件。
多层感知机(MLP):一种前向结构的人工神经网络,映射一组输入向量到一组输出向量。
利用蜂窝信令数据进行大规模共乘匹配是非常具有挑战性的,需要克服以下三个硬性障碍。首先,为了使匹配方法通用化到所有蜂窝网络,只能使用蜂窝信令数据(数据中仅使用用户关联的时间和基站),由于蜂窝信号的无线覆盖范围大,用户的记录在时间和空间上都是稀疏的,因此很难对用户的乘车路线进行表征。其次,根据网络管理和调度规则,即使共乘的用户以相同的路线移动,用户之间关联的基站以及基站发生切换的时间点也可能不同,而如何匹配频率不同的共乘轨迹是一个棘手的问题。最后,当不同车辆的用户在近距离行驶时,由于使用的是粗粒度的蜂窝信令数据,用户之间的基站轨迹很可能有相似的时空趋势表征,进一步混淆了共乘,增加了匹配的难度。
为解决上述问题,本发明通过获取蜂窝信令数据中的多个基站轨迹序列,基站轨迹序列为乘车时关联基站的时间和位置的轨迹序列;将任意两个基站轨迹序列进行时间对齐,并按预设时间分割时间对齐后的任意两个基站轨迹序列,获得分割轨迹序列;对分割轨迹序列中的位置进行空间编码,获得空间编码特征序列;对分割轨迹序列中的时间进行时间编码,获得时间编码特征序列;对空间编码特征和时间编码特征进行表征学习,获取时空联合表征;根据时空联合表征,计算共乘匹配的结果。本发明采用蜂窝信令数据获取多个基站轨迹序列,蜂窝信令数据相比GPS数据更易大范围获得,并且蜂窝信令数据是用户在使用手机的过程中被动获取的,不涉及用户的隐私问题,能够保证用户隐私。本发明通过对空间编码特征和时间编码特征进行表征学习,使用了深度学习方法,能够降低共乘匹配难度,提高匹配效率,并且综合考虑了时间编码特征和时间编码特征,最大程度的表征了用户之间的共乘行为和非共乘行为,能够提高共乘匹配的准确度。
参照图1,本发明实施例提供了一种基于稀疏蜂窝信令数据的共乘匹配方法,本基于稀疏蜂窝信令数据的共乘匹配方法包括:
步骤S100、获取蜂窝信令数据中的多个基站轨迹序列,基站轨迹序列为乘车时关联基站的时间和位置的轨迹序列。
具体的,本实例数据集包含某省千余名用户乘车时的蜂窝信令数据,用户在乘车时关联基站的时间和位置序列,称为基站轨迹序列,可表示为,其中表示时间,表示基站的坐标,
L表示用户的基站轨迹序列的长度。在由蜂窝信令数据组成的用户轨迹中,远程基站的噪声普遍存在,这会影响用户实际的移动轨迹。为克服这一问题,本实施例使用了一个基于密度的空间聚类的离群点匹配算法(DBSCAN)对远程基站的数据进行去噪。DBSCAN将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。本实施例采用DBSCAN聚类算法过滤预设的远程基站的噪声。具体为:
首先设置DBSCAN的参数中扫描距离的半径为1.5km,距离计算函数设置为球面距离函数,核心对象的最小基站个数默认为5。然后分别对用户连接的基站进行空间聚类,得到用户的一个整体近似于真实轨迹的基站序列。由于用户与远程基站的连接持续时间较短,且仅占整体基站轨迹的一小部分,因此,可以在不影响用户整体移动轨迹的情况下直接过滤掉远程基站。
需要说明的是,本实施例对DBSCAN的设置可以根据实际情况进行更改,本实施例不做具体限定。
步骤S200、将任意两个基站轨迹序列进行时间对齐,并按预设时间分割时间对齐后的任意两个基站轨迹序列,获得分割轨迹序列。
具体的,将任意两个基站轨迹序列进行时间对齐,并按预设时间分割时间对齐后的任意两个基站轨迹序列,获得分割轨迹序列。具体为:
在得到每个用户整体有序的基站轨迹序列之后,需要对用户的共乘行为进行匹配。在真实的道路环境中,车辆之间的行驶情况可以分成以下三种:①不同路线行驶;②相同路线远距离行驶;③相同路线近距离(交叉)行驶。对于不同路线行驶的情况,可以通过传统的轨迹相似度计算的方法进行区分,如LCSS,DTW等。但这些基于轨迹相似度计算的方法只利用了空间的特征,忽略了车辆在行驶过程中时间上的差异性,因此,不能有效的区分相同路线的用户共乘情况。基于此,根据车辆在真实道路中的行驶情况,本实施例研究行驶时间不小于5分钟的用户共乘行为。在将基站轨迹序列输入模型之前,还需要对基站轨迹序列进行对齐和分割处理。首先,将任意两名用户的基站轨迹序列根据时间进行对齐。其次,对于数据中没有基站位置信息的时间戳,按照继承上一时间戳基站信息的原则,将用户的数据填充到每一秒,使得每一个时间戳都有基站的位置信息。最后,对于超过10分钟的基站轨迹数据,将其以10分钟一段进行分割,保留最后不小于5分钟的数据,从而得到两位用户的不小于5分钟且不大于10分钟的基站轨迹序列对。本实施例中的样本集共包含约15000个用户对数据,按照8:2划分为模型的训练集和测试集。
需要说明的是,本实施例对基站轨迹序列的分割时间段可以根据实际情况进行更改,本实施例不做具体限定。
步骤S300、对分割轨迹序列中的位置进行空间编码,获得空间编码特征序列。
具体的,对分割轨迹序列中的位置进行空间编码,获得空间编码特征序列。具体为:
对每个用户的基站轨迹序列,空间上使用必应地图瓦片系统来对基站位置进行编码,将基站的位置映射至预设放大尺寸的网格中,计算网格的坐标:
其中,表示基站的经度,表示基站的纬度,表示地图的放大尺寸,表示网格的坐标;
将坐标中的x和y分别除以像素值256,获得网格的ID。
获取分割轨迹序列中的位置对应的网格的ID;
采用四叉树键的编码原则对分割轨迹序列中的位置对应的网格的ID进行编码,获得空间编码特征序列K。其中,将二维切片XY坐标组合成一维字符串,称为四叉树键,或简称为“quadkeys"。每个quadkey唯一标识特定详细级别的单个图块,它可以用作常见数据库B-tree索引中的键。将平铺坐标转换四键,Y和X坐标的位是交错的,结果被解释为以4为底的数字(保持前导零)并转换为字符串。
需要说明的是,本实施例中的预设放大尺寸可以根据实际情况进行更改,本实施例不做具体限定。本实施例的四键的编码原则为现有技术,例如,“https://learn.microsoft.com/en-us/bingmaps/articles/bing-maps-tile-system”中描述的四键的编码原则,本实施例不做具体描述。
步骤S400、对分割轨迹序列中的时间进行时间编码,获得时间编码特征序列。
具体的,采用独热向量编码方法对分割轨迹序列中的时间进行时间编码,获得时间编码特征序列。具体为:
基站发生切换的时间点设定为“1”,不发生切换的时间点设定为“0”。
本实施例还对空间编码特征序列进行了归一化,将空间编码特征序列和时间编码特征序列中长度不足600(即,10分钟)的部分以“0”作为填充。
步骤S500、对空间编码特征序列和时间编码特征序列进行表征学习,获取时空联合表征。
具体的,对空间编码特征序列和时间编码特征序列进行表征学习,获取时空联合表征。具体为:
采用双层LSTM网络对空间编码特征序列进行表征学习,获得空间表征;采用MLP网络对时间编码特征序列进行表征学习,获得时间表征;将空间表征和时间表征进行拼接,获得时空联合表征。其中:
空间上使用双层LSTM网络对空间编码特征序列进行表征学习,区别于单层LSTM的地方在于,双层LSTM网络将第一层中每个时间步的输出作为第二层的输入。因此,对于用户i的空间编码特征序列,双层LSTM网络将第步输出的每一层的记忆状态和隐藏状态作为输入,当前i步的每一层的记忆状态和隐藏状态计算公式如下:
其中,上标1表示第一层,上标2表示第二层。
时间上使用MLP网络对时间编码特征序列进行表征学习,输入一对用户轨迹的时间编码特征序列,基于MLP网络进行表征学习的输出可以采用如下公式进行计算:
其中,表示MLP网络中的隐藏层,表示用户i的输出,表示激活函数,、和表示权重,和表示偏差。
最后,将用户的空间和时间表征进行拼接,得到用户时空特征上的时空联合表征。
步骤S600、根据时空联合表征,计算任意两个基站轨迹序列的共乘相似度分数和非共乘相似度分数,并根据共乘相似度分数和非共乘相似度分数,获得共乘匹配的结果。
具体的,根据全连接网络和softmax层,构建匹配模型;
根据时空联合表征,采用匹配模型中的全连接网络计算任意两个基站轨迹序列的共乘相似度分数和非共乘相似度分数;
采用匹配模型中的softmax层对共乘相似度分数和非共乘相似度分数进行平滑,取共乘相似度分数和非共乘相似度分数中最大值作为共乘匹配的结果。具体为:
将用户对的时空联合表征通过匹配模型计算出共乘和非共乘的相似度分数,取两者中的较大值作为匹配结果。匹配模型由一个全连接网络(FCN)和一个softmax层组成。训练中使用交叉熵损失函数,计算方式为:
其中,表示用户对共乘的概率,表示用户对的共乘和非共乘的标签,即,用户对共乘,则,用户对不共乘,则,N表示训练用户对样本的总数。
为了更好的说明本发明实施例,本实施例进行了如下实验:
本实施例采用样本集共包含约15000个用户对数据,按照8:2划分为模型的训练集和测试集,训练参数为:批大小batchsize=64,训练轮次epoch=160,学习率=0.0001。具体实验过程为:
一、性能指标。
本发明实施例使用精确度(Precision)、召回率(Recall)、F1分数(F1-Score)和PR曲线下方的面积(PR-AUC)作为预测模型性能的评价指标,这四种指标被广泛应用于分类模型的评价。首先计算四种基本条件,即真正(TP)、假正(FP)、真负(TN)和假负(FN)。在此基础上,四个指标的计算方式如下所示:
二、对比试验。
本发明使用最长公共子序列(LCSS)、长短期记忆网络(LSTM)、多层感知机(MLP)等基线分类方法与本实施例的技术方案进行整体性能的比较评估,其中测试样本被平均分成10组,参照图2和图3,可以得到4个结论:
1)本实施例的技术方案(即,图中的CUTE代表本实施例的技术方案)在所有指标上都显著优于其他方法。特别地,在F1-Score评价方面,LCSS、LSTM、MLP的平均F1-Score值分别为53.61%、53.28%、69.65%,而本实施例的技术方案可达到87.13%,与其他模型相比,提高了33.52%、33.85%、17.48%;
2)由于深度学习方法在建模非线性关系上的优势,这类模型比传统的轨迹相似度计算方法和机器学习模型表现更好;
3)本实施例的技术方案与其他基准方法相比,本实施例的技术方案偏差最低,证明了本实施例的技术方案性能的稳健性;
4)图3中PR曲线的对比发现本实施例的技术方案呈现的效果最好,这是由于LSTM、MLP的预测方法只考虑了空间特征,因此这两种方法无法有效学习用户之间的时间相关性,而本实施例的技术方案同时考虑了时间和空间关系,因此可以获得更好的性能。
三、消融实验。
为了评估CUTE模型中不同组件的有效性,本发明通过消融实验进行验证,表1展示了四个指标,即Precision、Recall、F1-Score、PR-AUC的分析结果。
表1
结果表明,删除每个组件都会显著影响方法的整体性能,特别地,当分别去除LSTM和MLP时,F1-Score从87.13%减少到79.27%和82.12%。结果显示,当本实施例的技术方案缺少空间特征时,分类性能会发生显著下降,表明空间特征对用户共乘匹配存在显著的影响。
参照图4,本发明实施例还提供了一种基于稀疏蜂窝信令数据的共乘匹配系统,本基于稀疏蜂窝信令数据的共乘匹配系统包括基站轨迹序列获取单元100、分割轨迹序列获取单元200、空间编码特征获取单元300、时间编码特征获取单元400、时空联合表征获取单元500以及共乘匹配结果计算单元600,其中:
基站轨迹序列获取单元100,用于获取蜂窝信令数据中的多个基站轨迹序列,基站轨迹序列为乘车时关联基站的时间和位置的轨迹序列;
分割轨迹序列获取单元200,用于将任意两个基站轨迹序列进行时间对齐,并按预设时间分割时间对齐后的任意两个基站轨迹序列,获得分割轨迹序列;
空间编码特征获取单元300,用于对分割轨迹序列中的位置进行空间编码,获得空间编码特征序列;
时间编码特征获取单元400,用于对分割轨迹序列中的时间进行时间编码,获得时间编码特征序列;
时空联合表征获取单元500,用于对空间编码特征序列和时间编码特征序列进行表征学习,获取时空联合表征;
共乘匹配结果计算单元600,用于根据时空联合表征,计算任意两个基站轨迹序列的共乘相似度分数和非共乘相似度分数,并根据共乘相似度分数和非共乘相似度分数,获得共乘匹配的结果。
需要说明的是,由于本实施例中的一种基于稀疏蜂窝信令数据的共乘匹配系统与上述的一种基于稀疏蜂窝信令数据的共乘匹配方法基于相同的发明构思,因此,方法实施例中的相应内容同样适用于本系统实施例,此处不再详述。
本发明实施例还提供了一种基于稀疏蜂窝信令数据的共乘匹配设备,包括:至少一个控制处理器和用于与至少一个控制处理器通信连接的存储器。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实现上述实施例的一种基于稀疏蜂窝信令数据的共乘匹配方法所需的非暂态软件程序以及指令存储在存储器中,当被处理器执行时,执行上述实施例中的一种基于稀疏蜂窝信令数据的共乘匹配方法,例如,执行以上描述的图1中的方法步骤S100至步骤S600。
以上所描述的系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个控制处理器执行,可使得上述一个或多个控制处理器执行上述方法实施例中的一种基于稀疏蜂窝信令数据的共乘匹配方法,例如,执行以上描述的图1中的方法步骤S100至步骤S600的功能。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
上面结合附图对本发明实施例作了详细说明,但本发明不限于上述实施例,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (9)
1.一种基于稀疏蜂窝信令数据的共乘匹配方法,其特征在于,所述基于稀疏蜂窝信令数据的共乘匹配方法包括:
获取蜂窝信令数据中的多个基站轨迹序列,所述基站轨迹序列为乘车时关联基站的时间和位置的轨迹序列;
将任意两个所述基站轨迹序列进行时间对齐,并按预设时间分割所述时间对齐后的任意两个所述基站轨迹序列,获得分割轨迹序列;
对所述分割轨迹序列中的位置进行空间编码,获得空间编码特征序列;
对所述分割轨迹序列中的时间进行时间编码,获得时间编码特征序列;
对所述空间编码特征序列和所述时间编码特征序列进行表征学习,获取时空联合表征,具体为:
采用双层LSTM网络对所述空间编码特征序列进行表征学习,获得空间表征;
采用MLP网络对所述时间编码特征序列进行表征学习,获得时间表征;
将所述空间表征和所述时间表征进行拼接,获得时空联合表征;
根据所述时空联合表征,计算任意两个所述基站轨迹序列的共乘相似度分数和非共乘相似度分数,并根据所述共乘相似度分数和所述非共乘相似度分数,获得共乘匹配的结果。
2.根据权利要求1所述的基于稀疏蜂窝信令数据的共乘匹配方法,其特征在于,在所述获取蜂窝信令数据中的多个基站轨迹序列之前,所述基于稀疏蜂窝信令数据的共乘匹配方法还包括:
采用DBSCAN聚类算法过滤预设的远程基站的噪声。
3.根据权利要求1所述的基于稀疏蜂窝信令数据的共乘匹配方法,其特征在于,在所述对所述分割轨迹序列中的位置进行空间编码之前,所述基于稀疏蜂窝信令数据的共乘匹配方法还包括:
将基站的位置映射至预设放大尺寸的网格中,计算所述网格的坐标:
其中,表示所述基站的经度,表示所述基站的纬度,表示地图的放大尺寸,表示所述网格的坐标;
将所述坐标中的x和y分别除以像素值256,获得所述网格的ID。
4.根据权利要求3所述的基于稀疏蜂窝信令数据的共乘匹配方法,其特征在于,所述对所述分割轨迹序列中的位置进行空间编码,获得空间编码特征序列,包括:
获取所述分割轨迹序列中的位置对应的所述网格的ID;
采用四叉树键的编码原则对所述分割轨迹序列中的位置对应的所述网格的ID进行编码,获得空间编码特征序列。
5.根据权利要求1所述的基于稀疏蜂窝信令数据的共乘匹配方法,其特征在于,所述对所述分割轨迹序列中的时间进行时间编码,获得时间编码特征,包括:
采用独热向量编码方法对所述分割轨迹序列中的时间进行时间编码,获得时间编码特征。
6.根据权利要求1所述的基于稀疏蜂窝信令数据的共乘匹配方法,其特征在于,所述根据所述时空联合表征,计算共乘匹配的结果,包括:
根据全连接网络和softmax层,构建匹配模型;
根据所述时空联合表征,采用所述匹配模型中的所述全连接网络计算任意两个所述基站轨迹序列的共乘相似度分数和非共乘相似度分数;
采用所述匹配模型中的所述softmax层对所述共乘相似度分数和所述非共乘相似度分数进行平滑,取所述共乘相似度分数和所述非共乘相似度分数中最大值作为所述共乘匹配的结果。
7.一种基于稀疏蜂窝信令数据的共乘匹配系统,其特征在于,所述基于稀疏蜂窝信令数据的共乘匹配系统包括:
基站轨迹序列获取单元,用于获取蜂窝信令数据中的多个基站轨迹序列,所述基站轨迹序列为乘车时关联基站的时间和位置的轨迹序列;
分割轨迹序列获取单元,用于将任意两个所述基站轨迹序列进行时间对齐,并按预设时间分割所述时间对齐后的任意两个所述基站轨迹序列,获得分割轨迹序列;
空间编码特征获取单元,用于对所述分割轨迹序列中的位置进行空间编码,获得空间编码特征序列;
时间编码特征获取单元,用于对所述分割轨迹序列中的时间进行时间编码,获得时间编码特征序列;
时空联合表征获取单元,用于对所述空间编码特征序列和所述时间编码特征序列进行表征学习,获取时空联合表征,具体为:
采用双层LSTM网络对所述空间编码特征序列进行表征学习,获得空间表征;
采用MLP网络对所述时间编码特征序列进行表征学习,获得时间表征;
将所述空间表征和所述时间表征进行拼接,获得时空联合表征;
共乘匹配结果计算单元,用于根据所述时空联合表征,计算任意两个所述基站轨迹序列的共乘相似度分数和非共乘相似度分数,并根据所述共乘相似度分数和所述非共乘相似度分数,获得共乘匹配的结果。
8.一种基于稀疏蜂窝信令数据的共乘匹配设备,其特征在于,包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如权利要求1至6任一项所述的基于稀疏蜂窝信令数据的共乘匹配方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至6任一项所述的基于稀疏蜂窝信令数据的共乘匹配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211453077.5A CN115495678B (zh) | 2022-11-21 | 2022-11-21 | 一种基于稀疏蜂窝信令数据的共乘匹配方法、系统及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211453077.5A CN115495678B (zh) | 2022-11-21 | 2022-11-21 | 一种基于稀疏蜂窝信令数据的共乘匹配方法、系统及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115495678A CN115495678A (zh) | 2022-12-20 |
CN115495678B true CN115495678B (zh) | 2023-04-07 |
Family
ID=85116319
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211453077.5A Active CN115495678B (zh) | 2022-11-21 | 2022-11-21 | 一种基于稀疏蜂窝信令数据的共乘匹配方法、系统及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115495678B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020199524A1 (zh) * | 2019-04-02 | 2020-10-08 | 长安大学 | 一种基于网络表示学习的网约共享出行人员匹配方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI581207B (zh) * | 2016-04-28 | 2017-05-01 | 國立清華大學 | 共乘路徑的計算方法及使用此方法的計算裝置與記錄媒體 |
US11914747B2 (en) * | 2021-03-16 | 2024-02-27 | Here Global B.V. | Method, apparatus, and computer program product for quantifying the linkability of trajectory data |
CN113806463B (zh) * | 2021-09-06 | 2023-04-28 | 北京信息科技大学 | 一种基于时空金字塔匹配的轨迹相似度计算方法 |
CN114885293B (zh) * | 2022-04-26 | 2022-12-20 | 和智信(山东)大数据科技有限公司 | 一种基于深度学习的信令轨迹恢复方法、系统及存储介质 |
CN115190431A (zh) * | 2022-07-11 | 2022-10-14 | 王树鹏 | 时空数据分析方法、装置、可读存储介质和设备 |
-
2022
- 2022-11-21 CN CN202211453077.5A patent/CN115495678B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020199524A1 (zh) * | 2019-04-02 | 2020-10-08 | 长安大学 | 一种基于网络表示学习的网约共享出行人员匹配方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115495678A (zh) | 2022-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zheng et al. | Diagnosing New York city's noises with ubiquitous data | |
CN109005515B (zh) | 一种基于移动轨迹信息的用户行为模式画像的方法 | |
Sun et al. | Joint prediction of next location and travel time from urban vehicle trajectories using long short-term memory neural networks | |
CN110414732B (zh) | 一种出行未来轨迹预测方法、装置、储存介质及电子设备 | |
Pecher et al. | Data-driven vehicle trajectory prediction | |
Habtie et al. | Artificial neural network based real-time urban road traffic state estimation framework | |
CN116778292B (zh) | 多模态车辆时空轨迹的融合方法、装置、设备及存储介质 | |
CN113159403A (zh) | 路口行人轨迹预测的方法及装置 | |
CN114444794B (zh) | 基于双注意力图嵌入网络的出行意图预测方法 | |
CN111950798A (zh) | 一种基于小波神经网络的区域短期人流量趋势预测方法及其系统 | |
Qian et al. | Detecting taxi trajectory anomaly based on spatio-temporal relations | |
Fang et al. | CityTracker: Citywide individual and crowd trajectory analysis using hidden Markov model | |
Gupta et al. | Study of fuzzy logic and particle swarm methods in map matching algorithm | |
KR101313958B1 (ko) | 이동 시간을 예측하기 위한 방법 및 시스템 | |
Li et al. | Estimating crowd flow and crowd density from cellular data for mass rapid transit | |
CN110929841A (zh) | 基于增强意图的循环神经网络模型预测行人轨迹的方法 | |
Jiang et al. | A framework of travel mode identification fusing deep learning and map-matching algorithm | |
CN115495678B (zh) | 一种基于稀疏蜂窝信令数据的共乘匹配方法、系统及设备 | |
Zhou et al. | Identification of taxi pick-up and drop-off hotspots using the density-based spatial clustering method | |
CN115762147B (zh) | 一种基于自适应图注意神经网络的交通流量预测方法 | |
CN115984634A (zh) | 图像检测方法、装置、设备、存储介质和程序产品 | |
Al-Molegi et al. | Regions-of-interest discovering and predicting in smartphone environments | |
Mahajan et al. | Predictive urban traffic flow model using vehicular big data | |
CN116701551A (zh) | 异常预测方法、装置、设备及存储介质 | |
CN110942178B (zh) | 一种基于资源分配指标的链路预测方法的充电桩推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |