CN108520028B - 基于dpi数据的用户地理位置特征提取方法及系统 - Google Patents

基于dpi数据的用户地理位置特征提取方法及系统 Download PDF

Info

Publication number
CN108520028B
CN108520028B CN201810256044.9A CN201810256044A CN108520028B CN 108520028 B CN108520028 B CN 108520028B CN 201810256044 A CN201810256044 A CN 201810256044A CN 108520028 B CN108520028 B CN 108520028B
Authority
CN
China
Prior art keywords
data
travel
information
path
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810256044.9A
Other languages
English (en)
Other versions
CN108520028A (zh
Inventor
欧中洪
谭言信
宋美娜
宋俊德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201810256044.9A priority Critical patent/CN108520028B/zh
Publication of CN108520028A publication Critical patent/CN108520028A/zh
Application granted granted Critical
Publication of CN108520028B publication Critical patent/CN108520028B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • G06Q10/047Optimisation of routes or paths, e.g. travelling salesman problem

Abstract

本发明公开了一种基于DPI数据的用户地理位置特征提取方法及系统,其中,方法包括:根据用户ID从DPI数据库中获取多条目标用户数据;获取每条目标用户数据的经纬度信息;对经纬度信息进行预处理得到预处理数据;对预处理数据进行筛选处理,以得到出行数据集;根据出行数据集提取得到出行路径特征;根据地图平台API参数和出行路径特征得到候选路径集,并根据API响应结果提取得到候选路径特征;将候选路径特征与运动路径特征进行匹配,并使用评分机制进行评分,以得到评分最高的预测路径;通过预设距离阈值对出行序列和预测路径的时间进行匹配,以更新当前地理位置信息。该方法有效提高了地理位置信息的精确性,简单易实现。

Description

基于DPI数据的用户地理位置特征提取方法及系统
技术领域
本发明涉及地理位置信息技术领域,特别涉及一种基于DPI数据的用户地理位置特征提取方法及系统。
背景技术
随着智能终端以及整个移动互联网产业的快速发展,中国移动互联网用户数量已超过7亿。在影响我们生活各方面的同时,移动互联网每时每刻都会产生海量的含有地理位置信息的数据,这些数据蕴藏着巨大的价值。移动运营商可通过DPI(Deep PacketInspection,深度报文检测)技术从移动网络中提取并分析用户的信令数据,其中分析、提取该类数据的地理位置特征是有效利用该类数据的关键。目前主要的提取方式有:
1)直接基于基站本身位置的位置特征提取。每一条用户的信令数据都会包含该用户所连接基站的ID(Identification,身份信息),该方案提取信令数据中的基站ID(Cell-ID),通过运营商基站数据库获取该基站所覆盖的区域,将该覆盖区域作为该条用户数据所对应的地理位置。
2)利用Cell-ID序列进行位置特征提取。该方案主要针对移动中的用户,用户若在使用手机的过程中跨越了基站,相应的Cell-ID会形成一个序列,即Cell-ID序列,通过该序列可以得到大致的用户移动轨迹,再根据实际地理环境如道路、桥梁等条件,可缩小用户移动轨迹所包含的范围,使用户地理位置特征更加精确。
然而,直接使用基站本身位置获取用户地理位置的方式虽然简单、无需其他辅助信息,但目前城市中一个基站的覆盖半径约为300-500米,该方式存在定位精度低的弊端,精度较低且在目前的位置服务应用中存在不足;通过利用Cell-ID序列与实际地理环境结合改善了定位精度,但需要提前建立地理环境的数据库,若要运用到一个城市的规模中,则构造该数据库的难度较大。
另外,相关技术中精度最高的方法也只分析了Cell-ID序列,该方法使得阈值范围内可选路径太多,难以保证较高的正确率,直接影响了地理位置数据的精度;且自行在地图上进行匹配时程序复杂度较高,难以达到地图平台的专业水平。且没有考虑URL中包含的经纬度信息。由于目前大量APP(Application,手机软件)会调用GPS(Global PositioningSystem,全球定位系统)进行定位,因此从URL(Uniform Resource Locator,统一资源定位符)中能得到大量精确的定位信息,提升精度。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于DPI数据的用户地理位置特征提取方法,该方法可以有效提高了地理位置信息的精确性,简单易实现。
本发明的另一个目的在于提出一种基于DPI数据的用户地理位置特征提取系统。
为达到上述目的,本发明一方面实施例提出了一种基于DPI数据的用户地理位置特征提取方法,包括以下步骤:根据用户ID从DPI数据库中获取多条目标用户数据;通过移动运营商基站信息库查询每条目标用户数据中的Cell-ID对应的基站,以获取所述每条目标用户数据的经纬度信息;对所述经纬度信息进行空值处理、异常值处理、设置地理范围阈值和提取URL定位信息,以得到预处理数据;根据预设驻留范围距离阈值、预设驻留范围最短时间阈值和比较序列对所述预处理数据进行筛选处理,以得到出行数据集;根据所述出行数据集提取得到出行路径特征,其中,所述出行路径特征包括始发地、目的地、时间、路径和出行方式中的一种或多种;根据地图平台API(Application Programming Interface,应用程序编程接口)参数和所述出行路径特征得到候选路径集,并根据API响应结果从所述候选路径集提取得到候选路径特征;将所述候选路径特征与运动路径特征进行匹配,并使用评分机制对匹配结果进行评分,以得到评分最高的预测路径;通过预设距离阈值对出行序列和所述预测路径的时间进行匹配,以更新当前地理位置信息。
本发明实施例的基于DPI数据的用户地理位置特征提取方法,基于Cell-ID直接提取和基于Cell-ID序列提取地理位置特征的基础上,利用互联网地图平台提供的接口进行用户出行路径规划,通过将规划路径集与Cell-ID序列进行对比,得到用户最有可能的出行路径,再通过DPI数据的时间戳信息,从预测路径中获得对应时间点下用户的精确地理位置信息,从而有效提高了地理位置信息的精确性,简单易实现。
另外,根据本发明上述实施例的基于DPI数据的用户地理位置特征提取方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述对所述经纬度信息进行空值处理、异常值处理、设置地理范围阈值和提取URL定位信息,以得到预处理数据,进一步包括:处理空值,在缺失经纬度、用户ID信息的一条或多条信息时,删除该条数据,并在缺失URL信息时,用NAN值填充URL信息;设立地理范围阈值,根据所述经纬度信息检测结果删除超出范围信息或异常信息;通过正则表达式从URL中提取定位信息。
进一步地,在本发明的一个实施例中,所述根据预设驻留范围距离阈值、预设驻留范围最短时间阈值和比较序列对所述预处理数据进行筛选处理,以得到出行数据集,进一步包括:设定预设驻留范围距离阈值、预设驻留范围最短时间阈值,并清空比较序列;将下一条数据放入比较序列中,并按照数据产生时间顺序将余下数据与比较序列中的每条数据依次进行比较,如果数据的位置与所述比较序列任意一条数据的位置距离未超过预设驻留范围距离阈值,则继续进行比较;如果数据的位置与所述比较序列任意一条数据的位置距离超过预设驻留范围距离阈值,则计算所述比较序列中最后一条数据与第一条数据的时间差,如果时间差值大于预设驻留范围最短时间阈值,则将所述比较序列中数据标记为驻留数据,如果时间差值小于预设驻留范围最短时间阈值,则释放所述比较序列中的数据项;如果还有未遍历的数据项,则继续进行比较,如果遍历完成,则根据结果将相邻两个驻留区域间的数据标记为出行数据,以得到所述出行数据集。
进一步地,在本发明的一个实施例中,所述候选路径特征集包括每一候选路径的出行方式、每一候选路径的总耗时、候选路径中每一段的时间集、坐标集、出行方式一种或多种。
进一步地,在本发明的一个实施例中,所述通过预设距离阈值对出行序列和所述预测路径的时间进行匹配,以更新当前地理位置信息,进一步包括:设置距离阈值,对出行序列和所述预测路径的时间进行匹配;如果出行序列的原始位置与对应时间内的预测路径的位置距离小于所述距离阈值,则更新当前地理位置信息。
为达到上述目的,本发明另一方面实施例提出了一种基于DPI数据的用户地理位置特征提取系统,包括:数据获取模块,用于根据用户ID从DPI数据库中获取多条目标用户数据;地理位置转换模块,用于通过移动运营商基站信息库查询每条目标用户数据中的Cell-ID对应的基站,以获取所述每条目标用户数据的经纬度信息;数据预处理模块,用于对所述经纬度信息进行空值处理、异常值处理、设置地理范围阈值和提取URL定位信息,以得到预处理数据;数据切分模块,用于根据预设驻留范围距离阈值、预设驻留范围最短时间阈值和比较序列对所述预处理数据进行筛选处理,以得到出行数据集;出行路径特征提取模块,用于根据所述出行数据集提取得到出行路径特征,其中,所述出行路径特征包括始发地、目的地、时间、路径和出行方式中的一种或多种;API调用模块,用于根据地图平台API参数和所述出行路径特征得到候选路径集,并根据API响应结果从所述候选路径集提取得到候选路径特征;预测模块,用于将所述候选路径特征与运动路径特征进行匹配,并使用评分机制对匹配结果进行评分,以得到评分最高的预测路径;地理位置信息更新模块,用于通过预设距离阈值对出行序列和所述预测路径的时间进行匹配,以更新当前地理位置信息。
本发明实施例的基于DPI数据的用户地理位置特征提取系统,基于Cell-ID直接提取和基于Cell-ID序列提取地理位置特征的基础上,利用互联网地图平台提供的接口进行用户出行路径规划,通过将规划路径集与Cell-ID序列进行对比,得到用户最有可能的出行路径,再通过DPI数据的时间戳信息,从预测路径中获得对应时间点下用户的精确地理位置信息,从而有效提高了地理位置信息的精确性,简单易实现。
另外,根据本发明上述实施例的基于DPI数据的用户地理位置特征提取系统还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述数据预处理模块进一步用于处理空值,在缺失经纬度、用户ID信息的一条或多条信息时,删除该条数据,并在缺失URL信息时,用NAN值填充URL信息,设立地理范围阈值,根据所述经纬度信息检测结果删除超出范围信息或异常信息,通过正则表达式从URL中提取定位信息。
进一步地,在本发明的一个实施例中,所述数据切分模块进一步用于设定预设驻留范围距离阈值、预设驻留范围最短时间阈值,并清空比较序列,将下一条数据放入比较序列中,并按照数据产生时间顺序将余下数据与比较序列中的每条数据依次进行比较,如果数据的位置与所述比较序列任意一条数据的位置距离未超过预设驻留范围距离阈值,则继续进行比较,如果数据的位置与所述比较序列任意一条数据的位置距离超过预设驻留范围距离阈值,则计算所述比较序列中最后一条数据与第一条数据的时间差,如果时间差值大于预设驻留范围最短时间阈值,则将所述比较序列中数据标记为驻留数据,如果时间差值小于预设驻留范围最短时间阈值,则释放所述比较序列中的数据项,如果还有未遍历的数据项,则继续进行比较,如果遍历完成,则根据结果将相邻两个驻留区域间的数据标记为出行数据,以得到所述出行数据集。
进一步地,在本发明的一个实施例中,所述候选路径特征集包括每一候选路径的出行方式、每一候选路径的总耗时、候选路径中每一段的时间集、坐标集、出行方式一种或多种。
进一步地,在本发明的一个实施例中,所述地理位置更新模块进一步用于设置距离阈值,对出行序列和所述预测路径的时间进行匹配,如果出行序列的原始位置与对应时间内的预测路径的位置距离小于所述距离阈值,则更新当前地理位置信息。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的基于DPI数据的用户地理位置特征提取方法的流程图;
图2为根据本发明一个实施例的基于DPI数据的用户地理位置特征提取方法的功能示意图;
图3为根据本发明一个实施例的评分机制的流程图;
图4为根据本发明一个实施例的基于DPI数据的用户地理位置特征提取系统的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于DPI数据的用户地理位置特征提取方法及系统,首先将参照附图描述根据本发明实施例提出的基于DPI数据的用户地理位置特征提取方法。
图1是本发明一个实施例的基于DPI数据的用户地理位置特征提取方法的流程图。
如图1所示,该基于DPI数据的用户地理位置特征提取方法包括以下步骤:
在步骤S101中,根据用户ID从DPI数据库中获取多条目标用户数据。
可以理解的是,如图2所示,该模块为整个系统的数据输入模块,该模块从DPI数据库中通过用户的ID获取某一个用户的全部数据,按照时间戳排序,并按照系统目标格式输入系统。
在步骤S102中,通过移动运营商基站信息库查询每条目标用户数据中的Cell-ID对应的基站,以获取每条目标用户数据的经纬度信息。
可以理解的是,如图2所示,该模块利用移动运营商基站信息库,查询每一条用户数据中的Cell-ID对应的基站,获得该条数据的经纬度信息,并将经纬度信息附加到每一条数据后。
在步骤S103中,对经纬度信息进行空值处理、异常值处理、设置地理范围阈值和提取URL定位信息,以得到预处理数据。
可以理解的是,如图2所示,本发明实施例通过增加阈值、处理空值、异常值、提取URL中的位置信息进行数据预处理。
在本发明的一个实施例中,对经纬度信息进行空值处理、异常值处理、设置地理范围阈值和提取URL定位信息,以得到预处理数据,进一步包括:处理空值,在缺失经纬度、用户ID信息的一条或多条信息时,删除该条数据,并在缺失URL信息时,用NAN值填充URL信息;设立地理范围阈值,根据经纬度信息检测结果删除超出范围信息或异常信息;通过正则表达式从URL中提取定位信息。
具体而言,(1)处理空值,若缺失经纬度、用户ID信息等关键信息,将该条数据剔除;若缺失URL信息,则将URL项以NAN值填充;(2)设立地理范围阈值,对上游模块的数据进行检查,找出并删除超出范围或其他有异常的DPI数据;(3)利用正则式从用户访问的URL中提取定位信息。目前有许多APP会调用GPS模块获取定位信息,并通过HTTP-GET以参数形式上传到服务器。针对该情况,本方法设置对应的正则表达式,从URL中将经纬度信息提取出来,作为后续规划的修正依据。正则表达式如下:
latitude='(lat|latitude)(={0,1})([0-9.]+|[%0-9A-Z]{4,16})',
longitude='(lng|lon|longtitude)({0,1})([0-9.]+|[%0-9A-Z]{4,16})'。
在步骤S104中,根据预设驻留范围距离阈值、预设驻留范围最短时间阈值和比较序列对预处理数据进行筛选处理,以得到出行数据集。
可以理解的是,如图2所示,本发明实施例进行数据切分,找出用户的每一段出行数据集。
进一步地,在本发明的一个实施例中,根据预设驻留范围距离阈值、预设驻留范围最短时间阈值和比较序列对预处理数据进行筛选处理,以得到出行数据集,进一步包括:设定预设驻留范围距离阈值、预设驻留范围最短时间阈值,并清空比较序列;将下一条数据放入比较序列中,并按照数据产生时间顺序将余下数据与比较序列中的每条数据依次进行比较,如果数据的位置与比较序列任意一条数据的位置距离未超过预设驻留范围距离阈值,则继续进行比较;如果数据的位置与比较序列任意一条数据的位置距离超过预设驻留范围距离阈值,则计算比较序列中最后一条数据与第一条数据的时间差,如果时间差值大于预设驻留范围最短时间阈值,则将比较序列中数据标记为驻留数据,如果时间差值小于预设驻留范围最短时间阈值,则释放比较序列中的数据项;如果还有未遍历的数据项,则继续进行比较,如果遍历完成,则根据结果将相邻两个驻留区域间的数据标记为出行数据,以得到出行数据集。
具体而言,由于Cell-ID序列只在用户移动过程中才有价值,因此设立该模块用于筛选出用户处于移动状态中的数据项。方法为:找出用户驻留在某地时产生的数据项,从而反向找出用户在移动过程中产生的数据项,具体步骤如下:
(1)设定驻留范围距离阈值Smax与驻留范围最短时间阈值Tmin,清空比较序列Seq,转到步骤2);
(2)将下一条数据放入比较序列Seq中,并按照数据产生时间顺序将余下数据与Seq中的每条数据依次进行比较。若某条数据的位置与Seq任意一条数据的位置距离超过Smax,则转到步骤3),否则继续执行2);
(3)计算Seq中最后一条数据与第一条数据的时间差,如果时间差值大于设定的最短时间阈值Tmin,即用户长时间驻留在Seq区域,将Seq中的数据标记为驻留数据,转到步骤4);如果时间差值小于设定的最短时间阈值Tmin,则这些数据不是驻留时产生的数据,即用户可能处于移动过程中,释放Seq中的数据项,转到步骤4);
(4)若还有未遍历的数据项,则转到步骤2);若遍历完成,则根据结果将相邻两个驻留区域间的数据标记为出行数据,计作一次出行。
在步骤S105中,根据出行数据集提取得到出行路径特征,其中,出行路径特征包括始发地、目的地、时间、路径和出行方式中的一种或多种。
可以理解的是,本发明实施例提取出行段的时间、距离、大致路线。
具体而言,如图2所示,该模块针对每一个出行数据序列,提取始发地、目的地、时间、大致路径、可能的出行方式等特征。
1)始发地、目的地采用该数据段的第一条和最后一条数据的位置;
2)出行总时间为首尾时间戳的差值,每一段为相邻时间戳的差值;
3)大致路径为Cell-ID序列所对应的基站自身的位置所构成的一条折线;
4)判断出行方式,由于城市交通复杂性,出行方式暂时分为步行、骑自行车、驾驶汽车、搭乘公交车/地铁。出行方式的判别规则表1所示,表1为出行方式的判别规则表。
表1
Figure BDA0001608988520000071
即:
1)计算平均速度,当速度>5m/s时排除步行,速度>12m/s时排除骑行,速度>18m/s时排除公交。
2)计算出行距离,当距离>2km时排除步行,距离>6km时排除骑行。
若存在多种出行皆有可能的情况时,采用队列的方式,将可能的方式全部输出。
在步骤S106中,根据地图平台API参数和出行路径特征得到候选路径集,并根据API响应结果从候选路径集提取得到候选路径特征。
可以理解的是,如图2所示,该模块利用互联网地图平台提供的API从平台上获取出行段的推荐路线。
进一步地,在本发明的一个实施例中,候选路径特征集包括每一候选路径的出行方式、每一候选路径的总耗时、候选路径中每一段的时间集、坐标集、出行方式一种或多种。
具体而言,(1)将起始点和终止点作为路程的出发地和目的地,将出行路径特征提取模块输出的出行方式序列依次加入API参数,得到候选路径集合;(2)从API响应结果中提取候选路径特征,得到每一候选路径的出行方式、每一候选路径的总耗时、候选路径中每一段的时间集、坐标集以及出行方式。
在步骤S107中,将候选路径特征与运动路径特征进行匹配,并使用评分机制对匹配结果进行评分,以得到评分最高的预测路径。
可以理解的是,该模块将候选路径特征与原始的运动路径特征做匹配,使用评分机制对其进行评分,将评分最高的路径作为实际预测路径,如图3所示,评分机制如下:
(1)从候选路径集中选择下一条候选路径;
(2)提取每一条用户数据的时间戳、计算对应时间下候选路径中的位置;
(3)判断用户数据是否包含精确位置,若是,则执行步骤4,若否,则执行步骤5;
(4)距离阈值为100米,未超过则分值+1,执行步骤6;
(5)距离阈值为300米,未超过则分值+1,执行步骤6;
(6)遍历出行段的所有数据,算出得分;
(7)判断路径遍历是否完成;若是,则执行步骤1;若否,则执行步骤8;
(8)选取得分最高的路径,设为预设路径。
在步骤S108中,通过预设距离阈值对出行序列和预测路径的时间进行匹配,以更新当前地理位置信息。
进一步地,在本发明的一个实施例中,通过预设距离阈值对出行序列和预测路径的时间进行匹配,以更新当前地理位置信息,进一步包括:设置距离阈值,对出行序列和预测路径的时间进行匹配;如果出行序列的原始位置与对应时间内的预测路径的位置距离小于距离阈值,则更新当前地理位置信息。
具体而言,如图2所示,该模块的作用为检查上游已经提取到的用户地理特征,并将合格的特征附加到每一条数据后。具体步骤为:
设置距离阈值Dmax,对出行序列和预测路径的时间进行匹配,若出行序列的原始位置与对应时间内的预测路径的位置距离小于Dmax,则更新地理位置信息;若距离大于Dmax或没有预测路径,则不更新其地理位置。
综上,当前互联网地图平台蓬勃发展,地图信息已十分准确,路径规划功能也十分强大,基于地图进行路径规划已成为大量用户出行的首选;而且地图平台们不仅支持其自身APP,还提供了API接口供开发者使用。本方案在基于Cell-ID序列的基础上利用地图API接口,通过对运动中的用户进行路线检索,得到一系列候选路径,再通过匹配策略,找到最有可能的路径---即预测路径,这样便可以预测出用户在运动过程中的精确位置,从而挖掘出每一条DPI数据中较为精确的用户的地理位置信息。
根据本发明实施例提出的基于DPI数据的用户地理位置特征提取方法,基于Cell-ID直接提取和基于Cell-ID序列提取地理位置特征的基础上,利用互联网地图平台提供的接口进行用户出行路径规划,通过将规划路径集与Cell-ID序列进行对比,得到用户最有可能的出行路径,再通过DPI数据的时间戳信息,从预测路径中获得对应时间点下用户的精确地理位置信息,从而有效提高了地理位置信息的精确性,简单易实现。
其次参照附图描述根据本发明实施例提出的基于DPI数据的用户地理位置特征提取系统。
图4是本发明一个实施例的基于DPI数据的用户地理位置特征提取系统的结构示意图。
如图4所示,该基于DPI数据的用户地理位置特征提取系统10包括:数据获取模块100、地理位置转换模块200、数据预处理模块300、数据切分模块400、出行路径特征提取模块500、API调用模块600、预测模块700和地理位置信息更新模块800。
其中,数据获取模块100用于根据用户ID从DPI数据库中获取多条目标用户数据。地理位置转换模块200用于通过移动运营商基站信息库查询每条目标用户数据中的Cell-ID对应的基站,以获取每条目标用户数据的经纬度信息。数据预处理模块300用于对经纬度信息进行空值处理、异常值处理、设置地理范围阈值和提取URL定位信息,以得到预处理数据。数据切分模块400用于根据预设驻留范围距离阈值、预设驻留范围最短时间阈值和比较序列对预处理数据进行筛选处理,以得到出行数据集。出行路径特征提取模块500用于根据出行数据集提取得到出行路径特征,其中,出行路径特征包括始发地、目的地、时间、路径和出行方式中的一种或多种。API调用模块600用于根据地图平台API参数和出行路径特征得到候选路径集,并根据API响应结果从候选路径集提取得到候选路径特征。预测模块700用于将候选路径特征与运动路径特征进行匹配,并使用评分机制对匹配结果进行评分,以得到评分最高的预测路径。地理位置信息更新模块800用于通过预设距离阈值对出行序列和预测路径的时间进行匹配,以更新当前地理位置信息。本发明实施例的系统10从URL中提取经纬度信息,作为候选路径选择时的辅助信息,利用API平台进行路径规划,再与运动路径进行匹配,从而有效提高了地理位置信息的精确性,简单易实现。
进一步地,在本发明的一个实施例中,数据预处理模块300进一步用于处理空值,在缺失经纬度、用户ID信息的一条或多条信息时,删除该条数据,并在缺失URL信息时,用NAN值填充URL信息,设立地理范围阈值,根据经纬度信息检测结果删除超出范围信息或异常信息,通过正则表达式从URL中提取定位信息。
进一步地,在本发明的一个实施例中,数据切分模块400进一步用于设定预设驻留范围距离阈值、预设驻留范围最短时间阈值,并清空比较序列,将下一条数据放入比较序列中,并按照数据产生时间顺序将余下数据与比较序列中的每条数据依次进行比较,如果数据的位置与比较序列任意一条数据的位置距离未超过预设驻留范围距离阈值,则继续进行比较,如果数据的位置与比较序列任意一条数据的位置距离超过预设驻留范围距离阈值,则计算比较序列中最后一条数据与第一条数据的时间差,如果时间差值大于预设驻留范围最短时间阈值,则将比较序列中数据标记为驻留数据,如果时间差值小于预设驻留范围最短时间阈值,则释放比较序列中的数据项,如果还有未遍历的数据项,则继续进行比较,如果遍历完成,则根据结果将相邻两个驻留区域间的数据标记为出行数据,以得到出行数据集。
进一步地,在本发明的一个实施例中,候选路径特征集包括每一候选路径的出行方式、每一候选路径的总耗时、候选路径中每一段的时间集、坐标集、出行方式一种或多种。
进一步地,在本发明的一个实施例中,地理位置更新模块800进一步用于设置距离阈值,对出行序列和预测路径的时间进行匹配,如果出行序列的原始位置与对应时间内的预测路径的位置距离小于距离阈值,则更新当前地理位置信息。
需要说明的是,前述对基于DPI数据的用户地理位置特征提取方法实施例的解释说明也适用于该实施例的基于DPI数据的用户地理位置特征提取系统,此处不再赘述。
根据本发明实施例提出的基于DPI数据的用户地理位置特征提取系统,基于Cell-ID直接提取和基于Cell-ID序列提取地理位置特征的基础上,利用互联网地图平台提供的接口进行用户出行路径规划,通过将规划路径集与Cell-ID序列进行对比,得到用户最有可能的出行路径,再通过DPI数据的时间戳信息,从预测路径中获得对应时间点下用户的精确地理位置信息,从而有效提高了地理位置信息的精确性,简单易实现。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (6)

1.一种基于DPI数据的用户地理位置特征提取方法,其特征在于,包括以下步骤:
根据用户ID从DPI数据库中获取多条目标用户数据;
通过移动运营商基站信息库查询每条目标用户数据中的Cell-ID对应的基站,以获取所述每条目标用户数据的经纬度信息;
对所述经纬度信息进行空值处理、异常值处理、设置地理范围阈值和提取URL定位信息,以得到预处理数据;具体包括:处理空值,在缺失经纬度、用户ID信息的一条或多条信息时,删除该条经纬度信息,并在缺失URL信息时,用NAN值填充URL信息;设立地理范围阈值,根据所述经纬度信息检测结果删除超出范围信息或异常信息;通过正则表达式从URL中提取定位信息;
根据预设驻留范围距离阈值、预设驻留范围最短时间阈值和比较序列对所述预处理数据进行筛选处理,以得到出行数据集;进一步包括:设定预设驻留范围距离阈值、预设驻留范围最短时间阈值,并清空比较序列;将下一条数据放入比较序列中,并按照数据产生时间顺序将余下数据与比较序列中的每条数据依次进行比较,如果数据的位置与所述比较序列任意一条数据的位置距离未超过预设驻留范围距离阈值,则继续进行比较;如果数据的位置与所述比较序列任意一条数据的位置距离超过预设驻留范围距离阈值,则计算所述比较序列中最后一条数据与第一条数据的时间差,如果时间差值大于预设驻留范围最短时间阈值,则将所述比较序列中数据标记为驻留数据,如果时间差值小于预设驻留范围最短时间阈值,则释放所述比较序列中的数据项;如果还有未遍历的数据项,则继续进行比较,如果遍历完成,则根据结果将相邻两个驻留区域间的数据标记为出行数据,以得到所述出行数据集;
根据所述出行数据集提取得到出行路径特征,其中,所述出行路径特征包括始发地、目的地、时间、路径和出行方式中的一种或多种;
根据地图平台API参数和所述出行路径特征得到候选路径集,并根据API响应结果从所述候选路径集提取得到候选路径特征;
将所述候选路径特征与运动路径特征进行匹配,并使用评分机制对匹配结果进行评分,以得到评分最高的预测路径;以及
通过预设距离阈值对出行序列和所述预测路径的时间进行匹配,以更新当前地理位置信息。
2.根据权利要求1所述的基于DPI数据的用户地理位置特征提取方法,其特征在于,所述候选路径特征集包括每一候选路径的出行方式、每一候选路径的总耗时、候选路径中每一段的时间集、坐标集、出行方式一种或多种。
3.根据权利要求1所述的基于DPI数据的用户地理位置特征提取方法,其特征在于,所述通过预设距离阈值对出行序列和所述预测路径的时间进行匹配,以更新当前地理位置信息,进一步包括:
设置距离阈值,对出行序列和所述预测路径的时间进行匹配;
如果出行序列的原始位置与对应时间内的预测路径的位置距离小于所述距离阈值,则更新当前地理位置信息。
4.基于DPI数据的用户地理位置特征提取系统,其特征在于,包括:
数据获取模块,用于根据用户ID从DPI数据库中获取多条目标用户数据;
地理位置转换模块,用于通过移动运营商基站信息库查询每条目标用户数据中的Cell-ID对应的基站,以获取所述每条目标用户数据的经纬度信息;
数据预处理模块,用于对所述经纬度信息进行空值处理、异常值处理、设置地理范围阈值和提取URL定位信息,以得到预处理数据;所述数据预处理模块进一步用于处理空值,在缺失经纬度、用户ID信息的一条或多条信息时,删除该条经纬度信息,并在缺失URL信息时,用NAN值填充URL信息,设立地理范围阈值,根据所述经纬度信息检测结果删除超出范围信息或异常信息,通过正则表达式从URL中提取定位信息;
数据切分模块,用于根据预设驻留范围距离阈值、预设驻留范围最短时间阈值和比较序列对所述预处理数据进行筛选处理,以得到出行数据集;所述数据切分模块进一步用于设定预设驻留范围距离阈值、预设驻留范围最短时间阈值,并清空比较序列,将下一条数据放入比较序列中,并按照数据产生时间顺序将余下数据与比较序列中的每条数据依次进行比较,如果数据的位置与所述比较序列任意一条数据的位置距离未超过预设驻留范围距离阈值,则继续进行比较,如果数据的位置与所述比较序列任意一条数据的位置距离超过预设驻留范围距离阈值,则计算所述比较序列中最后一条数据与第一条数据的时间差,如果时间差值大于预设驻留范围最短时间阈值,则将所述比较序列中数据标记为驻留数据,如果时间差值小于预设驻留范围最短时间阈值,则释放所述比较序列中的数据项,如果还有未遍历的数据项,则继续进行比较,如果遍历完成,则根据结果将相邻两个驻留区域间的数据标记为出行数据,以得到所述出行数据集;
出行路径特征提取模块,用于根据所述出行数据集提取得到出行路径特征,其中,所述出行路径特征包括始发地、目的地、时间、路径和出行方式中的一种或多种;
API调用模块,用于根据地图平台API参数和所述出行路径特征得到候选路径集,并根据API响应结果从所述候选路径集提取得到候选路径特征;
预测模块,用于将所述候选路径特征与运动路径特征进行匹配,并使用评分机制对匹配结果进行评分,以得到评分最高的预测路径;以及
地理位置信息更新模块,用于通过预设距离阈值对出行序列和所述预测路径的时间进行匹配,以更新当前地理位置信息。
5.根据权利要求4所述的基于DPI数据的用户地理位置特征提取系统,其特征在于,所述候选路径特征集包括每一候选路径的出行方式、每一候选路径的总耗时、候选路径中每一段的时间集、坐标集、出行方式一种或多种。
6.根据权利要求5所述的基于DPI数据的用户地理位置特征提取系统,其特征在于,所述地理位置更新模块进一步用于设置距离阈值,对出行序列和所述预测路径的时间进行匹配,如果出行序列的原始位置与对应时间内的预测路径的位置距离小于所述距离阈值,则更新当前地理位置信息。
CN201810256044.9A 2018-03-27 2018-03-27 基于dpi数据的用户地理位置特征提取方法及系统 Active CN108520028B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810256044.9A CN108520028B (zh) 2018-03-27 2018-03-27 基于dpi数据的用户地理位置特征提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810256044.9A CN108520028B (zh) 2018-03-27 2018-03-27 基于dpi数据的用户地理位置特征提取方法及系统

Publications (2)

Publication Number Publication Date
CN108520028A CN108520028A (zh) 2018-09-11
CN108520028B true CN108520028B (zh) 2021-05-07

Family

ID=63434169

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810256044.9A Active CN108520028B (zh) 2018-03-27 2018-03-27 基于dpi数据的用户地理位置特征提取方法及系统

Country Status (1)

Country Link
CN (1) CN108520028B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3837494B1 (en) * 2018-09-13 2023-08-02 Huawei Technologies Co., Ltd. Multimodal location sensing on a mobile phone
CN113784294B (zh) * 2021-11-12 2022-02-11 南京信息工程大学 一种wifi环境下手机位置信息提取方法
CN114173286B (zh) * 2022-02-11 2022-06-21 荣耀终端有限公司 确定测试路径的方法、装置、电子设备及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105916108A (zh) * 2016-04-14 2016-08-31 上海河广信息科技有限公司 基于mr的用户移动路线确定系统及方法
CN106197458A (zh) * 2016-08-10 2016-12-07 重庆邮电大学 一种基于手机信令数据和导航路线数据的手机用户出行方式识别方法
CN107466103A (zh) * 2016-04-29 2017-12-12 华为技术有限公司 一种终端定位方法及网络设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160189227A1 (en) * 2014-12-29 2016-06-30 Ebay Inc. Targeted advertising using a crosswalk network and wireless proximity

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105916108A (zh) * 2016-04-14 2016-08-31 上海河广信息科技有限公司 基于mr的用户移动路线确定系统及方法
CN107466103A (zh) * 2016-04-29 2017-12-12 华为技术有限公司 一种终端定位方法及网络设备
CN106197458A (zh) * 2016-08-10 2016-12-07 重庆邮电大学 一种基于手机信令数据和导航路线数据的手机用户出行方式识别方法

Also Published As

Publication number Publication date
CN108520028A (zh) 2018-09-11

Similar Documents

Publication Publication Date Title
Jagadeesh et al. A map matching method for GPS based real-time vehicle location
US7257413B2 (en) Dynamic location almanac for wireless base stations
CN108520028B (zh) 基于dpi数据的用户地理位置特征提取方法及系统
CN110047277A (zh) 基于信令数据的道路交通拥堵排名方法及系统
KR101909365B1 (ko) 내비게이션 시스템의 노선 플래닝 방법, 장치 및 저장 매체
CN105677793A (zh) 地点数据库的建立和候选乘车地点的推荐方法及装置
CN107110652B (zh) 处理空间特征
US11042648B2 (en) Quantification of privacy risk in location trajectories
JP2008267875A (ja) デジタル道路地図の生成方法及び地図生成システム
CN104819726A (zh) 导航数据处理方法、装置及导航终端
CN108763558A (zh) 一种基于地图匹配的众包地图道路质量改进方法
US20130013599A1 (en) Identifying a candidate part of a map to be updated
CN110751831B (zh) 出行方式识别方法、装置、计算机设备和存储介质
JP5330445B2 (ja) 移動経路推定システム及び移動経路推定方法
CN110598917B (zh) 一种基于路径轨迹的目的地预测方法、系统及存储介质
CN104034337B (zh) 一种浮动车地理位置点的地图匹配方法及装置
Schulze et al. Map-matching cell phone trajectories of low spatial and temporal accuracy
CN111341135B (zh) 基于兴趣点及导航数据的手机信令数据出行方式识别方法
CN111194001A (zh) Lte指纹定位校正的方法、装置及系统
CN110830915A (zh) 一种确定起点位置的方法及装置
CN112083454A (zh) 轨迹纠偏方法、装置、设备及存储介质
JP6417272B2 (ja) 情報処理装置、および、コンピュータプログラム
CN114692015A (zh) 一种基于密度聚类的乘车点推荐方法
CN114935773A (zh) 基于北斗定位的在线道路匹配方法、装置、介质和设备
JP2021120739A (ja) 地図データ記憶装置、制御方法、プログラム及び記憶媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant