CN113784294A - 一种wifi环境下手机位置信息提取方法 - Google Patents
一种wifi环境下手机位置信息提取方法 Download PDFInfo
- Publication number
- CN113784294A CN113784294A CN202111336750.2A CN202111336750A CN113784294A CN 113784294 A CN113784294 A CN 113784294A CN 202111336750 A CN202111336750 A CN 202111336750A CN 113784294 A CN113784294 A CN 113784294A
- Authority
- CN
- China
- Prior art keywords
- position information
- mobile phone
- data
- regular expression
- format
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/029—Location-based management or tracking services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/18—Information format or content conversion, e.g. adaptation by the network of the transmitted or received information for the purpose of wireless delivery to users or terminals
- H04W4/185—Information format or content conversion, e.g. adaptation by the network of the transmitted or received information for the purpose of wireless delivery to users or terminals by embedding added-value information into content, e.g. geo-tagging
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种WIFI环境下手机位置信息提取方法,包括以下步骤:1、从手机WIFI流量产生的IP分组中过滤出HTTP数据;2、采集网络流量数据包并分析归纳,形成位置信息格式的正则表达式描述形式;基于位置信息正则表达式,利用正则表达式匹配库形成位置信息提取引擎;3、通过位置信息提取引擎对HTTP数据进行扫描,匹配得到手机位置信息列表;4、将列表中的手机位置信息统一转换成GPS格式;5、计算每个手机位置信息出现的次数,输出次数最多的位置信息;本发明可以减轻后续数据处理的压力,利用高速匹配引擎按照预先设定的正则规则中提取位置信息,实现从海量数据中高效提取位置信息的效果,且对实时数据流的影响极小。
Description
技术领域
本发明属于深度包解析技术领域,尤其涉及一种WIFI环境下手机位置信息提取方法。
背景技术
信息是大数据时代的主角,在这些海量信息中,80%的信息与位置信息(LocationBased Service,LBS)相关。LBS是指采用无线通信网络、GIS、无线定位、空间数据库等多种相关技术,为用户提供的一种基于空间位置的移动信息服务;它通过获得移动用户的空间位置信息,为用户提供诸如位置搜寻、交通导航、目标广告、车辆跟踪、社交网络、移动网游、安全监护等众多个性化的服务。
空间媒体数据是指与空间位置相关的文本、图片、音视频等自媒体平台数据,主要来源于BBS、微博、博客、微信、QQ 等移动社交网络,具有数据体量大、数据来源广、数据差异性大、数据非结构化、数据价值密度低、数据实时性与交互性强等特点。空间媒体数据中包含大量的用户位置数据信息,从网络流量中提取位置信息,利用这些位置信息与数据进行有效的挖掘与分析,使之成为对大型突发事件预警有用的情报信息,从而为应急指挥部署提供辅助性的决策和预案。
目前通常采用全文检索的方法来在海量应用数据中提取位置信息,这种方式检索缓慢、效率底下,且支持的位置信息格式单一。
发明内容
发明目的:本发明的目的在于提供一种效率高、适用范围广的WIFI环境下手机位置信息提取方法。
技术方案:本发明的WIFI环境下手机位置信息提取方法,包括以下步骤:
步骤1、从手机WIFI流量产生的IP分组中过滤出HTTP数据;
步骤2、采集网络流量数据包并分析归纳,形成位置信息格式的正则表达式描述形式;基于位置信息正则表达式,利用正则表达式匹配库形成位置信息提取引擎;
步骤3、通过位置信息提取引擎对HTTP数据进行扫描,匹配得到手机位置信息列表;
步骤4、将列表中的手机位置信息统一转换成GPS格式;
步骤5、计算每个手机位置信息出现的次数,输出出现次数最多的位置信息;
进一步地,步骤1中,所述滤出HTTP数据为仅保留GET和POST请求数据。
进一步地,步骤2中,所述正则表达式匹配库为PCRE和Hyperscan匹配库等标准匹配库。
进一步地,步骤4中,所述GPS格式包括GIS、搜狗、谷歌三种形式的位置信息。
进一步地,所述步骤5具体包括:计算每个手机位置信息出现的次数,输出出现次数最多的位置信息;如果有多种位置信息频次一样,且频次排名首位,则增加IP分组数量,直至频次最高的位置信息唯一转换后的GPS位置信息格式为[lon,lat],其中lon是经度数值,lat是纬度数值。
有益效果:与现有技术相比,本发明具有如下显著优点:
(1)本发明从HTTP流量中过滤出GET和POST请求,减轻后续数据处理的压力,并利用Hyperscan高速匹配引擎按照预先设定的正则规则中提取位置信息,解决了现有技术提取位置信息效率低下的问题,实现从海量数据中高效提取位置信息的效果,且对实时数据流的影响极小。
(2)从HTTP流量中提取到更多更全面的位置信息,包括GIS、搜狗、谷歌三种形式的位置信息,极大地降低了单一格式提取的情况下可能出现的误提取的情况。
附图说明
图1为本发明的工作流程图。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
如图1所示,本发明的手机位置信息提取方法,先对IP分组进行过滤,仅保留GET和POST请求数据。利用Hyperscan高速匹配引擎读取事先形成的位置信息正则规则,从HTTP数据中提取可能存在的GIS、搜狗、谷歌形式的位置信息。将提取到的位置信息进行转换成统一的GIS位置信息格式,对转换后的GIS位置信息进行排序并输出排名首位的GIS位置信息。
具体实施步骤如下:
(1)从手机WIFI流量产生的IP分组中过滤出HTTP数据,仅过滤出请求方法为POST和GET的HTTP数据;
(2)通过对事先采集的网络流量数据包分析归纳,形成位置信息格式的正则表达式描述形式;基于位置信息正则表达式,利用Hyperscan匹配技术形成位置信息提取引擎;利用Wireshark软件采集手机联网产生的网络流量;找出网络流量中经度、纬度信息,针对GPS、搜狗、谷歌形式的位置信息分别编写正则表达式规则;利用Hyperscan编译器对正则表达式编译,得到GPS、搜歌、谷歌位置信息提取引擎;利用Hyperscan扫描引擎对HTTP数据中的位置信息进行提取;
(3)通过Hyperscan位置信息提取引擎对HTTP数据进行高效快速扫描,匹配得到手机位置信息列表,Hyperscan位置信息提取引擎采用流模式匹配;
(4)将列表中的手机位置信息统一转换成GPS格式,如果位置信息格式为GPS则无需转换,如果位置信息格式为搜狗位置信息格式则将其转换成GPS格式,如果位置信息格式为谷歌位置信息格式则将其转换成GPS格式;
(5)计算每个手机位置信息出现的次数,输出出现次数最多的位置信息;如果有多种位置信息频次一样,且频次排名首位,则增加IP分组数量,直至频次最高的位置信息唯一转换后的GPS位置信息格式为[lon,lat],其中lon是经度数值,lat是纬度数值。
实施例
补充具体的实施例,具体的操作过程、数据、图表、手机位置信息等。
如图1所示,本实例中一种WIFI环境下手机位置信息提取方法,首先通过用户手机WIFI流量产生的IP分组中过滤出HTTP数据,使用Hyperscan或者PCRE匹配技术(若数据量太大则优先使用Hyperscan匹配技术)对HTTP数据进行分析,得到其手机的GPS、搜狗和谷歌等软件显示的位置信息。具体流程如下:
步骤1:读取手机WIFI流量产生的IP分组
从手机WIFI流量产生的IP分组中过滤出GET和POST请求数据。
步骤2:采集网络流量数据包并分析归纳,形成位置信息格式的正则表达式描述形式;基于位置信息正则表达式,利用正则表达式匹配库形成位置信息提取引擎
匹配的数据库为事先采集的网络流量数据包分析归纳形成的正则表示式数据库。
步骤3:通过位置信息提取引擎对HTTP数据进行扫描,匹配得到手机位置信息列表
对GET和POST请求数据进行分析归纳,形成位置信息格式的正则表达式,利用Hyperscan匹配技术对该正则表达式进行匹配
步骤4:将列表中的手机位置信息统一转换成GPS格式
将匹配到的正则表达式数据还原成GPS信息,如果手机开通GPS权限,则直接返回GPS信息。如果手机未开通GPS权限,则对搜狗和谷歌重复步骤1,3得到位置信息并将其转换成GPS信息返回。
步骤5:计算每个手机位置信息出现的次数,输出出现次数最多的位置信息;
多次获取手机的GPS信息,根据GPS地址出现最多的地址即为手机所在的位置。
Claims (5)
1.一种WIFI环境下手机位置信息提取方法,其特征在于,包括以下步骤:
步骤1、从手机WIFI流量产生的IP分组中过滤出HTTP数据;
步骤2、采集网络流量数据包并分析归纳,形成位置信息格式的正则表达式描述形式;基于位置信息正则表达式,利用正则表达式匹配库形成位置信息提取引擎;
步骤3、通过位置信息提取引擎对HTTP数据进行扫描,匹配得到手机位置信息列表;
步骤4、将列表中的手机位置信息统一转换成GPS格式;
步骤5、计算每个手机位置信息出现的次数,输出出现次数最多的位置信息。
2.根据权利要求1所述的WIFI环境下手机位置信息提取方法,其特征在于,步骤1中,所述滤出HTTP数据为仅保留GET和POST请求数据。
3.根据权利要求1所述的WIFI环境下手机位置信息提取方法,其特征在于,步骤2中,所述正则表达式匹配库为Hyperscan匹配库或PCRE匹配库。
4.根据权利要求1所述的WIFI环境下手机位置信息提取方法,其特征在于,步骤4中,所述GPS格式包括GIS、搜狗、谷歌三种形式的位置信息。
5.根据权利要求1所述的WIFI环境下手机位置信息提取方法,其特征在于,所述步骤5具体包括:计算每个手机位置信息出现的次数,输出出现次数最多的位置信息;如果有多种位置信息频次一样,且频次排名首位,则增加IP分组数量,直至频次最高的位置信息唯一转换后的GPS位置信息格式为[lon,lat],其中lon是经度数值,lat是纬度数值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111336750.2A CN113784294B (zh) | 2021-11-12 | 2021-11-12 | 一种wifi环境下手机位置信息提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111336750.2A CN113784294B (zh) | 2021-11-12 | 2021-11-12 | 一种wifi环境下手机位置信息提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113784294A true CN113784294A (zh) | 2021-12-10 |
CN113784294B CN113784294B (zh) | 2022-02-11 |
Family
ID=78956982
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111336750.2A Active CN113784294B (zh) | 2021-11-12 | 2021-11-12 | 一种wifi环境下手机位置信息提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113784294B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108520028A (zh) * | 2018-03-27 | 2018-09-11 | 北京邮电大学 | 基于dpi数据的用户地理位置特征提取方法及系统 |
CN108614835A (zh) * | 2016-12-13 | 2018-10-02 | 北京锐安科技有限公司 | 一种基于海量数据的位置信息提取方法和装置 |
CN110891030A (zh) * | 2019-12-26 | 2020-03-17 | 南京烽火星空通信发展有限公司 | 一种基于机器学习的http流量特征识别与提取方法 |
CN111708860A (zh) * | 2020-06-15 | 2020-09-25 | 北京优特捷信息技术有限公司 | 信息提取方法、装置、设备及存储介质 |
-
2021
- 2021-11-12 CN CN202111336750.2A patent/CN113784294B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108614835A (zh) * | 2016-12-13 | 2018-10-02 | 北京锐安科技有限公司 | 一种基于海量数据的位置信息提取方法和装置 |
CN108520028A (zh) * | 2018-03-27 | 2018-09-11 | 北京邮电大学 | 基于dpi数据的用户地理位置特征提取方法及系统 |
CN110891030A (zh) * | 2019-12-26 | 2020-03-17 | 南京烽火星空通信发展有限公司 | 一种基于机器学习的http流量特征识别与提取方法 |
CN111708860A (zh) * | 2020-06-15 | 2020-09-25 | 北京优特捷信息技术有限公司 | 信息提取方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113784294B (zh) | 2022-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106982150B (zh) | 一种基于Hadoop的移动互联网用户行为分析方法 | |
CN1294773C (zh) | 利用无线网络的操作数据提供交通信息的系统和方法 | |
CN109582551A (zh) | 日志数据解析方法、装置、计算机设备和存储介质 | |
AU2015295944A1 (en) | Aggregate query method and system for traffic data flows | |
CN105992338B (zh) | 一种定位方法和装置 | |
CN103838867A (zh) | 日志处理方法和装置 | |
CN104424229A (zh) | 一种多维度拆分的计算方法及系统 | |
KR101982756B1 (ko) | 분산인메모리기반 복합형스트림 데이터처리시스템 및 방법 | |
KR102068788B1 (ko) | 사용자 타겟 서비스를 제공하는 서버 및 그 서비스 제공방법 | |
CN109710767B (zh) | 多语种大数据服务平台 | |
CN111294742B (zh) | 基于信令cdr数据识别伴随手机号码的方法与系统 | |
CN1859505B (zh) | 话单查询系统及查询方法 | |
CN104902438A (zh) | 一种基于移动通信终端分析客流特征信息的统计方法及其系统 | |
CN102752336A (zh) | 基于地理位置服务的ugc的共享方法及系统 | |
CN112398939B (zh) | 基于通信信令的分区式气象智能预警平台 | |
Dobos et al. | A multi-terabyte relational database for geo-tagged social network data | |
Moise et al. | Tracking language mobility in the Twitter landscape | |
CN113784294B (zh) | 一种wifi环境下手机位置信息提取方法 | |
CN106649636A (zh) | 一种基于移动终端的人员流动性分析方法及装置 | |
CN114358726A (zh) | 依托举报线索和多数据源结合的禁毒预警研判方法及系统 | |
KR101744317B1 (ko) | 서버 장치 및 위치 변화를 관리하는 방법 | |
CN113806466A (zh) | 路径时间查询方法、装置、电子设备和可读存储介质 | |
CN111611222A (zh) | 一种基于分布式存储的数据动态处理方法 | |
KR101600275B1 (ko) | 실시간 빅 데이터 이벤트 처리 시스템 | |
CN105095224A (zh) | 一种在移动通信网络中进行olap分析的方法、装置和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |