CN108614835A - 一种基于海量数据的位置信息提取方法和装置 - Google Patents

一种基于海量数据的位置信息提取方法和装置 Download PDF

Info

Publication number
CN108614835A
CN108614835A CN201611145679.9A CN201611145679A CN108614835A CN 108614835 A CN108614835 A CN 108614835A CN 201611145679 A CN201611145679 A CN 201611145679A CN 108614835 A CN108614835 A CN 108614835A
Authority
CN
China
Prior art keywords
data
location information
rule
extracting
application message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611145679.9A
Other languages
English (en)
Inventor
兰烨
刘立兰
王涛
刘卓
王海磊
王正伟
王会娟
田川
焦林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN201611145679.9A priority Critical patent/CN108614835A/zh
Publication of CN108614835A publication Critical patent/CN108614835A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于海量数据的位置信息提取方法和装置。本发明的提取方法为:1)从全文数据库系统中提取原始数据,并从提取的原始数据中提取公共字段和用户代理User‑Agent内容;2)根据所述User‑Agent内容中的应用信息在预先设定的规则数据库中查询对应的提取规则,然后根据所述提取规则从所述原始数据中提取位置信息;3)将每一原始数据的所述位置信息与所述公共字段作为一有效数据进行存储。本发明便于民警对网民、网站行为进行监督和规范。

Description

一种基于海量数据的位置信息提取方法和装置
技术领域:
本发明涉及网络安全及大数据处理领域,尤其涉及一种基于海量数据的位置信息提取方法和装置。
背景技术:
互联网的高速发展,使数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素,伴随而来的是人类可以分析和处理的海量数据。在中型以上的城市如北京、上海,每天在网络行为中产生的各类数据已经超过PB级。LBS(Location Based Services):又称基于位置的服务,它是通过电信移动运营商的无线电通讯网络(如GSM网、CDMA网)或外部DXXW方式(如GPS)及其他DXXW手段获取移动终端用户的位置信息(地理坐标,或大地坐标),在GIS(Geographic Information System,地理信息系统)平台的支持下,为用户提供相应服务的一种增值业务。
基于LBS的服务业务在大数据处理得到了蓬勃地发展,各种开放式API得到了广泛的使用。如Google,就为用户提供了开放式的API服务。注册用户可以根据不同的需要来使用对应的服务,如通过IP查寻经纬度、通过WIFI MAC地址查寻、通过手机基站信息查寻地址、通过经纬度查寻地址、通过地址查寻经纬度等服务。同时,各个行业的基于LBS的业务也在蓬勃开展。在进行海量数据处理,尤其是在海量数据中提取位置信息,目前进行全文检索提取相关数据信息的算法一般是采用各种分词技术,然而传统的全文检索方法缓慢、效率低下。
发明内容:
本发明提供一种基于海量数据的位置信息提取方法和装置,便于民警对网民、网站行为进行监督和规范。
第一方面,本发明实施例提供了一种基于海量数据的位置信息提取方法,包括:
从全文数据库系统TRS中提取原始数据。
从提取的原始数据中提取公共字段和用户代理User-Agent内容,并从所述User-Agent内容获取需要的应用信息。
根据所述应用信息中的URL信息,按照自定义正则表达式,计算出提取规则编号。在预先设定的规则数据库中提取与计算所得编号对应的提取规则,并根据所述提取规则从所述原始数据中提取位置信息。
将所述有效数据输出到业务数据库和/或bcp文件。
第二方面,本发明实施例还提供了一种基于海量数据的位置信息提取装置,其特征在于,包括:
原始数据提取模块,用于从全文数据库系统TRS中提取原始数据;
应用信息获取模块,用于从提取的原始数据中提取公共字段和用户代理User-Agent内容,并从所述User-Agent内容获取应用信息;
位置信息提取模块,用于根据所述应用信息在预先设定的规则数据库中提取与所述应用信息对应的提取规则,并根据所述提取规则从所述原始数据中提取位置信息;
有效数据合并模块,用于将所述位置信息与所述公共字段合并为有效数据;
有效数据输出模块,用于将所述有效数据输出到业务数据库和/或bcp文件。
与现有技术相比,本发明的积极效果为:
本发明通过从全文数据库系统TRS中提取原始数据,并根据从提取的原始数据中提取的应用信息,在预先设定的规则数据库中提取与所述应用信息对应的提取规则,使用所述提取规则从所述原始数据中提取位置信息,解决了现有技术全文检索提取位置信息缓慢、效率低下的问题,实现了在海量数据中高效的、较精确提取位置信息的效果,告别了以往提取位置信息耗时长,且计算得出位置不准确的局面。本发明具有定位效率更高、位置更为精确的特点。
数据处理方面,对由提取得到的位置数据,根据规则计算出编号并选择,在对应的行为数据库中进行匹配。例如,进行计算后得到编号“XXX”,则在对应的行为数据库中查询找到编号为“XXX”的记录,并读取出对应的提取规则字段,字段内容为一个正则表达式“x=a?y”。根据得到的正则表达式,计算出对应的位置信息。如果得到的提取规则为空,则得到的该条记录无效。
附图说明:
图1为本发明实施例一提供的一种基于海量数据的位置信息提取方法的流程图;
图2为本发明实施例二提供的一种基于海量数据的位置信息提取方法的流程图;
图3为本发明实施例二提供的一种基于海量数据的位置信息提取方法的算法流程图;
图4为本发明实施例二提供的根据在预先设定的规则数据库中提取的与应用信息对应的提取规则,从原始数据中提取位置信息的算法流程图;
图5为本发明实施例三提供的数据库管理示意图;
图6为本发明实施例四提供的一种基于海量数据的位置信息提取装置的结构示意图;
图7为本发明实施例四提供的基于海量数据的位置信息提取装置的整体数据流示意图。
具体实现方式:
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种基于海量数据的位置信息提取方法的流程图,该方法可以由基于海量数据的位置信息提取装置来执行,该装置可通过硬件和/或软件的方式实现,并一般可集成于WEB服务器中,或作为WEB服务器端的子程序,具体包括如下操作:
110、从全文数据库系统TRS中提取原始数据;
其中,TRS是一个面向文本数据的数据库管理系统,广泛应用于各种信息数据库、信息门户的建设,能够对异构海量数据统一管理,同时支持结构化数据和非结构化数据,支持多种数据类型(如日期、字符串、短语、文档和二进制多媒体类型)。从全文数据库系统TRS中提取原始数据,例如,从TRS提取并计算出来所需数据。
120、从提取的原始数据中提取公共字段和用户代理User-Agent内容,并从所述User-Agent内容获取应用信息进行计算并判断;
其中,原始数据中的公共字段包括:数据ID,设备ID,目的端口,时间戳等。本发明实施例对原始数据中的公共字段不作处理,仅将其中的公共字段进行提取。User-Agent是Http协议中的一部分,属于头域的组成部分,能够提供用户所使用的浏览器类型、操作系统、浏览器内核等信息的标识。从所述User-Agent内容中提取应用信息,例如比QQ、MSN等应用等,并根据版本对提取的应用信息进行区分。
130、根据所述应用信息在预先设定的规则数据库中提取与所述应用信息对应的提取规则,并根据所述提取规则从所述原始数据中提取位置信息;
其中,预先设定的规则数据库中存储有位置信息的BXXH、JXXD、WXXD等字段,从预先设定的规则数据库提取与所述应用信息对应的提取规则,并根据所述提取规则从所述原始数据中提取位置信息。
140、将所述位置信息与所述公共字段合并为有效数据;
有效数据包括两部分:操作120中提取的公共字段和操作130中提取的位置信息。
例如数组a[2][2],a[0][0]={abc,bj1},a[0][1]={abc,bj2}.
150、将所述有效数据输出到业务数据库和/或bcp文件。
将操作140中获取的有效数据输出到业务数据库以供相应业务系统使用。由于不同业务系统之间是相互独立的,不同业务系统的数据库之间不能共享,因此,将有效数据输入bcp文件保存,以供不同业务系统使用。
本实施例的技术方案,通过从全文数据库系统TRS中提取原始数据,从提取的原始数据中提取公共字段和应用信息,根据所述应用信息在预先设定的规则数据库中提取与所述应用信息对应的提取规则,并根据所述提取规则从所述原始数据中提取位置信息,与所述公共字段合并为有效数据后,输出到业务数据库和/或bcp文件,解决了现有技术全文检索提取位置信息缓慢、效率低下的问题,实现了在海量数据中高效的提取位置信息的效果。
实施例二
图2为本发明实施例二提供的一种基于海量数据的位置信息提取方法的流程图。本实施例为上述实施例基础上的优化,相应的,本实施例的方法包括如下操作:
210、从全文数据库系统TRS中提取原始数据;
220、从提取的原始数据中提取公共字段和用户代理User-Agent内容;
230、判断所述User-Agent内容是否为空;
当所述User-Agent内容为空时,执行操作260;否则,执行操作240。
240、从所述User-Agent内容获取应用信息;
250、判断所述预先设定的规则数据库中是否包含与所述应用信息对应的提取规则;
当所述预先设定的规则数据库中不包含与所述应用信息对应的提取规则时,执行操作260;否则执行操作270。
260、使用公知通用规则从所述原始数据中提取位置信息;
270、根据所述应用信息在预先设定的规则数据库中提取与所述应用信息对应的提取规则,并根据所述提取规则从所述原始数据中提取位置信息;
举例而言,当原始数据的传参方式为GET时,在原始数据请求行中提取参数,并分割提取出来。由于参数以键值对的形式存在,通过“&”形式出现,先以“&”分割出每个参数的键值对。参数名和参数值是以“=”连接的,再以分割“=”提取出来键值对,或者根据“=”的位置截取出来,得到参数名和参数值。本发明实施例中的预先设定的规则数据库中的提取规则,也适用于POST等方式传参的原始数据,在此不作详述。
280、将所述位置信息与所述公共字段合并为有效数据;
290、将所述有效数据输出到业务数据库和/或bcp文件。
在上述实施例基础上,优选地,在将所述有效数据输出到业务数据库和/或bcp文件之后,还包括:
接收用户的查询请求,返回查询请求数据。
举例而言,本发明实施例中的执行主体可以是运行在WEB服务器端的Servlet应用程序,能够接收WEB客户端的用户查询请求,并对WEB客户端进行响应,返回查询请求数据。Servlet在第一次接收WEB客户端的用户查询请求时被初始化,以后一直在内存中运行,并在WEB服务器重启时销毁。
本实施例的技术方案,通过从全文数据库系统TRS中提取原始数据,从提取的原始数据中提取公共字段和User-Agent中的应用信息,当预先设定的规则数据库中包含与所述应用信息对应的提取规则,从预先设定的规则数据库中提取与所述应用信息对应的提取规则,并根据所述提取规则从所述原始数据中提取位置信息,当所述User-Agent内容为空,以及所述预先设定的规则数据库中没有与所述应用信息对应的提取规则时,使用通用规则从所述原始数据中提取位置信息。最后将提取的位置信息与公共字段合并为有效数据后,输出到业务数据库和/或bcp文件,解决了现有技术全文检索提取位置信息缓慢、效率低下的问题,实现了在海量数据中高效的提取位置信息的效果。
实施例三
本实施例为上述实施例基础上的优化,优选的,在将所述位置信息与所述公共字段合并为有效数据之后,在将所述有效数据输出到业务数据库和bcp文件之前,还包括:
过滤错误数据以及相同数据。
通过错误数据的过滤以及形同数据的滤除可以保证入库后的有效数据的准确性及可用性。
如图5所示,在上述实施例基础上,本发明实施例提供的方法,还包括:
管理所述TRS中的数据源,包括修改数据源,删除数据源,添加数据源,查询数据源;
所述TRS中包含多个数据源,该方法能够对接入TRS的数据源进行管理,选择系统所需的数据源进行原数据的位置信息的提取。
管理所述应用信息数据库,包括修改应用信息,删除应用信息,添加应用信息,查询应用信息;
管理所述预先设定的规则数据库,包括修改提取规则,删除提取规则,添加提取规则,查询提取规则。
本实施例的技术方案,通过在将所述位置信息与所述公共字段合并为有效数据之后,在将所述有效数据输出到业务数据库和bcp文件之前,过滤错误数据以及相同数据,保证了入库后的有效数据的准确性及可用性。此外,本实施例还可以对TRS中的数据源、应用信息、预先设定的规则数据库进行管理,能够满足不同业务系统的位置信息提取需求。
实施例四
图6为本发明实施例四提供的一种基于海量数据的位置信息提取装置的结构示意图,该装置的具体包括:
原始数据提取模块410,用于从全文数据库系统TRS中提取原始数据;
应用信息获取模块420,用于从提取的原始数据中提取公共字段和用户代理User-Agent内容,并从所述User-Agent内容获取应用信息;
位置信息提取模块430,用于根据所述应用信息在预先设定的规则数据库中提取与所述应用信息对应的提取规则,并根据所述提取规则从所述原始数据中提取位置信息;
有效数据合并模块440,用于将所述位置信息与所述公共字段合并为有效数据;
有效数据输出模块450,用于将所述有效数据输出到业务数据库和/或bcp文件。
本实施例的技术方案,通过从全文数据库系统TRS中提取原始数据,从提取的原始数据中提取公共字段和应用信息,根据所述应用信息在预先设定的规则数据库中提取与所述应用信息对应的提取规则,并根据所述提取规则从所述原始数据中提取位置信息,与所述公共字段合并为有效数据后,输出到业务数据库和/或bcp文件,解决了现有技术全文检索提取位置信息缓慢、效率低下的问题,实现了在海量数据中高效的提取位置信息的效果。
在上述实施例基础上,所述位置信息提取模块,具体还用于:
当所述User-Agent内容为空;以及,所述预先设定的规则数据库中没有与所述应用信息对应的提取规则时,使用通用规则从所述原始数据中提取位置信息。
在上述实施例基础上,所述基于海量数据的位置信息提取装置,还包括:
用户查询请求响应模块,用于接收用户的查询请求,返回查询请求数据。
在上述实施例基础上,所述基于海量数据的位置信息提取装置,还包括:
管理模块,包括数据源管理单元、应用信息管理单元、提取规则管理单元;
其中,所述数据源管理单元,用于管理所述TRS中的数据源,包括修改数据源,删除数据源,添加数据源,查询数据源;
所述应用信息管理单元,用于管理所述应用信息数据库,包括修改应用信息,删除应用信息,添加应用信息,查询应用信息;
所述提取规则管理单元,用于管理所述预先设定的规则数据库,包括修改提取规则,删除提取规则,添加提取规则,查询提取规则。
在上述实施例基础上,所述基于海量数据的位置信息提取装置,还包括:
过滤模块,用于过滤错误数据以及相同数据。
图7为本发明实施例提供的基于海量数据的位置信息提取装置的整体数据流示意图,如图7所示,WEB服务端提取TRS中的原始数据,提取出位置信息并与公共字段合并成有效数据入库保存;WEB服务端接收WEB客户端的请求,对WEB客户端进行响应,包括对数据源管理,应用信息管理,提取规则管理。
上述装置可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种基于海量数据的位置信息提取方法,其步骤为:
1)从全文数据库系统中提取原始数据,并从提取的原始数据中提取公共字段和用户代理User-Agent内容;
2)根据所述User-Agent内容中的应用信息在预先设定的规则数据库中查询对应的提取规则,然后根据所述提取规则从所述原始数据中提取位置信息;
3)将每一原始数据的所述位置信息与所述公共字段作为一有效数据进行存储。
2.如权利要求1所述的方法,其特征在于,根据所述User-Agent内容中的应用信息计算出提取规则编号;然后在预先设定的规则数据库中提取该提取规则编号对应的提取规则。
3.如权利要求2所述的方法,其特征在于,原始数据中的每一记录对应一提取规则,记录与提取规则之间通过编号对应。
4.如权利要求1或2或3所述的方法,其特征在于,当所述预先设定的规则数据库中不包含与所述应用信息对应的提取规则时,使用公知通用规则从所述原始数据中提取位置信息。
5.如权利要求1或2或3所述的方法,其特征在于,将所述位置信息与所述公共字段以数组的形式合并为一对多有效数据;所述公共字段包括:数据ID、设备ID、目的端口和时间戳。
6.一种基于海量数据的位置信息提取装置,其特征在于,包括原始数据提取模块,用于从全文数据库系统中提取原始数据;应用信息获取模块,用于从提取的原始数据中提取公共字段和用户代理User-Agent内容,并从所述User-Agent内容获取应用信息;位置信息提取模块,用于根据所述应用信息在预先设定的规则数据库中提取与所述应用信息对应的提取规则,并根据所述提取规则从所述原始数据中提取位置信息;有效数据合并模块,用于将所述位置信息与所述公共字段合并为有效数据。
7.如权利要求6所述的装置,其特征在于,所述应用信息获取模块根据所述User-Agent内容中的应用信息计算出提取规则编号;然后在预先设定的规则数据库中提取该提取规则编号对应的提取规则。
8.如权利要求6或7所述的装置,其特征在于,原始数据中的每一记录对应一提取规则,记录与提取规则之间通过编号对应。
9.如权利要求6或7所述的装置,其特征在于,当所述预先设定的规则数据库中不包含与所述应用信息对应的提取规则时,所述位置信息提取模块使用公知通用规则从所述原始数据中提取位置信息。
10.如权利要求6或7所述的装置,其特征在于,所述有效数据合并模块将所述位置信息与所述公共字段以数组的形式合并为一对多有效数据;所述公共字段包括:数据ID、设备ID、目的端口和时间戳。
CN201611145679.9A 2016-12-13 2016-12-13 一种基于海量数据的位置信息提取方法和装置 Pending CN108614835A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611145679.9A CN108614835A (zh) 2016-12-13 2016-12-13 一种基于海量数据的位置信息提取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611145679.9A CN108614835A (zh) 2016-12-13 2016-12-13 一种基于海量数据的位置信息提取方法和装置

Publications (1)

Publication Number Publication Date
CN108614835A true CN108614835A (zh) 2018-10-02

Family

ID=63657035

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611145679.9A Pending CN108614835A (zh) 2016-12-13 2016-12-13 一种基于海量数据的位置信息提取方法和装置

Country Status (1)

Country Link
CN (1) CN108614835A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113784294A (zh) * 2021-11-12 2021-12-10 南京信息工程大学 一种wifi环境下手机位置信息提取方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104516948A (zh) * 2014-12-08 2015-04-15 北京锐安科技有限公司 一种基于海量数据的位置信息提取方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104516948A (zh) * 2014-12-08 2015-04-15 北京锐安科技有限公司 一种基于海量数据的位置信息提取方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113784294A (zh) * 2021-11-12 2021-12-10 南京信息工程大学 一种wifi环境下手机位置信息提取方法

Similar Documents

Publication Publication Date Title
CA2851701C (en) Location-based messaging system
CN102546656B (zh) 在社交网络中查找用户的方法、系统和装置
CN103686591A (zh) 获取位置信息的方法和系统
WO2009012705A1 (en) Method for generating user attribute information and apparatus thereof
CN104965847A (zh) 信息展示方法及装置
EP1879118A1 (en) Search server
CN104516948B (zh) 一种基于海量数据的位置信息提取方法和装置
CN108712712A (zh) 无线保真WiFi网络关联信息显示方法及装置
CN101022577B (zh) 短信搜索方法及其系统
CN111224981B (zh) 一种数据处理方法、装置、电子设备及存储介质
CN110737820A (zh) 用于生成事件信息的方法和装置
US20100191766A1 (en) Method and apparatus for information retrieval via electronic mail
CN108614835A (zh) 一种基于海量数据的位置信息提取方法和装置
CN105991716A (zh) 一种信息共享的系统和方法
Niko et al. Integrating user-generated content and spatial data into web GIS for disaster history
CN109902523A (zh) 基于二维码的定位方法及装置、存储介质、计算机设备
CN115438719A (zh) 数据处理方法、装置、服务器及存储介质
CN108228591A (zh) 一种基于海量数据的网络行为识别方法及装置
US10783169B1 (en) Inferring user interests from geo-location reports
CN114765738B (zh) 基于无线网络地址的地理位置确定方法、装置及存储介质
CN103533077A (zh) 网络聊天定位系统及其定位方法
CN110149810A (zh) 限制在网络环境中操纵内容的传输
Biswas et al. SMS based information retrieval system for low end mobile devices
Hadig et al. Proximity services with the nimbus framework
Sutanto et al. Android based position tracking for car condition monitoring

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181002