CN105407016B - 流量数据中信息点的提取方法及装置 - Google Patents
流量数据中信息点的提取方法及装置 Download PDFInfo
- Publication number
- CN105407016B CN105407016B CN201510843691.6A CN201510843691A CN105407016B CN 105407016 B CN105407016 B CN 105407016B CN 201510843691 A CN201510843691 A CN 201510843691A CN 105407016 B CN105407016 B CN 105407016B
- Authority
- CN
- China
- Prior art keywords
- url
- data
- flows
- keyword
- key assignments
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/02—Capturing of monitoring data
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
流量数据中信息点的提取方法、装置,所述方法包括:根据已知URL中的键值相关信息从所述流量数据中获取包含所述键值的URL集;其中,所述URL包括关键字和键值;从所述URL集中提取URL对应的所述关键字,每条URL对应一组关键字,得到关键字字典表;将所述关键字字典表中的每组关键字作为探测关键字,从所述流量数据中获取包含所述探测关键字的URL的键值,以获得流量数据中的信息点。上述的方案可以提高流量数据中信息点的获取量。
Description
技术领域
本发明涉及大数据技术领域,尤其涉及一种流量数据中信息点的提取方法及装置。
背景技术
在信息量爆炸的今天,用户每天都在产生大量的流量信息,流量中存在丰富的有价值的数据,这些数据包含了大量的用户信息,这些信息大部分是未被开发使用的,因此,提取这些信息具有十分重要的意义,这些可以被开发使用的数据被称为信息点。
但是,目前提取流量信息点,都是在基于已知的知识点的前提下进行提取的,这种提取流量中信息点的方式受限于对日常事务的认知程度,例如想要从流量数据中获取某个对象的参数值,但是仅仅掌握该参数值是以数字10和11开头的整数,那么利用该知识点从流量数据中探测,得到的信息点即该对象的参数值也都是以10和11开头的值,但实际情况是,该参数值还存在大量以12开头的值,可见,这种方式探测得到的信息量建立在对知识点的掌握程度上,挖掘到的信息量较少。
发明内容
本发明解决的技术问题是如何提高流量数据中信息点的获取量。
为解决上述问题,本发明提供一种流量数据中信息点的提取方法,所述方法包括:
根据已知的URL中的键值相关信息从所述流量数据中获取包含所述键值的URL集;其中,所述URL包括关键字和键值;
从所述URL集中提取URL对应的所述关键字,每条URL对应一组关键字,得到关键字字典表;
将所述关键字字典表中的每组关键字作为探测关键字,从所述流量数据中获取包含所述探测关键字的URL的键值,以获得流量数据中的信息点。
可选地,所述根据已知的URL中的键值相关信息从所述流量数据中获取包含所述键值的URL集,包括:
将所述已知URL中的键值相关信息转换成第一正则表达式;
使用所述第一正则表达式从所述流量数据中获取包含所述键值的URL集。
可选地,所述流量数据中信息点的提取方法,还包括:
根据所述URL集中的每一组关键字,获得对应的URL的域名和路径,形成一条检测规则,得到检测规则库;
根据所述检测规则库中的检测规则,从所述流量数据中获得所述检测规则对应的键值,以得到流量数据中的信息点。
可选地,所述根据所述检测规则库中的检测规则,从所述流量数据中获得所述检测规则对应的键值,包括:
将所述检测规则转换成第二正则表达式;
从所述流量数据中获得所述检测规则对应的键值,以获得流量数据中的信息点。
可选地,所述流量数据中信息点的提取方法,还包括:将所述检测规则库中所述域名不同,且所述路径、关键字和键值均相同的检测规则进行合并。
本发明实施例还提供一种流量数据中信息点的提取装置,所述装置包括:
URL集获取单元,适于根据已知的URL中的键值相关信息从所述流量数据中获取包含所述键值的URL集;其中,所述URL包括关键字和键值;
关键字字典表形成单元,适于从所述URL集中提取URL对应的所述关键字,每条URL对应一组关键字,得到关键字字典表;
第一信息点获取单元,适于将所述关键字字典表中的每组关键字作为探测关键字,从所述流量数据中获取包含所述探测关键字的URL的键值,以获得流量数据中的信息点。
可选地,所述URL集获取单元,适于将所述已知URL中的键值相关信息转换成第一正则表达式,使用所述第一正则表达式从所述流量数据中获取包含所述键值的URL集。
可选地,所述流量数据中信息点的提取装置,还包括:
检测规则形成单元,适于根据所述URL集中的每一组关键字,获得对应的URL的域名和路径,形成一条检测规则,得到检测规则库;
第二信息点获取单元,适于根据所述检测规则库中的检测规则,从所述流量数据中获得所述检测规则对应的键值,以获得流量数据中的信息点。
可选地,所述第二信息点获取单元,适于:
将所述检测规则转换成第二正则表达式;
从所述流量数据中获得所述检测规则对应的键值,以得到流量数据中的信息点。
可选地,所述流量数据中信息点的提取装置,还包括合并单元,适于将所述检测规则库中所述域名不同,且所述路径、关键字和键值均相同的检测规则进行合并。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
本发明实施例的技术方案通过根据已知的URL中的键值相关信息从所述流量数据中获取包含所述键值的URL集,从所述URL集中提取每条URL的关键字,每条URL对应一组关键字,得到关键字字典表,将所述关键字字典表中的每组关键字作为探测关键字,从所述流量数据中获取包含所述探测关键字的URL的键值,以获得流量数据中的信息点,从而实现了以较少的已知键值从流量中获取较多的键值,所述键值即信息点,也即提高了信息点的获取量。
进一步地,通过形成通用的检测规则,可以使用检测规则更快地检测到流量数据中的信息点。
附图说明
图1是本发明实施例中的一种流量数据中信息点的提取方法的流程图;
图2是本发明实施例中的一种流量数据中信息点的提取方法的流程图;
图3是本发明实施例中的一种流量数据中信息点的提取装置的结构示意图。
具体实施方式
如前所述,目前提取流量信息点,是在已知需要提取的信息点的前提下在流量数据中提取出相应的信息,这种提取流量中信息点的方式受限于对日常事务的认知程度,获得的信息量较少。
URL(Uniform Resource Locator,统一资源定位符)是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,流量数据中的URL包含了用户的行为数据信息。
本发明实施例通过根据已知的URL中的键值相关信息从所述流量数据中获取包含所述键值的URL集,从所述URL集中提取每条URL的关键字,每条URL对应一组关键字,得到关键字字典表,将所述关键字字典表中的每组关键字作为探测关键字,从所述流量数据中获取包含所述探测关键字的URL的键值,以获得流量数据中的信息点,从而实现了以较少的已知键值从流量中获取较多的键值,所述键值即信息点,也即提高了信息点的获取量。
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1是本发明实施例中的一种流量数据中信息点的提取方法的流程图。如图所示的流量数据中信息点的提取方法,可以包括:
步骤S101:根据已知的URL中的键值相关信息从所述流量数据中获取包含所述键值的URL集;其中,所述URL包括关键字和键值。
在本发明实施例中,所述关键字为URL中向动态网页传递参数的参数名,所述键值为参数值。
具体实施中,所述根据已知的URL中的键值相关信息从所述流量数据中获取包含所述键值的URL集,可以包括:
将所述已知URL中的键值相关信息转换成第一正则表达式;
使用所述第一正则表达式从所述流量数据中获取包含所述键值的URL集。
例如,想要从流量中提取GPS坐标信息,可以选取一个已知的实例知识点作为所述已知URL中的键值相关信息,根据经验,已知信息有:经纬度的数值为浮点数,小数点后位数为4位或4位以上,且上海市的纬度以31开头,经度以121开头。因此,可以将已知信息转换为第一正则表达式,具体为:^121\\.\\d+,^31\\.\\d+,通过使用该第一正则表达式,可以从流量数据中获取包含所述键值的URL集,即获得以121或31开头的经纬度数据所对应的每条URL组成的所述URL集。
步骤S102:从所述URL集中提取URL对应的所述关键字,每条URL对应一组关键字,得到关键字字典表。
在具体实施中,步骤S101获得了由各条URL组成的URL集,每条URL对应一组关键字,通过提取所述每条URL所对应的一组关键字,形成关键字字典表。
例如,步骤S101中获取的URL集的其中一条URL为:http:/diditaxi.com/mylocation.html?lat=31.123412&lon=121.231241。
提取该条URL的一组关键字为(lat,lon)。同样地,从所述URL集中的其他条URL也可以提取出关键字,这样就形成了关键字字典表。
步骤S103:将所述关键字字典表中的每组关键字作为探测关键字,从所述流量数据中获取包含所述探测关键字的URL的键值,以获得流量数据中的信息点。
在具体实施中,将所述关键字字典表中的每组关键字作为探测关键字,则可以从流量数据中探测到以所述探测关键字为参数名所对应的其他参数值。
本发明实施例将所掌握的信息量较少的实例来进行初次探测,以此获得关键字形成关键字字典表,再通过将所述关键字字典表中的关键字回到流量中进行二次探测,则可以获取以所述关键字为参数名的对应的其他键值,即参数值,从而获得更多的信息点,相比现有技术,本发明实施例的技术方案实现了以较少的信息获取流量数据中较多的信息点。
图2是本发明实施例中的一种流量数据中信息点的提取方法的流程图。如图所示,流量数据中信息点的提取方法可以包括:
步骤S201:根据已知的URL中的键值相关信息从所述流量数据中获取包含所述键值的URL集;其中,所述URL包括关键字和键值。
具体实施中,可以通过将所述已知URL中的键值相关信息转换成第一正则表达式获取包含所述键值的URL集。
步骤S202:从所述URL集中提取URL对应的所述关键字,每条URL对应一组关键字,得到关键字字典表。
步骤S203:根据所述URL集中的每一组关键字,获得对应的URL的域名和路径,形成一条检测规则,得到检测规则库。
具体实施中,一条URL除包含所述关键字和键值外,还包括域名和路径,将所述域名和所述路径也对应提取出来,与所述关键字对应形成一条检测规则。
例如,同样步骤S201中获取的URL集的其中一条URL为:http:/diditaxi.com/mylocation.html?lat=31.123412&lon=121.231241,经步骤S202提取出一组关键字(lat,lon),在本步骤中,提取本条URL中对应的域名和路径形成一条检测规则,即得到:
diditaxi.com/mylocation.html lat||lon,其中关键字lat与lon之间用分隔符分开。
在具体实施中,键值的格式可能存在不同,具体来说,一条URL中可能出现多个键值对应一个关键字的情况,如存在URL:
http:/diditaxi.com/mylocation.html?location=31.123412,121.231241,
该条URL中两个键值对应一个关键字location,形成的检测规则为:diditaxi.com/mylocation.html location。通过将所述URL集中的所有URL提取检测规则得到检测规则库。
步骤S204:根据所述检测规则库中的检测规则,从所述流量数据中获得所述检测规则对应的键值,以得到流量数据中的信息点。
在具体实施中,所述根据所述检测规则库中的检测规则,从所述流量数据中获得所述检测规则对应的键值,可以包括:
将所述检测规则转换成第二正则表达式;
从所述流量数据中获得所述检测规则对应的键值,以获得流量数据中的信息点。
在具体实施中,可以将所述检测规则库中所述域名不同,且所述路径、关键字和键值均相同的检测规则进行合并。这样可以使得检测规则更加通用,越少越通用的检测规则可以提高探测信息点的效率。
需要说明的是,由于流量数据来自于不同的应用,不同的服务商,不同的协议,所以通过本发明实施例获得的信息点必然存在不同的标准。因此需要对检测到的信息点进行归一化操作,统一数据的表示后在进行使用。
本发明实施例的技术方案将所掌握的信息量较少的实例来进行初次探测,以此获得关键字形成关键字字典表,再通过将所述关键字字典表中的关键字回到流量中进行二次探测,则可以获取以所述关键字为参数名的对应的所有的键值,即参数值,从而获得更多的信息点,相比现有技术,本发明实施例的技术方案实现了以较少的信息获取流量数据中较多的信息点,突破了对知识点掌握程度带来的限制,提高了信息点的获取量。
进一步地,本发明实施例通过形成检测规则,使用检测规则中的域名和路径可以快速高效地提取所要探测的信息点,提高提取信息点的效率。
在具体实施中,可以对本发明实施例从流量数据探测信息点的方法进行验证。例如可以根据自身使用应用软件的情况,在提取后的数据中进行查找是否存在相符的信息。又如,可以通过流量抓包工具截获流量来验证本技术方案的提取信息点方法的正确性,具体可以通过保证用来测试的移动设备,与用来测试的个人电脑设备处于同一个局域网,使用个人电脑打开抓包工具,将HTTP代理改成个人电脑设备,使得移动设备发出的request(客户端所发出的请求),以及response(服务器对客户端请求之响应)都通过个人电脑端的代理,这样可以看到流量信息在传输过程中的流转,抽样一些检测规则,在移动设备上打开这些检测规则对应的应用,查看个人电脑端捕捉到的HTTP日志信息是否跟通过本发明实施例的方法总结整理出来的检测规则一致。
图3是本发明实施例中的一种流量数据中信息点的提取装置的结构示意图。如图所示的流量数据中信息点的提取装置30,可以包括:
URL集获取单元301,适于根据已知的URL中的键值相关信息从所述流量数据中获取包含所述键值的URL集;其中,所述URL包括关键字和键值;
关键字字典表形成单元302,适于从所述URL集中提取URL对应的所述关键字,每条URL对应一组关键字,得到关键字字典表;
第一信息点获取单元303,适于将所述关键字字典表中的每组关键字作为探测关键字,从所述流量数据中获取包含所述探测关键字的URL的键值,以获得流量数据中的信息点。
在具体实施中,所述URL集获取单元301,适于将所述已知URL中的键值相关信息转换成第一正则表达式,使用所述第一正则表达式从所述流量数据中获取包含所述键值的URL集。
在具体实施中,所述流量数据中信息点的提取装置30,还可以包括:
检测规则形成单元304,适于根据所述URL集中的每一组关键字,获得对应的URL的域名和路径,形成一条检测规则,得到检测规则库;
第二信息点获取单元305,适于根据所述检测规则库中的检测规则,从所述流量数据中获得所述检测规则对应的键值,以获得流量数据中的信息点。
在具体实施中,所述第二信息点获取单元305,适于:将所述检测规则转换成第二正则表达式;从所述流量数据中获得所述检测规则对应的键值,以得到流量数据中的信息点。
在具体实施中,所述流量数据中信息点的提取装置30,还可以包括合并单元306,适于将所述检测规则库中所述域名不同,且所述路径、关键字和键值均相同的检测规则进行合并。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于以计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
Claims (10)
1.一种流量数据中信息点的提取方法,其特征在于,包括:
根据已知的URL中的键值相关信息从所述流量数据中获取包含所述键值的URL集;其中,所述URL包括关键字和键值;
从所述URL集中提取URL对应的所述关键字,每条URL对应一组关键字,得到关键字字典表;
将所述关键字字典表中的每组关键字作为探测关键字,从所述流量数据中获取包含所述探测关键字的URL的键值,以获得流量数据中的信息点。
2.根据权利要求1所述的流量数据中信息点的提取方法,其特征在于,所述根据已知的URL中的键值相关信息从所述流量数据中获取包含所述键值的URL集,包括:
将所述已知URL中的键值相关信息转换成第一正则表达式;
使用所述第一正则表达式从所述流量数据中获取包含所述键值的URL集。
3.根据权利要求1或2所述的流量数据中信息点的提取方法,其特征在于,还包括:
获取所述URL集中每条URL的域名和路径,并根据所述URL集中每条URL对应的关键字、域名和路径,形成一条检测规则,得到检测规则库;
根据所述检测规则库中的检测规则,从所述流量数据中获得所述检测规则对应的键值,以得到流量数据中的信息点。
4.根据权利要求3所述的流量数据中信息点的提取方法,其特征在于,所述根据所述检测规则库中的检测规则,从所述流量数据中获得所述检测规则对应的键值,以得到流量数据中的信息点,包括:
将所述检测规则转换成第二正则表达式;
从所述流量数据中获得所述检测规则对应的键值,以获得流量数据中的信息点。
5.根据权利要求3所述的流量数据中信息点的提取方法,其特征在于,还包括:将所述检测规则库中所述域名不同,且所述路径、关键字和键值均相同的检测规则进行合并。
6.一种流量数据中信息点的提取装置,其特征在于,包括:
URL集获取单元,适于根据已知的URL中的键值相关信息从所述流量数据中获取包含所述键值的URL集;其中,所述URL包括关键字和键值;
关键字字典表形成单元,适于从所述URL集中提取URL对应的所述关键字,每条URL对应一组关键字,得到关键字字典表;
第一信息点获取单元,适于将所述关键字字典表中的每组关键字作为探测关键字,从所述流量数据中获取包含所述探测关键字的URL的键值,以获得流量数据中的信息点。
7.根据权利要求6所述的流量数据中信息点的提取装置,其特征在于,所述URL集获取单元,适于将所述已知URL中的键值相关信息转换成第一正则表达式,使用所述第一正则表达式从所述流量数据中获取包含所述键值的URL集。
8.根据权利要求6或7所述的流量数据中信息点的提取装置,其特征在于,还包括:
检测规则形成单元,适于获取所述URL集中每条URL的域名和路径,并根据所述URL集中每条URL对应的关键字域名和路径,形成一条检测规则,得到检测规则库;
第二信息点获取单元,适于根据所述检测规则库中的检测规则,从所述流量数据中获得所述检测规则对应的键值,以获得流量数据中的信息点。
9.根据权利要求8所述的流量数据中信息点的提取装置,其特征在于,所述第二信息点获取单元,适于:
将所述检测规则转换成第二正则表达式;
从所述流量数据中获得所述检测规则对应的键值,以得到流量数据中的信息点。
10.根据权利要求8所述的流量数据中信息点的提取装置,其特征在于,还包括合并单元,适于将所述检测规则库中所述域名不同,且所述路径、关键字和键值均相同的检测规则进行合并。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510843691.6A CN105407016B (zh) | 2015-11-26 | 2015-11-26 | 流量数据中信息点的提取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510843691.6A CN105407016B (zh) | 2015-11-26 | 2015-11-26 | 流量数据中信息点的提取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105407016A CN105407016A (zh) | 2016-03-16 |
CN105407016B true CN105407016B (zh) | 2019-03-26 |
Family
ID=55472279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510843691.6A Active CN105407016B (zh) | 2015-11-26 | 2015-11-26 | 流量数据中信息点的提取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105407016B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101452463A (zh) * | 2007-12-05 | 2009-06-10 | 浙江大学 | 定向抓取页面资源的方法和装置 |
CN101727447A (zh) * | 2008-10-10 | 2010-06-09 | 浙江搜富网络技术有限公司 | 基于url的正则表达式的生成方法和装置 |
CN101937469A (zh) * | 2010-09-15 | 2011-01-05 | 深圳市任子行网络技术股份有限公司 | 视频网站的信息抓取方法 |
CN102571922A (zh) * | 2011-12-13 | 2012-07-11 | 北京星网锐捷网络技术有限公司 | 一种数据流处理方法及装置 |
CN103532944A (zh) * | 2013-10-08 | 2014-01-22 | 百度在线网络技术(北京)有限公司 | 一种捕获未知攻击的方法和装置 |
-
2015
- 2015-11-26 CN CN201510843691.6A patent/CN105407016B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101452463A (zh) * | 2007-12-05 | 2009-06-10 | 浙江大学 | 定向抓取页面资源的方法和装置 |
CN101727447A (zh) * | 2008-10-10 | 2010-06-09 | 浙江搜富网络技术有限公司 | 基于url的正则表达式的生成方法和装置 |
CN101937469A (zh) * | 2010-09-15 | 2011-01-05 | 深圳市任子行网络技术股份有限公司 | 视频网站的信息抓取方法 |
CN102571922A (zh) * | 2011-12-13 | 2012-07-11 | 北京星网锐捷网络技术有限公司 | 一种数据流处理方法及装置 |
CN103532944A (zh) * | 2013-10-08 | 2014-01-22 | 百度在线网络技术(北京)有限公司 | 一种捕获未知攻击的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105407016A (zh) | 2016-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20170053031A1 (en) | Information forecast and acquisition method based on webpage link parameter analysis | |
CN102541937B (zh) | 一种网页信息探测方法及系统 | |
CN104462547B (zh) | 一种可配置的网页数据采集的方法及系统 | |
CN103237094B (zh) | 一种识别用户的方法及装置 | |
CN108763274B (zh) | 访问请求的识别方法、装置、电子设备及存储介质 | |
CN102436564A (zh) | 一种识别被篡改网页的方法及装置 | |
CN107046586A (zh) | 一种基于类自然语言特征的算法生成域名检测方法 | |
Jayamalini et al. | Research on web data mining concepts, techniques and applications | |
CN111224923B (zh) | 一种仿冒网站的检测方法、装置及系统 | |
CN105721519B (zh) | 一种网页数据采集方法、装置及系统 | |
US9336316B2 (en) | Image URL-based junk detection | |
CN102654861A (zh) | 网页抽取准确性计算方法及系统 | |
CN104202418B (zh) | 为内容提供商推荐商业的内容分发网络的方法和系统 | |
CN104636386A (zh) | 信息监控方法及装置 | |
Han et al. | Log analysis of academic digital library: user query patterns | |
CN103823753B (zh) | 一种面向网页内容无障碍检测的网页抽样方法 | |
CN105407016B (zh) | 流量数据中信息点的提取方法及装置 | |
CN109241483B (zh) | 一种基于域名推荐的网站发现方法和系统 | |
CN104281710A (zh) | 一种网络数据挖掘方法 | |
CN103312584A (zh) | 一种在网络社区中发布信息的方法与设备 | |
CN104021143A (zh) | 一种记录网页访问行为的方法及装置 | |
JP6727097B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
Comber et al. | Semantic analysis of citizen sensing, crowdsourcing and VGI | |
Kumar | Web impact factor analysis for deemed universities in Andhra Pradesh | |
CN111191126B (zh) | 一种基于关键词的科技成果精准推送方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |