CN104640128A - 数据采集方法及装置 - Google Patents
数据采集方法及装置 Download PDFInfo
- Publication number
- CN104640128A CN104640128A CN201410843466.8A CN201410843466A CN104640128A CN 104640128 A CN104640128 A CN 104640128A CN 201410843466 A CN201410843466 A CN 201410843466A CN 104640128 A CN104640128 A CN 104640128A
- Authority
- CN
- China
- Prior art keywords
- http data
- data
- received
- user
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
本发明实施例公开了数据采集方法及装置,应用于WLAN设备中,所述WLAN设备包括EPON模块和WiFi模块,其中,所述EPON模块采集用户的HTTP数据,并转发给WiFi模块;WiFi模块对所述HTTP数据进行过滤后,存储过滤后的HTTP数据,最后将所存储的HTTP数据发送给大数据服务器,以使大数据服务器利用所述HTTP数据分析用户的上网信息。该方法采用双模设计,即EPON模块采集用户的HTTP数据,WiFi模块处理所述HTTP数据并上报给大数据服务器,从而解决传统方法导致的CPU负载过重的问题,避免WLAN设备断网的现象发生,进而保证用户的网络连接稳定。
Description
技术领域
本发明涉及无线网络通信技术领域,特别是涉及一种数据采集方法及装置。
背景技术
随着无线网络通信技术的发展,无线网络成为当前网络通信的重要分支。而无线网络中光纤网络以其传输容量大、传输距离远、抗干扰能力强等优点成为无线网络发展的主要趋势。在光纤网络中,EPON(Ethernet Passive Optical Network,以太网无源光网络)是基于以太网的PON(Passive Optical Network:无源光纤网络)技术,在以太网之上提供多种业务。
无线终端(例如,智能手机、平板电脑、笔记本电脑等)需要通过WLAN(WirelessLocal Area Networks,无线局域网络)设备(例如,无线AP(Access Point,无线接入点))接入无线网络。无线终端接入无线网络后,发送的数据需要EPON模块将所述数据由电信号转换成光信号,并进行相应的处理后发送给以太网。以太网返回的数据需要由EPON模块转换成电信号转发给无线终端。
用户上网的数据都需要通过WLAN设备传输,因此,可以通过WLAN设备采集用户上网的数据。传统的做法是,由EPON模块对用户上网数据进行采集和处理,而且,EPON模块上还运行有应用管理程序(例如,以太网交换芯片管理程序、各种二层交换协议等),以及处理DBA(Dynamic Bandwidth Allocation,动态带宽分配)报文,这样会导致EPON模块的负载较大,进而导致WLAN设备断网,导致用户断网。由上述内容可知,传统的数据采集方式加重了EPON模块的负载,从而导致用户的网络连接不稳定。
发明内容
本发明实施例中提供了一种数据采集方法及装置,以解决现有技术中的EPON模块负载过重的问题。
为了解决上述技术问题,本发明实施例公开了如下技术方案:
第一方面,提供一种数据采集方法,应用于无线局域网络WLAN设备中,所述WLAN设备包括以太网无源光网络EPON模块和无线保真WiFi模块,所述方法包括:
所述EPON模块采集用户的超文本传输协议HTTP数据,并将所述HTTP数据发送给所述WiFi模块;
所述WiFi模块接收所述HTTP数据,并对所接收的HTTP数据进行过滤,过滤掉属于同一个用户的重复的HTTP数据;
所述WiFi模块存储过滤后的HTTP数据,并将已存储的HTTP数据发送给大数据服务器,以使所述大数据服务器利用已存储的HTTP数据分析用户的上网信息。
可选地,所述WiFi模块对所接收的HTTP数据进行过滤,包括:
获取所接收的HTTP数据对应的用户信息,所述用户信息至少包括用户的介质访问控制MAC地址;
根据所接收的HTTP数据对应的用户信息,以及已存储的所接收的HTTP数据所属用户的HTTP数据,判断所接收的HTTP数据是否是重复数据;
当所接收的HTTP数据不是重复数据时,将所接收的HTTP数据作为过滤后的HTTP数据进行存储;
当所接收的HTTP数据是重复数据时,丢弃所接收的HTTP数据。
可选地,所述WiFi模块根据所接收的HTTP数据对应的用户信息,判断所接收的HTTP数据是否是重复数据,包括:
判断已存储的HTTP数据对应的用户信息中是否包含所接收的HTTP数据对应的用户信息;
当已存储的HTTP数据对应的用户信息中不包含所接收的HTTP数据对应的用户信息时,确定所接收的HTTP数据不是重复数据;
当已存储的HTTP数据对应的用户信息中包含所接收的HTTP数据对应的用户信息时,判断所接收的HTTP数据所属用户对应的已存储的HTTP数据中是否包含所接收的HTTP数据;
当所述用户的已存储的HTTP数据中包含所接收的HTTP数据时,确定所接收的HTTP数据是重复数据;
当所述用户的已存储的HTTP数据中不包含所接收的HTTP数据时,确定所接收的HTTP数据不是重复数据。
可选地,所述WiFi模块将已存储的HTTP数据发送给大数据服务器,包括:
按照第一预设周期,分别将所存储的每个用户对应的全部HTTP数据发送给大数据服务器,并删除发送给大数据服务器的HTTP数据。
可选地,所述WiFi模块将已存储的HTTP数据发送给大数据服务器包括:
当所接收的HTTP数据不是重复数据时,将所接收的HTTP数据发送给所述大数据服务器,并按照第二预设周期,清除已存储的全部用户对应的HTTP数据。
第二方面,一种数据采集装置,应用于无线局域网WLAN设备中,所述WLAN设备包括以太网无源光网络EPON模块和无线保真WiFi模块;
所述EPON模块包括:采集模块和第一发送模块;
所述采集模块,用于采集用户的超文本传输协议HTTP数据;
所述第一发送模块,用于将所述HTTP数据发送给所述WiFi模块;
所述WiFi模块包括:接收模块、过滤模块、存储模块和第二发送模块;
所述接收模块,用于接收所述第一发送模块发送的HTTP数据;
所述过滤模块,用于对所接收的HTTP数据进行过滤,过滤掉属于同一个用户的重复的HTTP数据;
所述存储模块,用于存储过滤后的HTTP数据;
所述第二发送模块,用于将已存储的HTTP数据发送给大数据服务器,以使所述大数据服务器利用所述已存储的HTTP数据分析用户的上网信息。
可选地,所述过滤模块,包括:
第一获取子模块,用于获取所接收的HTTP数据对应的用户信息,所述用户信息至少包括用户的介质访问控制MAC地址;
第一判断子模块,用于根据所接收的HTTP数据对应的用户信息,以及已存储的所接收的HTTP数据所属用户的HTTP数据,判断所接收的HTTP数据是否是重复数据;当所接收的HTTP数据不是重复数据时,控制所述存储模块将所接收的HTTP数据作为过滤后的HTTP数据进行存储;
丢弃子模块,用于当所接收的HTTP数据是重复数据时,丢弃所接收的HTTP数据。
可选地,所述第一判断子模块,包括:
第二判断子模块,用于判断已存储的HTTP数据对应的用户信息中是否包含所接收的HTTP数据对应的用户信息;
第一确定子模块,用于当已存储的HTTP数据对应的用户信息中不包含所接收的HTTP数据对应的用户信息时,确定所接收的HTTP数据不是重复数据;
第三判断子模块,用于当已存储的HTTP数据对应的用户信息中包含所接收的HTTP数据对应的用户信息时,判断所接收的HTTP数据所属用户对应的已存储的HTTP数据中是否包含所接收的HTTP数据;
第二确定子模块,用于当所述用户的已存储的HTTP数据中包含所接收的HTTP数据时,确定所接收的HTTP数据是重复数据;
第三确定子模块,用于当所述用户的已存储的HTTP数据中不包含所接收的HTTP数据时,确定所接收的HTTP数据不是重复数据。
可选地,所述第一发送模块,具体用于:
按照第一预设周期,分别将所存储的每个用户对应的全部HTTP数据发送给大数据服务器,并删除发送给大数据服务器的HTTP数据。
可选地,所述WiFi模块将已存储的HTTP数据发送给大数据服务器包括:
当所接收的HTTP数据不是重复数据时,将所接收的HTTP数据发送给所述大数据服务器,并按照第二预设周期,清除已存储的全部用户对应的HTTP数据。
由以上技术方案可见,本发明实施例提供的数据采集方法及装置,应用于WLAN设备中,所述WLAN设备包括EPON模块和WiFi(Wireless-Fidelity,无线保真)模块,其中,所述EPON模块采集用户的HTTP(Hypertext transfer protocol,超文本传输协议)数据,并转发给WiFi模块;WiFi模块对所述HTTP数据进行过滤后,存储过滤后的HTTP数据,最后将所存储的HTTP数据发送给大数据服务器,以使大数据服务器利用所述HTTP数据分析用户的上网信息。该方法采用双模设计,即EPON模块采集用户的HTTP数据,WiFi模块处理所述HTTP数据并上报给大数据服务器,从而解决传统方法导致的CPU负载过重的问题,避免WLAN设备断网的现象发生,进而保证用户的网络连接稳定。而且,WiFi模块在向大数据服务器发送HTTP数据时,过滤掉属于同一个用户的重复数据,避免上报重复的数据,从而节省了系统资源。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种数据采集方法的流程示意图;
图2为本发明实施例一种RPC报文的消息结构示意图;
图3为本发明实施例所述RPC报文的消息头的消息结构示意图;
图4为本发明实施例一种步骤S110的流程示意图;
图5为本发明实施例一种过滤HTTP数据的流程示意图;
图6为本发明实施例一种步骤S122的流程示意图;
图7为本发明实施例一种大数据报文的消息结构示意图;
图8为本发明实施例一种数据采集装置的结构示意图;
图9为本发明实施例一种过滤模块的结构示意图;
图10为本发明实施例一种第一判断子模块的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
参见图1,为本发明实施例提供的一种数据采集方法的流程示意图,该方法应用于WLAN设备中,所述WLAN设备包括EPON模块和WiFi模块,其中,所述EPON模块包括对报文进行处理的数据处理模块(例如,芯片CS8032)和数据传输模块(例如,EPONTransceiver);本实施例中的所述WiFi模块可以通过芯片AR9342实现。
如图1所示,所述数据采集方法可以包括以下步骤:
S110,EPON模块采集用户的HTTP数据,并将所述HTTP数据发送给所述WiFi模块。
用户(无线终端)上网过程中产生的所有报文通过WiFi模块发送给EPON模块,然后,由EPON模块转发给OLT(Optical Line Terminal,光线路终端),具体的,可以通过EPON模块中的芯片CS8032对接收到的报文进行处理,然后通过EPON Transceiver模块将处理后的报文发送给OLT,再由OLT发送给路由器,最后发送到以太网。与此同时,EPON模块还可以采集用户上网过程中产生的HTTP数据。
可选地,EPON模块可以从所接收的报文中获取用户上网过程产生的HTTP数据,然后,再将所述HTTP数据发送给WiFi模块进行处理。
在本申请实施例中,EPON模块使用操作系统eCos,而WiFi模块使用操作系统Linux,两个模块所使用的操作系统不同,因此,EPON模块采集到HTTP数据后,通过RPC(RemoteProcedure Call Protocol,远程过程调用协议)报文把HTTP数据发送给WiFi模块。
S120,WiFi模块接收所述HTTP数据,并对所接收的HTTP数据进行过滤,过滤掉属于同一用户的重复的HTTP数据。
WiFi模块创建一个接收线程,用来接收EPON模块发送的RPC报文,WiFi模块接收到RPC报文后,从RPC报文中提取出HTTP数据。获取该HTTP数据所属的用户信息,然后判断所接收的HTTP数据是否是该用户的重复数据,如果接收到HTTP数据是重复数据,则丢弃所述HTTP数据;如果所接收的HTTP数据不是重复数据,则执行步骤S130。
S130,WiFi模块存储过滤后的HTTP数据,并将已存储的HTTP数据发送给大数据服务器,以使所述大数据服务器利用已存储的HTTP数据分析用户的上网信息。
大数据服务器用于根据用户的HTTP数据分析用户的上网信息。WiFi模块将过滤后的HTTP数据发送给EPON模块,再由EPON模块发送给OLT,然后,由OLT发送给路由器,最终由路由器发送给构建于以太网上的大数据服务器。
大数据服务器接收到HTTP数据后,把HTTP数据上传到指定的路径,数据分析服务器定期从指定路径读取HTTP数据从而分析用户的上网信息,进而得知用户的上网行为(例如,用户上网时是喜欢浏览新闻还是购物)可以根据用户的上网行为有目标地推送广告。
在本申请的一个实施例中,WiFi模块可以在确定所接收的HTTP数据不是该用户的重复数据后,存储所述HTTP数据,并立即将所接收的HTTP数据发送给大数据服务器。此种方式,按照第二预设周期清除已经存储的全部用户的HTTP数据。
在本申请的另一个实施例中,WiFi模块确定所接收的HTTP数据不是该用户的重复数据后,存储所述HTTP数据。并按照第一预设周期,将已存储的HTTP数据上报给大数据服务器,同时,清除已存储的全部用户对应的HTTP数据。
当WiFi模块中的接收线程启动后,计时器开始计时,同时,将HTTP数据存储到所属用户的监控信息链表中。当计时达到第一预设周期(例如,10s)后检测监控信息链表中是否存储有HTTP数据,如果监控信息链表中没有存储HTTP数据,则不会向大数据服务器上报数据;如果监控信息链表中存储有HTTP数据则将存储的所有用户的所有HTTP数据上报给大数据服务器。数据上报完成后,清空监控信息链表。
其中,当计时器达到第一预设周期时,WiFi模块遍历用户列表中的每一个用户,然后,在监控信息链表中遍历每一个用户的每一条HTTP数据,将属于同一个用户的HTTP数据以单独报文的形式上报给大数据服务器。
周期性发送HTTP数据与实时发送HTTP数据相比,能够节省向大数据服务器发送HTTP数据所占用的系统资源,例如,CPU资源、内存资源等。
本实施例提供的数据采集方法,应用于WLAN设备中,所述WLAN设备包括EPON模块和WiFi模块,其中,所述EPON模块采集用户的HTTP数据,并转发给WiFi模块;WiFi模块对所述HTTP数据进行过滤后,存储过滤后的HTTP数据,最后将所存储的HTTP数据发送给大数据服务器,以使大数据服务器利用所述HTTP数据分析用户的上网信息。该方法采用双模设计,即EPON模块采集用户的HTTP数据,WiFi模块处理所述HTTP数据并上报给大数据服务器,从而解决传统方法导致的CPU负载过重的问题,避免WLAN设备断网的现象发生,进而保证用户的网络连接稳定。而且,WiFi模块在向大数据服务器发送HTTP数据时,过滤掉属于同一个用户的重复数据,避免上报重复的数据,从而节省了系统资源。
请参见图2,示出了本申请实施例RPC报文的消息结构示意图。如图2所示,RPC报文结构从左至右依次为:目的MAC地址(dst mac)、源MAC地址(src mac)、以太网协议类型(eth type)、RPC消息头(rpc header)和有效负载。
eth type:以太网协议类型,可以暂定为0xFEFE;
有效负载:EPON模块采集到的HTTP数据。
图3所示为所述RPC消息头的消息结构示意图,RPC消息头从左至右依次为:RPC消息头版本(bHeadVersion)、标识信息(bFlags)、消息头长度(bHeadLen)、消息体长度(usOperandLen)、目的节点地址(rpcAddrDst)、源节点地址(rpcAddrSrc)、RPC操作码(usOpcode)、RPC返回码(usResult)和RPC消息的唯一标识号(ulSerialNo)。
bHeadVersion:当前版本为1。
bFlags:用于标识该消息是RPC请求,还是RPC应答;RPC应答用1表示;RPC请求用0表示;
bHeadLen:表示消息头的长度。
usOperandLen:表示消息体的长度。
rpcAddrDst:表示目的节点的地址,本实施例中目的节点是WiFi模块。
rpcAddrSrc:源节点地址,本实施例中源节点是EPON模块。
usOpcode:表示RPC操作码,本实施例中,发送采集到的HTTP信息时,操作码为3。
usResult:表示RPC返回码,RPC请求方填0;RPC应答方填写对该请求的处理结果所对应的返回码。
ulSerialNo:表示RPC消息的唯一标识号(1-0x7FFFFFFF),由RPC请求的发送者生成(不能生成0)。
WiFi模块接收到EPON模块发送的RPC报文后,判断该RPC报文是否有效,具体的,判断RPC报文中的bHeadVersion是否正确,或者,判断bHeadLen是否有效,如果其中任一项异常,则认为RPC报文无效,丢弃该RPC报文。
报文的消息头是为了规范报文的发送方和接收方,便于处理异常报文,以及分类处理不同类型的RPC报文。RPC报文中的有效负载部分才是HTTP数据,因此,当判断出接收到的RPC报文有效时,去除RPC报文的消息头获得RPC报文携带的HTTP数据,然后对获得的HTTP数据进行处理。
如图4所示,在图1所示实施例中的步骤S110可以包括以下步骤:
S111,EPON模块获取用户上网过程产生的报文。
用户上网过程中产生的所有报文通过WiFi模块发送给EPON模块。
S112,EPON模块从所述报文中识别出HTTP报文。
EPON模块接收到用户上网过程所产生的报文后,通过ACL(Access Control List,访问控制列表)过滤规则从所接收的报文中识别出HTTP报文。其中,ACL过滤规则是基于硬件的过滤方式。
S113,EPON模块从所述HTTP报文中提取有效信息,得到所述HTTP数据。
提取出HTTP报文后,从HTTP报文中提取有效信息,本实施例中,所述有效信息可以包括:用户的IP地址、物理端口、用户访问的网站等信息。
EPON模块从所接收的HTTP报文中提取有效信息后,再将HTTP报文中的有效信息发送给WiFi模块,无需发送除有效信息之外的其它信息,节省了发送HTTP数据占用的系统资源。
请参见图5,示出了本申请实施例一种过滤HTTP数据的方法流程示意图,该方法应用于WiFi模块中,用于过滤掉属于同一个用户的重复的HTTP数据,此过滤方法是软件过滤方式。
如图5所示,所述方法可以包括以下步骤:
S121,获取所接收的HTTP数据对应的用户信息,所述用户信息包括用户的MAC(MediaAccess Control,介质访问控制)地址。
HTTP数据中的有效信息包括用户的MAC地址、用户的IP地址、目的IP地址、目的端口、URL(Uniform Resource Locator,统一资源定位器)长度、URL的具体内容。
上述的有效信息中,只有用户的MAC是唯一不变的,而且每一个用户的MAC均不相同,所以根据用户的MAC来确定接收到的HTTP数据属于哪个用户。WiFi模块接收到EPON模块发送的HTTP数据后,获取该HTTP数据所属用户的MAC地址等用户信息。
S122,根据所接收的HTTP数据对应的用户信息,以及已存储的所接收的HTTP数据所属用户的HTTP数据,判断所接收的HTTP数据是否是重复数据。如果否,则执行步骤S123;如果是,执行步骤S124。
用户的每一条上网记录都是HTTP数据,如果用户两次访问的网站相同,相应的产生的HTTP数据也相同,如果用户的每一条上网记录都上报,将会占用过多的系统资源,因此,为了节省系统资源,只向大数据服务器上报不重复的HTTP数据。
如图6所示,步骤S122可以包括以下步骤:
S1221,判断已存储的HTTP数据对应的用户信息中是否包含所接收的HTTP数据对应的用户信息;如果否,则执行步骤S1222;如果是,则执行步骤S1223。
在本申请的一个实施例中,WiFi模块接收到HTTP数据后,先从HTTP数据中提取用户的MAC地址,从保存有用户的MAC地址的用户列表中查询是否包含该MAC地址。具体的,在存储HTTP数据时,可以为每个MAC地址对应一个索引号,判断是否有与所述MAC地址相匹配的索引号,如果没有匹配的索引号,则表明所述用户列表中不包含该MAC地址,即该MAC地址对应的用户是新用户,并将当前的最大索引号加1作为该MAC地址对应的索引号,将该MAC地址及对应的。如果有匹配的索引号,表明监控信息链表中已经存储有该MAC地址对应的用户的HTTP数据,继续执行步骤S1223。
S1222,确定所接收的HTTP数据不是重复数据。
如果用户列表中不包含所接收的HTTP数据对应的MAC地址,则表明该MAC地址对应的用户是新用户,则确定该HTTP数据不是重复数据。
S1223,判断所接收的HTTP数据对应用户的已存储的HTTP数据中是否包含所接收的HTTP数据;如果是,则执行步骤S1224;如果否,则执行步骤S1222,确定所接收的HTTP数据不是重复数据。
根据与所述MAC地址相匹配的索引号判断该用户保存在监控信息链表中的所有HTTP数据是否与刚收到的HTTP数据重复,具体的,判断HTTP数据所包含的目的IP、目的端口、URL长度、URL这几项是否相同。
S1224,确定所接收的HTTP数据是重复数据。
如果监控信息链表中保存的该用户的HTTP数据与接收到的HTTP数据所包含的上述项都相同,则确定接收到的HTTP数据是重复数据;如果存在至少一项不相同,则确定所接收的HTTP数据不是重复数据。
S123,将所接收的HTTP数据作为过滤后的HTTP数据进行存储。
将所接收的HTTP数据打包成节点数据,添加到所属用户的监控信息链表中。用户的一条HTTP数据(即,一条上网记录)打包成一个节点数据,每个用户可能对应多个节点数据。
S124,丢弃所接收的HTTP数据。
本实施例提供的数据过滤方式,首先判断已存储的HTTP数据中是否存在与所接收的HTTP数据属于同一用户的HTTP数据,如果不存在,则所接收的HTTP数据不是重复数据;如果存在,则继续判断已存储的该用户的HTTP数据中是否包含与所接收的HTTP数据完全相同的数据,如果不存在,则所接收的HTTP数据不是重复数据。
WiFi模块以UDP(User Datagram Protocol,用户数据报协议)报文向大数据服务器发送HTTP数据,其中,UDP报文的数据部分封装有大数据报文,如图7所示,所述大数据报文包括消息头(head)和消息体(body);
所述消息头包括:协议版本号(version)、消息头长度(head_len)、预留位(reserved)、消息数(msg_num)、响应结果(result)、消息体长度(body_len)、序列号(serialNo)和校验码(fcs);
version:表示协议的版本,各处理模块必须校验该版本号,针对不同的版本号进行不同的处理,目前暂定为1。
head_len:表示消息头的长度,长度为14个字节。
reserved:留待后续扩展使用,目前暂定为0。
msg_num:消息数,用于表征一个报文中包含的不同类型的数据的数量,大数据报文中的数据类型只有一种。
result:表示响应结果。
body_len:表示消息体的长度。
serialNo:表示序列号,主要用于检测报文是否发送成功。
fcs:表示校验码,暂定为0。
所述消息体(body)包括消息类型(type)、报文内容(value)、消息长度(len);
消息长度(len):表示value的长度;
报文内容(value):表示具体的报文内容;
消息类型(type)包含消息类型(msg_type)、源系统(src_sys_id)、目的系统(dst_sys_id)、模块标识(module_id)和命令字(command);
msg_type:表示消息类型,具体的,1—配置,2—命令,3—响应,4—查询,5—通知,6—增加,7—删除,8—修改;大数据报文的msg_type为5;
src_sys_id:消息发送的源系统:1—AP系统,2—support系统,3—EVA系统,4—应用系统;大数据报文的src_sys_id为1;其中,support系统是各种服务器的统称,本实施例中,指大数据服务器。
dst_sys_id:消息发送的目的系统:1—AP系统,2—support系统,3—EVA系统,4—应用系统;大数据报文的dst_sys_id为2;
module_id:表示模块标识,表征该消息属于哪个模块。大数据报文的module_id为2,1—License(许可证)服务器,2—大数据服务器,3—定位服务器。
command:命令字,表示该消息所针对的具体内容。大数据报文的command为1,1—License服务器,2—大数据服务器,3—定位服务器。
报文内容(value)包括以下字段:用户IP地址(sta_ip)、用户MAC地址(sta_mac)、用户标识(userid)、用户设备类型(sta_type)、AP的MAC地址(ap_mac)、用户的上网记录数(record_num)、上报报文长度(blk_len)、目的IP地址(dst_ip)、目的端口(dst_port)、网页访问时间(time_stamp)和用户访问的网址(url)。
sta_ip:用户的IP地址。
sta_mac:用户的MAC地址。
userid:新的用户接入到AP的SSID(Service Set Identifier,服务集标识)时,AP会把用户的MAC地址等信息上报给License服务器,License服务器会返回userid号、用户的设备类型、用户设备的操作系统类型。其中,userid号用来标识不同的用户。
sta type:License服务器返回的设备类型信息,设备类型分为手机、笔记本电脑等。
os type:操作系统类型。
ap_mac:AP的MAC地址信息。
record_num:某个用户的上网记录数,如有3条记录,报文中就会有3组数据,每一组数据都包含blk_len、dst_ip、dst_port、time_stamp、url这种数据,具体见大数据报文格式。一个大数据报文中含有若干组上报内容明细。
blk_len:上报内容的报文长度。
dst_ip:目的IP地址信息。
dst_port:目的端口信息。
time_stamp:用户访问网页的时间。
url:浏览的网址信息。
相应于上述的数据采集方法实施例,本申请还提供了数据采集装置实施例。
请参见图8,示出了本申请实施例提供的一种数据采集装置的结构示意图,该装置应用于WLAN设备中,所述WLAN包括以太网无源光网络EPON模块和无线保真WiFi模块;其中,所述EPON模块包括采集模块810和第一发送模块820;所述WiFi模块包括接收模块830、过滤模块840、存储模块850和第二发送模块860。
采集模块810,用于采集用户的超文本传输协议HTTP数据。
在本申请的一个实施例中,所述采集模块810可以包括:第二获取子模块、识别子模块和提取子模块;
所述第二获取子模块,用于获取用户上网过程产生的报文;所述识别子模块,用于从所述报文中识别出HTTP报文;所述提取子模块,用于从所述HTTP报文中提取有效信息,得到所述HTTP数据。
第一发送模块820,用于将所述HTTP数据发送给所述WiFi模块。
接收模块830,用于接收所述第一发送模块820发送的HTTP数据。
过滤模块840,用于对所接收的HTTP数据进行过滤,过滤掉属于同一个用户的重复的HTTP数据。
存储模块850,用于存储过滤后的HTTP数据。
第二发送模块860,用于将已存储的HTTP数据发送给大数据服务器,以使所述大数据服务器利用所述过滤后的HTTP数据分析用户的上网信息。
在本申请的一个实施例中,第二发送模块860可以按照第一预设周期,分别将所存储的每个用户对应的全部HTTP数据发送给大数据服务器,并删除发送给大数据服务器的HTTP数据。
在本申请的另一个实施例中,所述第二发送模块可以当过滤模块过滤掉属于同一个用户的重复的HTTP数据后,实时发送所接收的HTTP数据,并且按照第二预设周期清除存储模块内存储的HTTP数据。
本实施例提供的数据采集装置,应用于WLAN设备中,所述WLAN设备包括EPON模块和WiFi模块,其中,所述EPON模块包括采集模块和第一发送模块;WiFi模块包括接收模块、过滤模块、存储模块和第二发送模块。EPON模块通过采集模块采集用户的HTTP数据,然后由第一发送模块将采集到的HTTP数据转发给WiFi模块;WiFi模块通过接收模块接收所述HTTP数据后,由过滤模块对所述HTTP数据进行过滤,然后由存储模块存储过滤后的HTTP数据,最后由第二发送模块发送给大数据服务器,以使大数据服务器利用所述HTTP数据分析用户的上网信息。该装置采用双模设计,即EPON模块采集用户的HTTP数据,WiFi模块处理所述HTTP数据并上报给大数据服务器,从而解决传统方法导致的CPU负载过重的问题,避免WLAN设备断网的现象发生,进而保证用户的网络连接稳定。而且,WiFi模块在向大数据服务器发送HTTP数据时,过滤掉属于同一个用户的重复数据,避免上报重复的数据,从而节省了系统资源。
请参见图9,示出了本申请实施例一种过滤模块的结构示意图。如图9所示,所述过滤模块840包括:第一获取子模块841、第一判断子模块842和丢弃子模块843。
第一获取子模块841,用于获取所接收的HTTP数据对应的用户信息,所述用户信息至少包括用户的介质访问控制MAC地址;
第一判断子模块842,用于根据所接收的HTTP数据对应的用户信息,以及已存储的所接收的HTTP数据所属用户的HTTP数据,判断所接收的HTTP数据是否是重复数据;当所接收的HTTP数据不是重复数据时,控制所述存储模块将所接收的HTTP数据作为过滤后的HTTP数据进行存储;
丢弃子模块843,用于当所接收的HTTP数据是重复数据时,丢弃所接收的HTTP数据。
请参见图10,示出了本申请实施例一种第一判断子模块的结构示意图,如图10所示,该第一判断子模块842包括:第二判断子模块1001、第一确定子模块1002、第三判断子模块1003、第二确定子模块1004和第三确定子模块1005。
第二判断子模块1001,用于判断已存储的HTTP数据对应的用户信息中是否包含所接收的HTTP数据对应的用户信息;
第一确定子模块1002,用于当已存储的HTTP数据对应的用户信息中不包含所接收的HTTP数据对应的用户信息时,确定所接收的HTTP数据不是重复数据;
第三判断子模块1003,用于当已存储的HTTP数据对应的用户信息中包含所接收的HTTP数据对应的用户信息时,判断所接收的HTTP数据所属用户对应的已存储的HTTP数据中是否包含所接收的HTTP数据;
第二确定子模块1004,用于当所述用户的已存储的HTTP数据中包含所接收的HTTP数据时,确定所接收的HTTP数据是重复数据;
第三确定子模块1005,用于当所述用户的已存储的HTTP数据中不包含所接收的HTTP数据时,确定所接收的HTTP数据不是重复数据。
本实施例提供的数据过滤方式,首先判断已存储的HTTP数据中是否存在与所接收的HTTP数据属于同一用户的HTTP数据,如果不存在,则所接收的HTTP数据不是重复数据;如果存在,则继续判断已存储的该用户的HTTP数据中是否包含与所接收的HTTP数据完全相同的数据,如果不存在,则所接收的HTTP数据不是重复数据。
通过以上的方法实施例的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:只读存储器(ROM)、随机存取存储器(RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种数据采集方法,应用于无线局域网络WLAN设备中,其特征在于,所述WLAN设备包括以太网无源光网络EPON模块和无线保真WiFi模块,所述方法包括:
所述EPON模块采集用户的超文本传输协议HTTP数据,并将所述HTTP数据发送给所述WiFi模块;
所述WiFi模块接收所述HTTP数据,并对所接收的HTTP数据进行过滤,过滤掉属于同一个用户的重复的HTTP数据;
所述WiFi模块存储过滤后的HTTP数据,并将已存储的HTTP数据发送给大数据服务器,以使所述大数据服务器利用已存储的HTTP数据分析用户的上网信息。
2.根据权利要求1所述的方法,其特征在于,所述WiFi模块对所接收的HTTP数据进行过滤,包括:
获取所接收的HTTP数据对应的用户信息,所述用户信息至少包括用户的介质访问控制MAC地址;
根据所接收的HTTP数据对应的用户信息,以及已存储的所接收的HTTP数据所属用户的HTTP数据,判断所接收的HTTP数据是否是重复数据;
当所接收的HTTP数据不是重复数据时,将所接收的HTTP数据作为过滤后的HTTP数据进行存储;
当所接收的HTTP数据是重复数据时,丢弃所接收的HTTP数据。
3.根据权利要求2所述的方法,其特征在于,所述WiFi模块根据所接收的HTTP数据对应的用户信息,判断所接收的HTTP数据是否是重复数据,包括:
判断已存储的HTTP数据对应的用户信息中是否包含所接收的HTTP数据对应的用户信息;
当已存储的HTTP数据对应的用户信息中不包含所接收的HTTP数据对应的用户信息时,确定所接收的HTTP数据不是重复数据;
当已存储的HTTP数据对应的用户信息中包含所接收的HTTP数据对应的用户信息时,判断所接收的HTTP数据所属用户对应的已存储的HTTP数据中是否包含所接收的HTTP数据;
当所述用户的已存储的HTTP数据中包含所接收的HTTP数据时,确定所接收的HTTP数据是重复数据;
当所述用户的已存储的HTTP数据中不包含所接收的HTTP数据时,确定所接收的HTTP数据不是重复数据。
4.根据权利要求1所述的方法,其特征在于,所述WiFi模块将已存储的HTTP数据发送给大数据服务器,包括:
按照第一预设周期,分别将所存储的每个用户对应的全部HTTP数据发送给大数据服务器,并删除发送给大数据服务器的HTTP数据。
5.根据权利要求2或3所述的方法,其特征在于,所述WiFi模块将已存储的HTTP数据发送给大数据服务器包括:
当所接收的HTTP数据不是重复数据时,将所接收的HTTP数据发送给所述大数据服务器,并按照第二预设周期,清除已存储的全部用户对应的HTTP数据。
6.一种数据采集装置,应用于无线局域网WLAN设备中,其特征在于,所述WLAN设备包括以太网无源光网络EPON模块和无线保真WiFi模块;
所述EPON模块包括:采集模块和第一发送模块;
所述采集模块,用于采集用户的超文本传输协议HTTP数据;
所述第一发送模块,用于将所述HTTP数据发送给所述WiFi模块;
所述WiFi模块包括:接收模块、过滤模块、存储模块和第二发送模块;
所述接收模块,用于接收所述第一发送模块发送的HTTP数据;
所述过滤模块,用于对所接收的HTTP数据进行过滤,过滤掉属于同一个用户的重复的HTTP数据;
所述存储模块,用于存储过滤后的HTTP数据;
所述第二发送模块,用于将已存储的HTTP数据发送给大数据服务器,以使所述大数据服务器利用所述已存储的HTTP数据分析用户的上网信息。
7.根据权利要求6所述的装置,其特征在于,所述过滤模块,包括:
第一获取子模块,用于获取所接收的HTTP数据对应的用户信息,所述用户信息至少包括用户的介质访问控制MAC地址;
第一判断子模块,用于根据所接收的HTTP数据对应的用户信息,以及已存储的所接收的HTTP数据所属用户的HTTP数据,判断所接收的HTTP数据是否是重复数据;当所接收的HTTP数据不是重复数据时,控制所述存储模块将所接收的HTTP数据作为过滤后的HTTP数据进行存储;
丢弃子模块,用于当所接收的HTTP数据是重复数据时,丢弃所接收的HTTP数据。
8.根据权利要求7所述的装置,其特征在于,所述第一判断子模块,包括:
第二判断子模块,用于判断已存储的HTTP数据对应的用户信息中是否包含所接收的HTTP数据对应的用户信息;
第一确定子模块,用于当已存储的HTTP数据对应的用户信息中不包含所接收的HTTP数据对应的用户信息时,确定所接收的HTTP数据不是重复数据;
第三判断子模块,用于当已存储的HTTP数据对应的用户信息中包含所接收的HTTP数据对应的用户信息时,判断所接收的HTTP数据所属用户对应的已存储的HTTP数据中是否包含所接收的HTTP数据;
第二确定子模块,用于当所述用户的已存储的HTTP数据中包含所接收的HTTP数据时,确定所接收的HTTP数据是重复数据;
第三确定子模块,用于当所述用户的已存储的HTTP数据中不包含所接收的HTTP数据时,确定所接收的HTTP数据不是重复数据。
9.根据权利要求6所述的装置,其特征在于,所述第一发送模块,具体用于:
按照第一预设周期,分别将所存储的每个用户对应的全部HTTP数据发送给大数据服务器,并删除发送给大数据服务器的HTTP数据。
10.根据权利要求7或8所述的装置,其特征在于,所述WiFi模块将已存储的HTTP数据发送给大数据服务器包括:
当所接收的HTTP数据不是重复数据时,将所接收的HTTP数据发送给所述大数据服务器,并按照第二预设周期,清除已存储的全部用户对应的HTTP数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410843466.8A CN104640128B (zh) | 2014-12-30 | 2014-12-30 | 数据采集方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410843466.8A CN104640128B (zh) | 2014-12-30 | 2014-12-30 | 数据采集方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104640128A true CN104640128A (zh) | 2015-05-20 |
CN104640128B CN104640128B (zh) | 2018-03-20 |
Family
ID=53218330
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410843466.8A Active CN104640128B (zh) | 2014-12-30 | 2014-12-30 | 数据采集方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104640128B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113852862A (zh) * | 2021-03-02 | 2021-12-28 | 天翼智慧家庭科技有限公司 | 一种融合用户行为数据采集的方法及系统和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1494268A (zh) * | 2002-10-31 | 2004-05-05 | ��Ϊ��������˾ | 用户网络使用数据的采集方法 |
CN101296525A (zh) * | 2008-06-25 | 2008-10-29 | 山东大学 | 一种融合接入的局端olt装置 |
CN201315588Y (zh) * | 2008-12-04 | 2009-09-23 | 浪潮电子信息产业股份有限公司 | 一种实现epon和无线融合接入的onu设备 |
CN102421062A (zh) * | 2011-12-01 | 2012-04-18 | 中国联合网络通信集团有限公司 | 应用信息推送方法和系统 |
US20120317068A1 (en) * | 2011-06-09 | 2012-12-13 | Thomas Walter Ruf | Method For Generating Rules and Parameters for Assessing Relevance of Information Derived From Internet Traffic |
CN202856742U (zh) * | 2012-09-29 | 2013-04-03 | 广州市中奕通讯设备有限公司 | 具有wifi、蓝牙功能的epon终端 |
-
2014
- 2014-12-30 CN CN201410843466.8A patent/CN104640128B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1494268A (zh) * | 2002-10-31 | 2004-05-05 | ��Ϊ��������˾ | 用户网络使用数据的采集方法 |
CN101296525A (zh) * | 2008-06-25 | 2008-10-29 | 山东大学 | 一种融合接入的局端olt装置 |
CN201315588Y (zh) * | 2008-12-04 | 2009-09-23 | 浪潮电子信息产业股份有限公司 | 一种实现epon和无线融合接入的onu设备 |
US20120317068A1 (en) * | 2011-06-09 | 2012-12-13 | Thomas Walter Ruf | Method For Generating Rules and Parameters for Assessing Relevance of Information Derived From Internet Traffic |
CN102421062A (zh) * | 2011-12-01 | 2012-04-18 | 中国联合网络通信集团有限公司 | 应用信息推送方法和系统 |
CN202856742U (zh) * | 2012-09-29 | 2013-04-03 | 广州市中奕通讯设备有限公司 | 具有wifi、蓝牙功能的epon终端 |
Non-Patent Citations (1)
Title |
---|
张杰 等: "一种融合型光网络单元的设计与实现", 《光通信技术》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113852862A (zh) * | 2021-03-02 | 2021-12-28 | 天翼智慧家庭科技有限公司 | 一种融合用户行为数据采集的方法及系统和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104640128B (zh) | 2018-03-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111294798B (zh) | 一种数据交互的方法、装置、终端设备和介质 | |
CN104301161B (zh) | 业务质量指标的计算方法、计算装置以及通信系统 | |
CN110365793A (zh) | 违规外联监测方法、装置、系统及存储介质 | |
CN103491575A (zh) | 会话感知GTPv1负载平衡 | |
CN102783119A (zh) | 访问控制方法、系统及接入终端 | |
CN102387461A (zh) | 一种移动数据业务推荐方法、装置和系统 | |
CN104394041A (zh) | 访问日志生成方法及装置 | |
US10225358B2 (en) | Page push method, device, server and system | |
CN105517066A (zh) | 一种lte s1-mme接口的海量数据用户识别的方法 | |
CN106067879B (zh) | 信息的检测方法及装置 | |
CN109561167A (zh) | 一种域名解析方法及装置 | |
CN105635329A (zh) | 上网日志生成方法和装置 | |
CN102970391B (zh) | 域名查询处理方法、服务器及系统 | |
CN106162594A (zh) | 基于IPtables的WIFI热点流量统计方法及系统 | |
CN101599857A (zh) | 检测共享接入主机数目的方法、装置及网络检测系统 | |
CN108418696B (zh) | 一种网关计费方法及网关 | |
KR102397346B1 (ko) | 데이터 트래픽을 모니터링하기 위한 방법, 장치 및 시스템 | |
CN104640128A (zh) | 数据采集方法及装置 | |
CN102098328A (zh) | 超文本传输协议http流关联方法和设备 | |
CN103997416A (zh) | 移动终端上网的纠错方法及纠错装置 | |
CN103716804A (zh) | 无线数据通信网的用户网络行为分析方法、装置及系统 | |
CN106972986B (zh) | Idc机房网络质量的检测方法及其系统 | |
CN110972185A (zh) | 数据传输方法及装置 | |
CN113422739B (zh) | 数据传输方法、发送端及数据传输系统 | |
CN105163335B (zh) | 一种网络接入管理方法、服务器、移动终端以及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP02 | Change in the address of a patent holder | ||
CP02 | Change in the address of a patent holder |
Address after: Room 502-1, 5th floor, building 2, No.10 yard, KEGU 1st Street, Daxing District, Beijing 100176 Patentee after: Singularity Xinyuan International Technology Development (Beijing) Co.,Ltd. Address before: 100081, Beijing, Haidian District sorghum Bridge oblique Street No. 34, building 212, room 19 Patentee before: Singularity Xinyuan International Technology Development (Beijing) Co.,Ltd. |