CN111131072B - 一种无埋点数据采集方法、装置及存储介质 - Google Patents

一种无埋点数据采集方法、装置及存储介质 Download PDF

Info

Publication number
CN111131072B
CN111131072B CN201911337431.6A CN201911337431A CN111131072B CN 111131072 B CN111131072 B CN 111131072B CN 201911337431 A CN201911337431 A CN 201911337431A CN 111131072 B CN111131072 B CN 111131072B
Authority
CN
China
Prior art keywords
data
flow
data stream
metadata
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911337431.6A
Other languages
English (en)
Other versions
CN111131072A (zh
Inventor
王芃
魏强
朱玉亭
刘松溪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Haohan Data Technology Co ltd
Original Assignee
Haohan Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Haohan Data Technology Co ltd filed Critical Haohan Data Technology Co ltd
Priority to CN201911337431.6A priority Critical patent/CN111131072B/zh
Publication of CN111131072A publication Critical patent/CN111131072A/zh
Application granted granted Critical
Publication of CN111131072B publication Critical patent/CN111131072B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2483Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/22Parsing or analysis of headers

Abstract

本发明提供了一种无埋点数据采集方法,所述步骤包括:流量预处理,从目的数据源获取第一数据流,应用第一策略对数据流进行筛选,获得第三数据流;流量解析,对第三数据流进行解析,判断第三数据流的特征,对判断结果进行仲裁;流量元数据提取,应用第二策略对第三数据流的特征进行处理,获得第三数据流的元数据。此外,本发明还提供了一种无埋点数据采集装置、设备、存储介质,通过对数据流进行筛选,可以有效减少流量解析过程中的运算压力,从而提高数据采集的效率。

Description

一种无埋点数据采集方法、装置及存储介质
技术领域
本发明涉及计算机技术领域,具体的,涉及一种无埋点数据采集方法、装置以及存储介质。
背景技术
面对海量资讯世界,在越来越多的数据和信息可以从互联网上获得时,对大量数据的采集、分析和深度挖掘同时还可能产生巨大的商机。电商企业、旅游、互联网金融、企业服务的等行业纷纷搭建数据指标体系,构建可以落地精细化运营、指导业务增长的用户画像,对数据规模性、丰富性、准确性、即时性等多方面提出了更多的要求。目前普遍使用数据埋点、网络爬虫等方式完成数据采集。
埋点数据采集具有代码工作量大、实施繁杂,发布后生效时间跨度大,数据时延大,埋点量大导致客户端崩溃等缺点。现阶段无埋点的技术依赖网站或者APP终端技术开发的严谨性与规范性、网络状态、网络口径等因素,并且无法深入到更细、更深的粒度,例如在电商行业中,用户点击“购物车”是一次交互行为,无埋点会忽略用户信息、商品品类等维度信息,若网站设置反爬虫机制,那么基于网络爬虫原理的数据采集的方法将不可用。另外,以上方法无法获的网络服务性能方面的数据,无法感知网络延迟带来的用户体验等问题。
因此,本领域亟需一种无埋点数据采集方法,以解决上述技术问题。
实用新型内容
有鉴于此,本发明的目的在于提供一种无埋点数据采集方法、设备以及存储介质,以解决背景技术中所述的至少一个技术问题。
具体的,本发明的第一方面,提供了一种无埋点数据采集方法,其步骤包括:
流量预处理,从目的数据源获取第一数据流,应用第一策略对数据流进行筛选,获得第三数据流;
流量解析,对第三数据流进行解析,判断第三数据流的特征,对判断结果进行仲裁;
流量元数据提取,应用第二策略对第三数据流的特征进行处理,获得第三数据流的元数据。
采用上述技术方案,通过对数据流进行筛选,可以有效减少流量解析过程中的运算压力,从而提高数据采集的效率。
优选地,所述流量预处理步骤中,还包括步骤,对数据流进行复制,获得第一数据流、第二数据流。
采用上述方案,通过对数据流进行复制,保证了原始数据流不会被后续的操作步骤所影响,改善用户的使用体验。
优选地,采用分光器对数据流进行复制,所述第一数据流与第二数据流中的数据相同。
优选地,所述流量预处理步骤中,还包括步骤,对第三数据流的进行解封装处理,获得第三数据流的标记特征。
优选地,所述流量预处理步骤中,还包括步骤,创建流表,所述流表包括第三数据流的标签信息。
优选地,所述标签信息包括标记特征。
采用上述技术方案,可以通过数据流的标记特征更快速的分辨数据来源,提高了数据采集效率。
优选地,所述标记特征包括五元组特征。
优选地,标签信息包括第三数据流的状态特征。
优选地,所述第三数据流的状态特征包括留存阈值,判断同类第三数据流的再次出现时间是否超过留存阈值,若超过,则将流表中将该第三数据流标签信息删除。
采用上述技术方案,可以在流表中保存已识别的数据流信息,待同类数据流再次出现时,可以直接对数据流进行识别,而不必再次进行解析,提高了数据采集效率。而留存阈值的设置,可以将不常用的数据流排除流表中,减小内存压力,同时也能更好的进行处理资源的分配。
优选地,所述流量解析步骤中,包括对第三数据流中的数据包进行解析。
优选地,所述流量解析步骤中,包括判断第三数据流的特征来源。
优选地,所述标签信息包括第三数据流的识别特征。
优选地,所述流量解析步骤中,还包括步骤,判断第三数据流的识别特征,并将所述识别特征结果更新至流表中。
采用上述技术方案,将数据流的识别特征结果更新至流表中,可以快速的更新流表信息,防止同类数据的再次解析,提高数据采集效率。
优选地,所述流量解析步骤中,应用第二策略对第三数据流的特征进行处理时,采用AC算法。
优选地,所述流量元数据提取步骤中,还包括步骤,对元数据进行分类,获得元数据分类信息,并将第三数据流的元数据与元数据分类信息相匹配。
采用上述技术方案,可以通过对元数据的分类,更高效的找到元数据、处理元数据,提高了数据采集效率。
优选地,所述流量元数据提取步骤中,还包括步骤,应用第三策略对第三数据流的元数据进行处理,获得第一元数据,并将第一元数据进行存储。
优选地,应用第一策略、第二策略或第三策略的方法包括步骤:
接收策略信息,生成第一数组;
生成临时数组,在策略匹配前,将临时数组中所有数据置零;
策略匹配,当策略命中时,更新临时数组中的数据;
判断临时数组与第一数组中的数据是否相同,若相同,则策略命中,若不同,则策略未命中。
采用上述技术方案,可以有效减少匹配策略时cachemiss的次数,提高匹配效率。
本发明的第二方面,本发明提供了一种无埋点数据采集装置,所述装置包括:
流量预处理模块,从目的数据源获取第一数据流,应用第一策略对数据流进行筛选,获得第三数据流;
流量解析模块,对第三数据流进行解析,判断第三数据流的特征,对判断结果进行仲裁;
流量元数据提取模块,应用第二策略对第三数据流的特征进行处理,获得第三数据流的元数据。
优选地,所述流量预处理模块中,还包括数据流复制模块,用于对数据流进行复制,获得第一数据流、第二数据流。
优选地,所述数据流复制模块为分光器。
优选地,所述流量预处理模块中,还包括解封装模块,用于对第三数据流的进行解封装处理,获得第三数据流的标记特征。
优选地,所述流量预处理模块中,还包括流表模块,所述流表模块中包括第三数据流的标签信息。
优选地,所述流表模块中包括第一判断单元,所述第一判断单元用于判断同类第三数据流的再次出现时间是否超过留存阈值,若超过,则将流表中将该第三数据流标签信息删除。
优选地,所述流量解析模块中,还包括
第二判断单元,所述第二判断单元用于判断第三数据流的识别特征;
同步单元,用于将所述识别特征更新至流表中。
优选地,所述流量元数据提取模块中,还包括
第一分类单元,用于对元数据进行分类,获得元数据分类信息;
第一匹配单元,用于将第三数据流的元数据与元数据分类信息相匹配。
本发明的第三方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时能够实现如上所述的无埋点数据采集方法。
本发明的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时能够实现如上所述的无埋点数据采集方法。
本发明的有益效果:
1.本发明所提供的无埋点数据采集方法,通过对数据流进行筛选,可以有效减少流量解析过程中的运算压力,从而提高数据采集的效率。
2.本发明所提供的无埋点数据采集方法,通过对数据流进行复制,保证了原始数据流不会被后续的操作步骤所影响,改善用户的使用体验。
3.本发明所提供的无埋点数据采集方法,通过设置流表,可以在流表中保存已识别的数据流信息,待同类数据流再次出现时,可以直接对数据流进行识别,而不必再次进行解析,提高了数据采集效率。而留存阈值的设置,可以将不常用的数据流排除流表中,减小内存压力,同时也能更好的进行处理资源的分配。
4.本发明所提供的无埋点数据采集方法,通过采用优化的数据匹配方法,减少了cache miss,通过访问缓存不直接访问内存,从而提高访问速度和处理性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种无埋点数据采集方法的流程图;
图2为本发明提供的另一种无埋点数据采集方法的流程图;
图3为本发明一个实施例中的策略示意图;
图4a为采用本发明应用策略的方法前,策略P1的匹配方法示意图;
图4b为采用本发明应用策略的方法前,策略P2的匹配方法示意图;
图5a为本发明一个实施例的应用策略方法示意图;
图5b为本发明另一个实施例的应用策略方法示意图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
以下将通过实施例对本发明进行详细描述。
以下对本申请涉及的一些概念进行解释:
1.五元组:指源IP地址,源端口,目的IP地址,目的端口和传输层协议。
2.解封装:就是封装的逆过程,拆解协议包,处理包头中的信息,取出净荷中的业务信息数据。
3.特征库:将某种特定数据排列或特定数据转换为目的数据的方法的集合。
4.Cookie:文本串句柄,并保存在客户机硬盘上,可以用来在某个Web站点会话之间持久地保持数据。
5.分光器,分光器是一种无源器件,又称光分路器,数据通过光纤传输后将光数据复制一份供监控、分析等使用。
6.初始化,各模块进行初始化,例如把变量赋为默认值,加载策略等。
7.流表,流的记录表。
8.元数据,是描述报文中所承载数据的数据。
9.Cachemiss,当运算器需要从存储器中提取数据时,它首先在最高级的cache中寻找然后在次高级的cache中寻找。如果在cache中找到,则称为命中hit;反之,则称为不命中miss。
本发明通过提供的一种无埋点数据采集方法、装置、设备及存储介质,解决了现有技术中,至少一项技术问题,达到了快速精确识别数据的效果。
本申请实施例的技术方案为解决上述技术问题,总体思路如下:
流量预处理,从目的数据源获取第一数据流,应用第一策略对数据流进行筛选,获得第三数据流;流量解析,对第三数据流进行解析,判断第三数据流的特征,对判断结果进行仲裁;流量元数据提取,应用第二策略对第三数据流的特征进行处理,获得第三数据流的元数据。
采用上述技术方案,通过对数据流进行筛选,可以有效减少流量解析过程中的运算压力,从而提高数据采集的效率。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
具体的,本发明的第一方面,提供了一种无埋点数据采集方法,如图1-图2所示,其步骤包括:
S101,流量预处理,从目的数据源获取第一数据流,应用第一策略对数据流进行筛选,获得第三数据流;
在具体实施过程中,可以以某个或某几个程序,或某个或某几个网站作为数据源,采集获取第一数据流;根据第一策略对所述第一数据流进行筛选,所述第一策略为预先设置的策略,如本次数据采集的目的是获得某些时间段、某些IP段、某些应用的目标流量,或者指定某些需要提取元数据的类型、数量等信息,再或者数据进行本地存储或者数据入库的周期、目的地址等,以上述情况为例,作为第一策略;在本发明的一个实施例中,第一策略为:网页版微信应用的目标数据,IP段为:192.168.1.154-192.168.1.186,数据类型为文本数据。则将获得的第一数据流按第一策略进行筛选,获得第三数据流。采用上述技术方案,通过对数据流进行筛选,可以有效减少流量解析过程中的运算压力,从而提高数据采集的效率。
在本发明的一个可选实施方式中,所述流量预处理步骤中,还包括步骤,对数据流进行复制,获得第一数据流、第二数据流。
在具体实施过程中,可以选择分光器,镜像数据等方式进行数据流的复制;以采用分光器的实施方式为例,通过分光器将数据流分为第一数据流、第二数据流,将第一数据流传输至网卡,从网卡处采集数据。采用上述方案,通过对数据流进行复制,保证了原始数据流不会被后续的操作步骤所影响,改善用户的使用体验。
在具体实施过程中,本发明通过AC算法来增加识别效率,所述AC算法设置有多个有限状态自动机来判断通讯协议类型。其中,所述有限状态自动机可以为分流状态机、HTTP状态机、普通TCP状态机、UDP状态机中的一种或几种;分流状态机用于流量分发,大部分数据流的通讯协议都是HTTP,若其通讯协议为其他TCP或者UCP,那么转向该对应状态机。
在本发明的一个可选实施方式中,所述流量预处理步骤中,还包括步骤,对第三数据流的进行解封装处理,获得第三数据流的标记特征。
在具体实施过程中,对第三数据流进行解封装操作得到第三数据流的标记特征;所述标记特征可以包括五元组特征,在本发明的一个实施例中,将第三数据流进行解封装后得到以下五元组特征:
(192.168.1.154 10000TCP121.14.88.1080
192.168.1.155 10000TCP121.14.88.1080
192.168.1.156 10000TCP121.14.88.1080
192.168.1.186 10000TCP121.14.88.1080)
其中第一列为源IP地址,第二列为源端口,第三列为传输层协议,第四列为目的IP地址,第五列为目的端口。
在本发明的一个可选实施方式中,所述流量预处理步骤中,还包括步骤,创建流表,所述流表包括第三数据流的标签信息。
在具体实施过程中,流表可以包括多个流表项,每个流表项可以有多项内容,可以包括标记特征、识别特征等,所述标记特征可以包括五元组特征;所述识别特征可以为数据流独有的特征,如微信发送数据流中特有的标记。在本发明的一个实施例中,某一数据流的应用类型特征为:“网页版微信应用”,在识别该数据流的第一个数据包时,首先查询流表,流表中没有存储此数据流的记录,因此经过特征识别,得到该数据特征“网页版微信应用”,随后将此数据存储至对应流表项中的特征信息(即识别结果信息),此数据流的后续数据包识别此数据特征时,由于流表已经有本特征数据(即识别结果数据),无需重复识别,可以提高识别效率。采用上述技术方案,可以通过数据流的标记特征更快速的分辨数据来源,提高了数据采集效率。
在本发明的一个可选实施方式中,标签信息包括第三数据流的状态特征。
在本发明的一个可选实施方式中,所述第三数据流的状态特征包括留存阈值,判断同类第三数据流的再次出现时间是否超过留存阈值,若超过,则将流表中将该第三数据流标签信息删除。
在具体实施过程中,所述状态特征可以包括某一留存时间,如果在留存时间内,某类数据流没有再次出现,则删除该数据流在流表中的标签信息,与留存时间相应的,所述数据流包括激活状态,即留存时间大于0的状态;所述数据流包括激活状态老化状态,即留存时间小于0的状态。以某类微信数据流为例,设其留存时间为5s,如果在5s内,出现同类数据流(匹配到相同的识别特征),则不再对该数据流进行解析,直接认定其为来自微信的数据流,如果在5s内未再次出现该类微信的数据流,则在流表中删除该类数据流的标签信息,如果10s中再次出现该类数据流,则需要重新进行解析。采用上述技术方案,可以在流表中保存已识别的数据流信息,待同类数据流再次出现时,可以直接对数据流进行识别,而不必再次进行解析,提高了数据采集效率。而留存阈值的设置,可以将不常用的数据流排除流表中,减小内存压力,同时也能更好的进行处理资源的分配。
S103,流量解析,对第三数据流进行解析,判断第三数据流的特征,对判断结果进行仲裁,输出仲裁结果;
在本发明的一个可选实施方式中,所述流量解析步骤中,还包括步骤,对第三数据流的特征进行判断,若该特征可以表述为可计算或可描述的数据格式,则对第三数据流的特征进行处理,输出第三数据流的元数据。
在具体实施过程中,将第三数据流进行解析后,对第三数据流的特征进行判断,特征经解析后为
"http.user_agent":"CMREAD_iPhone_Appstore_1242*2208_V7.10.1(1242*2208;Apple;iPhone7,1;iOS10.3.3;zh_CN;;JSBridge=1.0)",,再将该特征的元数据输出为可进行数据交换格式,例如:“device_type”:“mobile phone”
“device_brand”:“iPhone 6plus”
“device_system”:“IOS 10.3.3”
“device_system_language”:“zh_CN”
“device_screen_state”:“Longitudinal”
在本发明的一个可选实施方式中,所述流量解析步骤中,包括对第三数据流中的数据包进行解析。
在具体实施过程中,可以对数据流中的数据包进行首包解析,即对数据流中的第一个数据包进行解析,以判断数据流的特征;也可以对数据流中的数据包进行单包解析,即对数据流中的数据包进行某个、某几个或所有数据包的解析,以判断数据流的特征;也可以对数据流中的数据包进行算法解析,以判断数据流的特征。
在本发明的一个可选实施方式中,所述流表中的标签信息包括第三数据流的识别特征。
在具体实施过程中,所述流量解析步骤中,还包括步骤,判断第三数据流的识别特征,并将所述识别特征更新至流表中。采用上述技术方案,可以快速的更新流表信息,防止同类数据的再次解析,提高数据采集效率。
在本发明的一个可选实施方式中,所述流量解析步骤中,应用第二策略对第三数据流的特征进行处理时,采用AC算法。
在具体实施过程中,本发明通过AC算法来增加识别效率,所述AC算法设置有多个有限状态自动机来判断通讯协议类型。其中,所述有限状态自动机可以为分流状态机、HTTP状态机、普通TCP状态机、UDP状态机中的一种或几种;分流状态机用于流量分发,大部分数据流的通讯协议都是HTTP,若其通讯协议为其他TCP或者UCP,那么转向该对应状态机。
S105,流量元数据提取,应用第二策略对第三数据流的特征进行处理,获得第三数据流的元数据。
在具体实施过程中,所述第二策略可以为元数据提取策略,所述元数据提取策略可以与用户设备信息、用户地理坐标位置、网元信息、用户行为或商品信息相关。由于数据流的内容长度大于识别结果及相应的数据,所以数据流识别完所有的数据特征后,只存储识别结果及相应的数据,抛弃数据流,这样可以提高系统的运行效率。在本实施例中,以运营人员需要设备信息为例,用户使用浏览设备的屏幕状态“device_screen_state”,经过筛选得到第三数据流,数据流一般为16进制数据,截取其中一部分数据如下所示:
55 73 65 72 2d 41 67 65 6e 74 3a 20 43 4d 52 45 41 44 5f 69 50 68 6f6e 65 5f 41 70 70 73 74 6f 72 65 5f 31 32 34 32 2a 32 32 30 38 5f 56 37 2e 3130 2e 31 28 31 32 34 32 2a 32 32 30 38 3b 41 70 70 6c 65 3b 69 50 68 6f 6e 6537 2c 31 3b 69 4f 53 20 31 30 2e 33 2e 33 3b 7a 68 5f 434e 3b 3b 4a 53 42 7269 64 67 65 3d 31 2e 30 29 0d 0a
经过特征匹配后,得到特征数据如下所示:
"http.user_agent":"CMREAD_iPhone_Appstore_1242*2208_V7.10.1(1242*2208;Apple;iPhone7,1;iOS10.3.3;zh_CN;;JSBridge=1.0)"
用上述数据进行分析可知:此设备为手机,型号是iPhone 6plus,其显示屏5.5英寸超视网膜,根据官方数据iPhone 6plus纵向分辨率为1242*2208像素,横向分辨率为2208*1242,所以此时手机状态为“纵屏”;因此可得到元数据为:
"device_type":"mobilephone",
"device_brand":"iPhone6plus",
"device_system":"IOS10.3.3",
"device_system_language":"zh_CN",
"device_screen_state":"Longitudinal",
即向数据仓库传输上述设备信息的元数据,以供运营人员或第三方系统进行分析。
在本发明的一个可选实施方式中,所述流量元数据提取步骤中,还包括步骤,对元数据进行分类,获得元数据分类信息,并将第三数据流的元数据与元数据分类信息相匹配。
在具体实施过程中,元数据可以分为网元信息元数据、设备元数据、应用元数据、用户元数据、行为元数据等;提取元数据将元数据进行分类,便于将多种元数据进行分类处理,方便同类数据的选择,如元数据具有地点分类,该分类项下包括机场、电影院、城市、国家、区县等,便于用户同时对此类元数据的选择和处理。采用上述技术方案,可以通过对元数据的分类,更高效的找到元数据、处理元数据,提高了数据采集效率。
在本发明的一个可选实施方式中,所述流量元数据提取步骤中,还包括步骤,应用第三策略对第三数据流的元数据进行处理,获得第一元数据,并将第一元数据进行存储。
在具体实施过程中,所述第三策略可以为元数据的存储策略,用于将元数据进行存储。
在本发明的一个可选实施方式中,应用第一策略、第二策略或第三策略的方法包括步骤:
接收策略信息,生成第一数组;
生成临时数组,在策略匹配前,将临时数组中所有数据置零;
策略匹配,当策略命中时,更新临时数组中的数据;
判断临时数组与第一数组中的数据是否相同,若相同,则策略命中,若不同,则策略未命中。采用上述技术方案,可以有效减少匹配策略时cache miss的次数,提高匹配效率。
在具体实施过程中,假设现在共有3个特征元素A,B,C,;如果用户添加了3条规则P1,P2和P3,分别在其中指定了字段C,BC和AC(如表1所示):
表1
规则ID 指定字段
P1 C
P2 BC
P3 AC
那么这3条策略创建成功后,策略包含的策略字段及其第一数组(如表2所示):
表2
策略字段内部与策略ID的关联(如表3所示):
表3
策略字段 命中的规则ID
A P3
B P2
C P1,P2,P3
在匹配时,假设归一化数据匹配了特征元素B和C的值,而且匹配的顺序依次是A,B,C,那么:
当匹配A时,没有发生匹配,什么也不做;
当匹配B时,发生了匹配,命中的规则ID是P2,将临时数组[P2]|=B010;
当匹配C时,发生了匹配,命中的规则ID是P1,P2,P3将临时数组[P1]|=B100,临时数组[P2]|=B100,临时数组[P3]|=B100;
3个字段都匹配完成后,将临时数组中不为0的项与原始策略的第一数组进行比对,发现:
临时数组[P1]==P1.第一数组==B100;
临时数组[P2]==P2.第一数组=B110;
而临时数组[P3]==B100!=P3.第一数组==B101。
顾结果是命中规则P1,P2。
假设策略字段3个,有1000条策略,参照图3:采用上述方法前,匹配方式如图4a-图4b所示:采用上述方法后,匹配方法如图5a-图b所示;由图3-图5b可知,使用算法前cachemiss 2999次,使用算法后,cachemiss2次,明显减少了cache miss次数,显著提升了性能。
本发明的另一些实施例提供了一种无埋点数据采集装置,所述装置包括:
流量预处理模块,从目的数据源获取第一数据流,应用第一策略对数据流进行筛选,获得第三数据流;
流量解析模块,对第三数据流进行解析,判断第三数据流的特征,对判断结果进行仲裁;
流量元数据提取模块,应用第二策略对第三数据流的特征进行处理,获得第三数据流的元数据。
在本发明的一个可选实施方式中,所述流量预处理模块中,还包括数据流复制模块,用于对数据流进行复制,获得第一数据流、第二数据流。
在本发明的一个可选实施方式中,所述数据流复制模块为分光器。
在本发明的一个可选实施方式中,所述流量预处理模块中,还包括解封装模块,用于对第三数据流的进行解封装处理,获得第三数据流的标记特征。
在本发明的一个可选实施方式中,所述流量预处理模块中,还包括流表模块,所述流表模块中包括第三数据流的标签信息。
在本发明的一个可选实施方式中,所述流表模块中包括第一判断单元,所述第一判断单元用于判断同类第三数据流的再次出现时间是否超过留存阈值,若超过,则将流表中将该第三数据流标签信息删除。
在本发明的一个可选实施方式中,所述流量解析模块中,还包括
第二判断单元,所述第二判断单元用于判断第三数据流的识别特征;
同步单元,用于将所述识别特征更新至流表中。
在本发明的一个可选实施方式中,所述流量元数据提取模块中,还包括第一分类单元,用于对元数据进行分类,获得元数据分类信息;
第一匹配单元,用于将第三数据流的元数据与元数据分类信息相匹配。
在上述实施例中,通过流量预处理模块、流量解析模块、流量元数据提取模块等实现上述实施例中所述的方法,因而具有上述任一实施例中的全部有益效果,在此不再赘述。
本发明的另一些实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时能够实现如上所述的无埋点数据采集方法。
在这些实施例中,所述电子设备包括存储器及处理器,所述存储器上至少有一条指令,所述至少一条指令由所述处理器加载并执行,以实现上述实施例中所述的方法,因而具有上述任一实施例中的控制方法的全部有益效果,在此不再赘述。
本发明的另一些实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时能够实现如上所述的无埋点数据采集方法。
在这些实施例中,计算机可读存储介质上存储有计算机程序,在计算机被处理器执行时实现上述任一实施例中的控制方法的步骤,因而具有上述任一实施例中的控制方法的全部有益效果,在此不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
应当理解,本申请实施例中,从权、各个实施例、特征可以互相组合结合,都能实现解决前述技术问题。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例无埋点数据采集方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本发明实施例无埋点数据采集装置中的单元可以根据实际需要进行合并、划分和删减。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (5)

1.一种无埋点数据采集方法,其特征在于,其步骤包括:
流量预处理,对目的数据源的数据流进行复制,获得第一数据流、第二数据流,应用第一策略对第一数据流进行筛选,获得第三数据流,对第三数据流进行解封装处理,获得第三数据流的标记特征,创建流表,所述流表包括第三数据流的标记特征;
流量解析,对第三数据流进行解析,判断第三数据流的识别特征是否表述为可计算或可描述的数据格式,并将所述识别特征更新至流表中;
流量元数据提取,应用第二策略对第三数据流的特征进行处理,获得第三数据流的元数据,对元数据进行分类,获得元数据分类信息,并将第三数据流的元数据与元数据分类信息相匹配;
其中,应用第一策略、第二策略的方法包括步骤:
接收策略信息,生成第一数组;
生成临时数组,在策略匹配前,将临时数组中所有数据置零;
策略匹配,当策略命中时,更新临时数组中的数据;
判断临时数组与第一数组中的数据是否相同,若相同,则策略命中,若不同,则策略未命中。
2.根据权利要求1所述的无埋点数据采集方法,其特征在于,所述流量元数据提取步骤中,还包括步骤,应用第三策略对第三数据流的元数据进行处理,获得第一元数据,并将第一元数据进行存储。
3.根据权利要求2所述的无埋点数据采集方法,其特征在于,应用第三策略的方法包括步骤:
接收策略信息,生成第一数组;
生成临时数组,在策略匹配前,将临时数组中所有数据置零;
策略匹配,当策略命中时,更新临时数组中的数据;
判断临时数组与第一数组中的数据是否相同,若相同,则策略命中,若不同,则策略未命中。
4.一种用于实现所述权利要求1-3任意一项所述的无埋点数据采集方法的无埋点数据采集装置,所述装置包括:
流量预处理模块,从目的数据源获取第一数据流,应用第一策略对数据流进行筛选,获得第三数据流;
流量解析模块,对第三数据流进行解析,判断第三数据流的特征,对判断结果进行仲裁;
流量元数据提取模块,应用第二策略对第三数据流的特征进行处理,获得第三数据流的元数据。
5.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时能够实现如权利要求1-3任一项所述的无埋点数据采集方法。
CN201911337431.6A 2019-12-23 2019-12-23 一种无埋点数据采集方法、装置及存储介质 Active CN111131072B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911337431.6A CN111131072B (zh) 2019-12-23 2019-12-23 一种无埋点数据采集方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911337431.6A CN111131072B (zh) 2019-12-23 2019-12-23 一种无埋点数据采集方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN111131072A CN111131072A (zh) 2020-05-08
CN111131072B true CN111131072B (zh) 2023-08-22

Family

ID=70501233

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911337431.6A Active CN111131072B (zh) 2019-12-23 2019-12-23 一种无埋点数据采集方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN111131072B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112491737A (zh) * 2020-12-07 2021-03-12 北京明略昭辉科技有限公司 一种流量数据采集方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1997007A (zh) * 2006-09-30 2007-07-11 华为技术有限公司 一种实现业务感知的系统、方法及设备
CN103595576A (zh) * 2013-10-31 2014-02-19 赛尔网络有限公司 一种基于内容提供商标识的互联口icp流量统计系统及方法
WO2015131597A1 (zh) * 2014-09-17 2015-09-11 中兴通讯股份有限公司 一种实现流量分析的方法及装置
CN110401642A (zh) * 2019-07-10 2019-11-01 浙江中烟工业有限责任公司 一种工控流量的采集与协议解析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1997007A (zh) * 2006-09-30 2007-07-11 华为技术有限公司 一种实现业务感知的系统、方法及设备
CN103595576A (zh) * 2013-10-31 2014-02-19 赛尔网络有限公司 一种基于内容提供商标识的互联口icp流量统计系统及方法
WO2015131597A1 (zh) * 2014-09-17 2015-09-11 中兴通讯股份有限公司 一种实现流量分析的方法及装置
CN110401642A (zh) * 2019-07-10 2019-11-01 浙江中烟工业有限责任公司 一种工控流量的采集与协议解析方法

Also Published As

Publication number Publication date
CN111131072A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
CN104125209B (zh) 恶意网址提示方法和路由器
CN106446228B (zh) 一种web页面数据的采集分析方法及装置
US8666985B2 (en) Hardware accelerated application-based pattern matching for real time classification and recording of network traffic
US9806974B2 (en) Efficient acquisition of sensor data in an automated manner
CN109905288B (zh) 一种应用服务分类方法及装置
CN107257390B (zh) 一种url地址的解析方法和系统
US20170337568A1 (en) Data processing method, system and computer device based on electronic payment behaviors
CN108228875B (zh) 基于完美哈希的日志解析方法及装置
CN106534146A (zh) 一种安全监测系统及方法
CN110198248B (zh) 检测ip地址的方法和装置
CN107534690A (zh) 采集域名系统流量
US10079770B2 (en) Junk information filtering method and apparatus
CN102663060B (zh) 一种识别被篡改网页的方法及装置
CN113779481B (zh) 诈骗网站的识别方法、装置、设备及存储介质
CN107608980A (zh) 基于dpi大数据分析的信息推送方法和系统
CN106844588A (zh) 一种基于网络爬虫的用户行为数据的分析方法及系统
CN111131072B (zh) 一种无埋点数据采集方法、装置及存储介质
CN112148956A (zh) 一种基于机器学习的暗网威胁情报挖掘系统和方法
CN115514558A (zh) 一种入侵检测方法、装置、设备及介质
CN108920955B (zh) 一种网页后门检测方法、装置、设备及存储介质
CN107527289B (zh) 一种投资组合行业配置方法、装置、服务器和存储介质
CN110825947B (zh) Url去重方法、装置、设备与计算机可读存储介质
CN105975599A (zh) 一种监测网站的页面埋点的方法和装置
CN106982147B (zh) 一种Web通讯应用的通讯监控方法和装置
CN110413861B (zh) 基于网络爬虫的链接提取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant