CN112511459B - 一种流量识别方法、装置、电子设备及存储介质 - Google Patents

一种流量识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112511459B
CN112511459B CN202011322816.8A CN202011322816A CN112511459B CN 112511459 B CN112511459 B CN 112511459B CN 202011322816 A CN202011322816 A CN 202011322816A CN 112511459 B CN112511459 B CN 112511459B
Authority
CN
China
Prior art keywords
data
access
terminal
server
log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011322816.8A
Other languages
English (en)
Other versions
CN112511459A (zh
Inventor
李华伟
姜翠翠
董玉强
尚程
梁彧
田野
傅强
王杰
杨满智
蔡琳
金红
陈晓光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Eversec Beijing Technology Co Ltd
Original Assignee
Eversec Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Eversec Beijing Technology Co Ltd filed Critical Eversec Beijing Technology Co Ltd
Priority to CN202011322816.8A priority Critical patent/CN112511459B/zh
Publication of CN112511459A publication Critical patent/CN112511459A/zh
Application granted granted Critical
Publication of CN112511459B publication Critical patent/CN112511459B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2483Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/0485Scrolling or panning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/0486Drag-and-drop
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明实施例公开了一种流量识别方法、装置、电子设备及存储介质。所述流量识别方法,包括:获取终端访问数据和服务器访问日志数据;根据终端访问数据构建终端访问日志;根据服务器访问日志数据构建服务器核验日志;根据终端访问日志和服务器核验日志识别虚假访问流量。本发明实施例的技术方案能够实现对虚假访问流量的识别,提高了虚假访问流量的识别率。

Description

一种流量识别方法、装置、电子设备及存储介质
技术领域
本发明实施例涉及移动通信技术领域,尤其涉及一种流量识别方法、装置、电子设备及存储介质。
背景技术
流量识别是移动通信技术应用非常广泛的一个技术要点,通过流量识别能够将虚假流量进行筛选,从而保证通信环境的安全性以及可靠性。虚假流量通常可以为部分用户提供非法获利方式。例如,将虚假流量应用于数字广告浏览技术领域,不但会给广告主带来巨大的损失,同时也给数字广告行业带来信任危机。
目前,虚假流量的识别主要有如下两种识别方法:
(1)设备指纹识别法:通过“设备指纹”来确定流量的来源。其中,“设备指纹”用来唯一标识一台设备。“设备指纹”主要包括IP(Internet Protocol,网际互连协议)地址、MAC(Media Access Control,媒体存取控制)地址、WIFI(Wireless Fidelity,无线局域网)名称、WIFI MAC地址、蓝牙地址、IMEI(International Mobile Equipment Identity,国际移动设备识别码)、Android ID(Android Identity document,安卓身份识别号)、操作系统和版本号等信息。随着广告黑灰产业的发展,该方法的缺点逐渐暴露出来。例如,黑灰产业提供商通过修改安卓操作系统底层生成大量的虚拟设备。APP(Application,应用程序)或浏览器获取到的虚拟设备的“设备指纹”是虚假的,即通过设备指纹识别法将不能识别虚拟设备产生的虚假流量。
(2)行为分析法:通过分析用户访问行为对应的用户行为数据来识别虚假流量。其中,用户行为数据主要包括:用户访问时间、访问频率、落地页跳出率、页面的跳转上下游关系、用户访问每个页面的停留时长、用户使用触屏设备时手指滑动和拖动的幅度数据等。针对该方法,黑灰产业人员采用程序或者脚本可以复刻真实的用户访问行为,复刻出的用户访问行为已基本和正常用户访问行为一致。因此服务器端基于访问行为的行为分析法已经很难准确识别出精选伪装下的虚假流量。
发明内容
本发明实施例提供一种流量识别方法、装置、电子设备及存储介质,提高了虚假访问流量的识别准确率。
第一方面,本发明实施例提供了一种流量识别方法,包括:
获取终端访问数据和服务器访问日志数据;
根据终端访问数据构建终端访问日志;
根据服务器访问日志数据构建服务器核验日志;
根据终端访问日志和服务器核验日志识别虚假访问流量。
第二方面,本发明实施例还提供了一种流量识别装置,包括:
数据获取模块,用于获取终端访问数据和服务器访问日志数据;
终端访问日志构建模块,用于根据终端访问数据构建终端访问日志;
服务器核验日志构建模块,用于根据服务器访问日志数据构建服务器核验日志;
虚假访问流量识别模块,用于根据终端访问日志和服务器核验日志识别虚假访问流量。
第三方面,本发明实施例还提供了一种电子设备,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所提供的流量识别方法。
第四方面,本发明实施例还提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所提供的流量识别方法。
本发明实施例根据获取的终端访问数据构建终端访问日志,并根据获取的服务器访问日志数据构建服务器核验日志,以根据终端访问日志和服务器核验日志识别虚假访问流量,解决了现有技术中虚假访问流量识别准确率低的问题,提高了虚假访问流量的识别准确率。
附图说明
图1是本发明实施例一提供的一种流量识别方法的流程图;
图2是本发明实施例二提供的一种流量识别方法的流程图;
图3是本发明实施例二提供的一种虚假访问流量识别流程图;
图4是本发明实施例二提供的一种虚假访问流量识别定位流程图;
图5是本发明实施例二提供的一种终端向广告服务器发送请求的示例图;
图6是本发明实施例二提供的一种广告访问过程示意图;
图7是本发明实施例三提供的一种流量识别装置的示意图;
图8为本发明实施例四提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。
另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1是本发明实施例一提供的一种流量识别方法的流程图,本实施例可适用于高效识别虚假访问流量的情况,该方法可以由流量识别装置来执行,该装置可以由软件和/或硬件的方式来实现,并一般可集成在电子设备中。相应的,如图1所示,该方法包括如下操作:
S110、获取终端访问数据和服务器访问日志数据。
其中,终端访问数据可以是终端接入互联网进行数据搜索、查询等产生的,可以对服务器进行访问的数据。示例性的,终端访问数据可以包括但不限于终端对广告、图片以及文档的访问数据。
在本发明实施例中,终端访问数据可以为用户真实访问数据,可以唯一确定用户身份,具有唯一确定性。服务器访问日志数据可以是服务器本地存储的被终端访问时所产生的日志数据。例如,服务器访问日志数据可以包括在广告服务器中进行广告结算的访问日志的数据。运营商可以根据用于广告结算的访问日志数据对广告商投放的广告进行计费。广告结算可以包括点击结算方式、显示次数结算方式以及广告效果结算方式等。
在本发明实施例中,在对虚假访问流量进行识别之前,可以首先获取终端访问数据和服务器访问日志数据。其中,终端访问数据可以表征终端访问服务器的行为,服务器访问日志数据可以表征各个终端对该服务器的访问行为。
示例性的,可以获取终端访问广告的数据作为终端访问数据,并将被访问广告所在广告服务器的访问日志数据作为服务器访问日志数据。
S120、根据终端访问数据构建终端访问日志。
其中,终端访问日志可以是通过终端访问数据构建的日志。可选的,终端访问日志可以通过将终端访问数据输入不同语言环境进行函数调用的方式生成。语言环境可以包括但不限于Java语言环境、C语言环境以及Python语言环境。终端访问日志可以包括访问时间、访问终端地址、应用层协议以及访问方式等。本发明实施例对终端访问日志的具体日志内容不做限定。通过分析终端访问日志可以了解终端访问服务器的行为。
相应的,在获取到终端访问数据之后,可以对终端访问数据进行解析或组合等数据处理方式,从而得到对应的终端访问日志。示例性的,可以根据终端访问广告服务器的数据构建终端访问日志。
S130、根据服务器访问日志数据构建服务器核验日志。
其中,服务器核验日志可以是通过服务器访问日志数据构建的日志。通过分析服务器核验日志可以了解各个终端对该服务器的访问行为。
具体的,在获取到服务器访问日志数据之后,可以对服务器访问日志数据进行解析或组合等数据处理方式,从而得到对应的服务器核验日志。
S140、根据终端访问日志和服务器核验日志识别虚假访问流量。
其中,虚假访问流量可以是通过异常多次访问服务器所产生的访问流量,也可以是非真实用户访问服务器的访问流量。异常多次访问服务器可以是非正常的多次访问服务器,例如,虚假访问流量对应的访问服务器的次数可以是真实用户正常访问服务器的次数的多倍。
具体的,将终端访问日志和服务器核验日志进行关联分析,进而将虚假访问流量从服务器核验日志中识别出来。例如,将终端访问日志和服务器核验日志进行比对识别出虚假访问流量。例如,关联分析可以包括对终端访问服务器次数的分析。
在本发明实施例中,用于构成终端访问日志的终端访问数据是不可篡改的,并且终端访问数据与终端是一一对应的,因此构建的终端访问日志具有唯一确定性。所以,通过将终端访问日志和服务器核验日志对终端访问服务器次数的分析可以识别出虚拟设备产生的虚假访问流量,以及通过复刻用户行为产生的虚假访问流量,从而提高虚假访问流量的识别准确率。
本发明实施例根据获取的终端访问数据构建终端访问日志,并根据获取的服务器访问日志数据构建服务器核验日志,以根据终端访问日志和服务器核验日志识别虚假访问流量,解决了现有技术中虚假访问流量识别准确率低的问题,提高了虚假访问流量的识别准确率。
实施例二
图2是本发明实施例二提供的一种流量识别方法的流程图,本实施例以上述实施例为基础进行具体化,在本实施例中,给出了根据GTP数据、防火墙日志解析数据以及基站地理位置数据构建终端访问数据,进一步根据终端访问数据构建的终端访问日志和服务器核验日志对虚假访问流量进行识别与定位的具体的可选实现方式。相应的,如图2所示,该方法包括如下操作:
S210、获取运营商管道数据和终端防火墙日志数据。
其中,运营商管道数据可以是在运营商管道中流通的数据。终端防火墙日志数据可以是终端防火墙日志中的相关数据。终端防火墙日志可以是记录终端防火墙进行数据包拦截、地址转换以及阻止外部进行系统入侵的日志。内网指的是运营商用于分配IP地址的局域网。外网是指全球统一的公用网络,具有唯一的网络地址。例如,终端防火墙日志可以包括时间、允许、拦截、通讯类型以及数据地址等。本发明实施例对防火墙日志所包括的具体内容不做限定。
在本发明实施例中,可选的,可以通过分光器采用旁路采集的形式获取运营商管道数据,并从终端防火墙日志中采集获取终端防火墙日志数据。
S220、解析运营商管道数据,以获取GTP数据。
其中,GTP(General Packet Radio Service Tunneling Protocol,GPRS隧道协议)数据可以用于构建终端访问数据。
相应的,在获取到运营商管道数据之后,可以以运营商管道数据为依据,从运营商管道数据中解析出用于构建终端访问数据的GTP数据。
在本发明的一个可选实施例中,获取运营商管道数据,可以包括:获取运营商通信接口的原始流量数据作为运营商管道数据;解析运营商管道数据,以获取GTP数据,包括:解析原始流量数据中的GTP协议信息,获取网络设备IP地址、服务器外网IP地址、终端内网IP地址和终端访问标识数据;其中,终端访问标识数据包括cookie数据和URL数据;根据网络设备IP地址、服务器外网IP地址、终端内网IP地址、cookie数据和URL数据构建GTP数据。
其中,运营商通信接口可以是运营商的基站与网关的通信接口。原始流量数据可以是运营商通信接口中原始传输的数据。原始流量数据可以包括用户上网的所有相关数据。例如,原始流量数据可以包括但不限于终端流量数据以及协议数据。终端流量数据可以是用户通过终端进行上网时产生的流量数据。协议数据可以是保证通信双方能有效,可靠通信而规定的一系列的通信协议数据。GTP协议信息可以是与GTP协议相关的数据。例如,GTP协议信息中可以包括内层IP地址和外层IP地址。网络设备IP地址可以是用于标识网络设备的地址。例如,网络设备IP地址可以包括EnodeB IP地址和PGW(Packet Data NetworkGateWay,PDN网关)IP地址。EnodeB IP地址和PGW IP地址属于GTP协议信息中的外层IP地址。服务器外网IP地址可以是用于标识服务器的外网地址。例如,服务器外网IP地址可以包括GTP内层IP地址中的服务器的IP地址。终端内网IP地址可以是用于标识终端的内网地址。例如,终端内网IP地址可以包括GTP内层IP地址中的终端的IP地址。终端访问标识数据可以是在终端访问服务器时用于标识终端访问行为的数据。cookie数据是浏览器生成并存储在终端中的文本文件。URL数据可以用来标识互联网上的资源。
在本发明实施例中,获取运营商的基站与网关的通信接口的原始流量数据,获取的原始流量数据作为运营商管道数据。根据获取的原始流量数据解析出GTP外层IP地址中的EnodeB IP地址和PGW IP地址,并解析出GTP内层IP地址中的服务器外网IP地址以及终端内网IP地址。进一步,从原始流量数据中解析出cookie数据和URL数据,最终通过解析出的EnodeB IP地址、PGW IP地址、服务器外网IP地址、终端内网IP地址、cookie数据和URL数据构建GTP数据。
S230、解析终端防火墙日志数据,以获取防火墙日志解析数据。
其中,防火墙日志解析数据可以是终端防火墙日志数据经过解析之后所得到的数据。例如,防火墙日志解析数据可以包括防火墙网络地址转换日志相关数据。
具体的,对获取的终端防火墙日志数据进行解析,以获取防火墙日志解析数据。所获取的防火墙日志解析数据可以用于参与构建终端访问数据。
S240、根据GTP数据和防火墙日志解析数据构建终端访问数据。
相应的,根据GTP数据中的EnodeB IP地址、PGW IP地址、服务器外网IP地址、终端内网IP地址、cookie数据和URL数据,以及防火墙日志解析数据构建终端访问数据。
在本发明的一个可选实施例中,在根据GTP数据和防火墙日志解析数据构建终端访问数据之前,还可以包括:获取运营商基站工程数据;解析运营商基站工程数据,以获取基站地理位置数据;根据GTP数据和防火墙日志解析数据构建终端访问数据,包括:根据GTP数据、防火墙日志解析数据和基站地理位置数据构建终端访问数据。
其中,运营商基站工程数据可以是运营商进行基站部署时采用的工程参数。例如,运营商基站工程数据可以包括基站规格、基站部署位置以及基站标识等。基站规格可以是基站的自身设备参数。例如,基站规格可以包括基站型号以及信号传输范围等。基站标识可以是用于对基站进行设备登记的标识。一个基站对应一个基站标识。本发明实施例对运营商基站工程数据的内容不做限定。基站地理位置数据可以是表征基站所在地理位置的数据。例如,基站地理位置数据可以包括基站所在地理位置的经度数据以及纬度数据,可以用于对虚假流量进行定位。
在本发明实施例中,为了后续进一步对虚假流量进行定位,可以对获取的运营商基站工程数据进行解析得到基站地理位置数据,根据GTP数据、防火墙日志解析数据和基站地理位置数据构建终端访问数据。
在本发明的一个可选实施例中,防火墙日志解析数据可以包括终端内网IP地址、终端外网IP地址以及IP地址映射关系;根据GTP数据、防火墙日志解析数据和基站地理位置数据构建终端访问数据,可以包括:根据终端内网IP地址、终端外网IP地址以及IP地址映射关系确定与各终端内网IP地址对应的各终端外网IP地址;根据网络设备IP地址、服务器外网IP地址、终端内网IP地址、终端外网IP地址、cookie数据、URL数据和基站地理位置数据构建终端访问数据。
其中,IP地址映射关系可以是终端内网IP地址与终端外网IP地址之间的一种对应关系。一个终端仅存在一个IP地址映射关系。例如,终端内网IP地址根据IP地址映射关系可以唯一确定一个终端外网IP地址。终端外网IP地址可以是能够在外网进行终端访问数据传输的外网IP地址。
在本发明实施例中,可以根据IP地址映射关系以及各终端内网IP地址,确定与各终端内网IP地址对应的各终端外网IP地址。根据各终端内网IP地址、与各终端内网IP地址对应的各终端外网IP地址、服务器外网IP地址、EnodeB IP地址、PGW IP地址、cookie数据、URL数据和基站地理位置数据构建终端访问数据。
IP地址映射关系可以通过防火墙网络地址转换日志获得,防火墙网络地址转换日志可以在GTP内层IP地址经过NAT(Network Address Translation,网络地址转换协议)转换得到外网IP地址时生成。防火墙网络地址转换日志存储有经过地址转换的外网IP地址。
S250、根据终端访问数据构建终端访问日志。
S260、根据服务器访问日志数据构建服务器核验日志。
在本发明的一个可选实施例中,根据服务器访问日志数据构建服务器核验日志,可以包括:解析服务器访问日志数据,获取服务端侧的终端cookie数据和终端URL数据;根据服务端侧的终端外网IP地址、服务器外网IP地址、终端cookie数据和终端URL数据构建服务器核验日志。
其中,终端cookie数据可以是终端访问服务器时在服务器侧生成的cookie数据。终端URL数据可以是终端访问服务器时在服务器侧生成的URL数据。服务端侧的终端外网IP地址可以是终端访问服务器时在服务器侧的终端外网IP地址。服务器外网IP地址可以是终端访问服务器时的服务器的外网IP地址。
具体的,在构建服务器核验日志之前,首先获取服务器访问日志数据,其次对获取的服务器访问日志数据进行解析,获取服务端侧的终端cookie数据和终端URL数据,最终利用服务器侧的服务器访问日志数据中的终端外网IP地址、服务器外网IP地址、终端cookie数据和终端URL数据构建服务器核验日志。
S270、根据终端访问日志和服务器核验日志识别虚假访问流量。
在本发明的一个可选实施例中,根据终端访问日志和服务器核验日志识别虚假访问流量,可以包括:提取终端访问日志中包括的cookie数据和URL数据,并对cookie数据和URL数据进行加密计算,得到终端访问加密数据;提取服务器核验日志中包括的终端cookie数据和终端URL数据,并对终端cookie数据和终端URL数据进行加密计算,得到服务端访问加密数据;根据终端访问加密数据和服务端访问加密数据识别虚假访问流量。
其中,终端访问加密数据可以是终端访问日志中的cookie数据和URL数据进行加密处理得到的加密数据。服务端访问加密数据可以是对终端cookie数据和终端URL数据进行加密处理得到的加密数据。加密计算所采用的加密算法可以包括对称加密算法、非对称加密算法以及哈希算法等。cookie数据与终端cookie数据的数据内容相同,但是存储的位置不同。cookie数据存储于终端访问日志中,终端cookie数据存储于服务器核验日志中。类似的,URL数据和终端URL数据的数据内容相同,存储的位置不同。
在本发明实施例中,首先获取终端访问日志,对终端访问日志中的cookie数据和URL数据进行加密计算获得终端访问加密数据,进一步对获取的服务器核验日志中的终端cookie数据和终端URL数据进行加密计算,得到服务端访问加密数据。对终端访问加密数据和服务端访问加密数据进行关联分析,进而识别虚假访问流量。一方面,cookie数据经常被用来标识用户,URL数据通常携带广告来源、媒体类型,以及APP自定义的用户ID等参数信息,另一方面,cookie数据和URL数据的数据内容在终端访问日志以及服务器核验日志中都存在,并且cookie数据与URL数据相对独立,即终端cookie数据和终端URL数据也相对独立。因此可以通过cookie数据和URL数据的数据内容对终端访问日志和服务器核验日志进行关联分析,从而进行虚假访问流量识别。
示例性的,对各终端访问日志中的cookie数据和URL数据进行SHA-256算法处理得到相应的各终端访问加密数据。对各服务器核验日志中的cookie数据和URL数据进行SHA-256算法处理得到相应的各服务端访问加密数据。通过比对各终端访问加密数据和各服务端访问加密数据识别出服务器核验日志中的虚假访问流量。
在本发明的一个可选实施例中,根据终端访问加密数据和服务端访问加密数据识别虚假访问流量,可以包括:从服务端访问加密数据中确定目标服务端访问加密数据;在预设识别时间范围内确定终端访问加密数据中不存在与目标服务端访问加密数据相同的终端访问加密数据的情况下,确定目标服务端访问加密数据对应的终端访问流量为虚假访问流量。
其中,目标服务端访问加密数据可以是用于与终端访问加密数据进行比对的加密数据。预设识别时间可以是终端访问加密数据与目标服务端访问加密数据进行比对的预设时长。预设识别时间可以从终端访问加密数据与目标服务端访问加密数据进行比对开始计算。
相应的,在服务端访问加密数据中确定出需要与终端访问加密数据进行比对的目标服务端访问加密数据,在预设识别时间范围内比对目标服务端访问加密数据和终端访问加密数据,如果终端访问加密数据中不存在与目标服务端访问加密数据相同的终端访问加密数据,则确定目标服务端访问加密数据对应的终端访问流量为虚假访问流量。示例性的,预设识别时间可以设定为10秒范围内。预设识别时间范围的设定一方面是为了减少所要比对的数据量,因为网络内所要传输的数据量很大,设置一个相对较小的时间范围,可有效减少比对的数据量,减少对计算资源的消耗,另一方面是为了减少误差,因为数据被采集服务器采集之后,会由采集服务器打上时间标签,从采集到打上时间标签会有时间误差,设置一个时间范围,可确保所要比对的数据的完整性。终端访问流量可以是访问目标服务器端的对应终端的访问流量。
在本发明的一个可选实施例中,根据终端访问加密数据和服务端访问加密数据识别虚假访问流量,可以包括:从服务端访问加密数据中确定目标服务端访问加密数据;在预设识别时间范围内确定终端访问加密数据中存在与目标服务端访问加密数据相同的终端访问加密数据的情况下,将终端访问加密数据中与目标服务端访问加密数据相同的终端访问加密数据确定为目标终端访问加密数据;将目标终端访问加密数据对应的终端访问日志和目标服务端访问加密数据对应的服务器核验日志进行合并,得到合并访问核验日志;根据合并访问核验日志识别虚假访问流量。
其中,目标终端访问加密数据可以是与目标服务器端访问加密数据相同的终端访问加密数据。合并访问核验日志可以是通过将与目标终端访问加密数据对应的终端访问日志,以及与目标终端访问加密数据相同的目标服务器端访问加密数据对应的服务器核验日志进行合并处理得到。合并处理可以是对终端访问日志中的终端访问数据以及服务器核验日志中的服务器访问日志数据取交集。例如,服务器核验日志可以包括时间、终端cookie数据、终端URL数据、终端外网IP地址、源地址、服务器外网IP地址以及用户媒介,终端访问日志可以包括时间、终端内网IP地址、终端外网IP地址、服务器外网IP地址、网络设备IP地址、应用层协议、访问方式、cookie数据、URL数据、源地址、基站纬度数据、以及基站经度数据。合并访问核验日志可以是包含时间、终端外网IP地址、源地址、服务器外网IP地址、用户媒介、终端内网IP地址、服务器外网IP地址、网络设备IP地址、应用层协议、访问方式、cookie数据、URL数据、源地址、基站纬度数据、以及基站经度数据的日志。
相应的,在预设识别时间范围内比对目标服务端访问加密数据和终端访问加密数据,如果终端访问加密数据中存在与目标服务端访问加密数据相同的终端访问加密数据,则将与目标服务端访问加密数据相同的终端访问加密数据确定为目标终端访问加密数据。将与目标终端访问加密数据对应的终端访问日志,以及与目标终端访问加密数据相同的目标服务器端访问加密数据对应的服务器核验日志进行合并处理,得到合并访问核验日志,以进一步根据得到的合并访问核验日志识别虚假访问流量。
在本发明的一个可选实施例中,根据合并访问核验日志识别虚假访问流量,可以包括:将合并访问核验日志中的终端内网IP地址与终端外网IP地址合并作为终端身份标识数据;获取终端身份标识数据访问服务器的访问次数;在确定访问次数超过第一访问次数阈值的情况下,确定合并访问核验日志对应的终端访问流量为虚假访问流量。
其中,终端身份标识数据可以是对终端所产生的的访问流量进行虚假流量识别的标识数据。终端身份标识数据是通过终端内网IP地址与终端外网IP地址合并得到的,因为终端内网IP地址与终端外网IP合并数据是唯一的不重复的,因此终端身份标识数据与终端一一对应,通过终端身份标识数据能够唯一确定一个终端。第一次访问次数阈值可以是根据自身需要设定的一个固定数值。第一次访问次数阈值可以用于虚假访问流量识别。例如,终端身份标识数据访问服务器的访问次数超过第一次访问次数阈值,则终端身份标识数据对应的终端访问流量为虚假访问流量。
具体的,获取合并访问核验日志中的终端内网IP地址以及终端外网IP地址,将终端内网IP地址以及终端外网IP地址合并作为终端身份标识数据。根据终端身份标识数据获取对应终端访问服务器的访问次数,如果访问次数超过第一访问次数阈值,则与合并访问核验日志中的终端访问流量为虚假访问流量。
在本发明的一个可选实施例中,根据合并访问核验日志识别虚假访问流量,可以包括:将合并访问核验日志中的网络设备IP地址作为流量来源标识数据;获取流量来源标识数据中的访问终端数量;在确定访问终端数量超过访问数量阈值的情况下,将合并访问核验日志中的终端内网IP地址与终端外网IP地址合并作为终端身份标识数据,并获取终端身份标识数据访问服务器的访问次数;在确定访问次数超过第二访问次数阈值的情况下,确定合并访问核验日志对应的终端访问流量为虚假访问流量。
其中,流量来源标识数据可以是对流量来源进行标识的数据。例如,流量来源标识数据可以包括EnodeB IP地址。访问数量阈值可以是根据自身需要设定的在正常通信场景下所能接入的终端总数量。第二访问次数阈值可以是据自身需要设定的一个固定数值,用于与访问次数做比较从而实现虚假流量识别。第二访问次数阈值小于第一访问次数阈值,本发明实施例并不对访问数量阈值、第二访问次数阈值和第一访问次数阈值的具体数值进行限定。
在本发明实施例中,在根据合并访问核验日志识别虚假访问流量之前,首先将合并访问核验日志中的网络设备IP地址作为流量来源标识数据,根据流量来源标识数据确定在该网络设备通信范围内的访问终端数量,如果访问终端数量超过访问数量阈值,则将合并访问核验日志中的终端内网IP地址与终端外网IP地址合并作为终端身份标识数据。并根据各终端身份标识数据获取各终端访问服务器的访问次数,将访问服务器的访问次数超过第二访问次数阈值的终端对应的服务器侧的终端访问流量为虚假访问流量。
可选的,如果终端访问加密数据中存在与目标服务端访问加密数据相同的终端访问加密数据,则目标终端访问加密数据对应的终端访问日志和目标服务端访问加密数据对应的服务器核验日志可以不进行合并处理,直接根据目标终端访问加密数据对应的终端访问日志也可以获取网络设备IP地址以及终端内网IP地址,从而进行虚假访问流量识别。根据合并访问核验日志进行虚假访问流量识别的操作,可以减少数据核验次数,提高数据核验效率。
图3是本发明实施例二提供的一种虚假访问流量识别流程图,在一个具体的例子中,如图3所示,可以根据GTP数据、基站地理位置数据以及防火墙日志解析数据构建终端访问日志。根据服务器访问日志数据构建服务器核验日志。对终端访问日志中的cookie数据和URL数据做加密计算得到终端访问加密数据,并对服务器核验日志中的终端cookie数据和终端URL数据进行加密计算的到服务端访问加密数据。将服务端访问加密数据与终端访问加密数据进行比对,如果服务端访问加密数据与终端访问加密数据不相同,则服务器端访问加密数据对应的终端访问流量为虚假流量。
如果服务端访问加密数据与终端访问加密数据相同,则判断终端访问服务器的次数是否超过第一次访问次数阈值。如果终端访问服务器的次数超过第一次访问次数阈值则合并访问核验日志对应终端的终端访问流量为虚假访问流量,否则对应的终端访问流量为正常访问流量。同时判断EnodeB接入的终端数量是否超过访问数量阈值,如果EnodeB接入的终端数量没超过访问数量阈值,则EnodeB通信范围内的终端对应的终端访问流量为正常访问流量,否则根据终端身份标识数据获取该EnodeB所接入的所有终端。如果所接入该EnodeB的所有终端中存在访问次数超过第二访问次数阈值的终端,则访问次数超过第二访问次数阈值的终端对应的终端访问流量为虚假访问流量,否则对应的终端访问流量为正常访问流量。正常访问流量为终端真实访问服务器所产生的的流量。
为了防止单个终端访问次数过多被识别会出现将过多的访问次数均分到多个终端的方案,即多个终端多次访问服务器但是单个终端访问次数不超过第一访问次数阈值。那么如果只针对访问次数对虚假访问流量进行识别将不能识别出该类虚假访问流量。本发明实施例首先确定接入的终端数量超过访问数量阈值的EnodeB,其次确定接入该EnodeB的访问次数超过第二访问次数阈值的终端,最终确定终端对应的终端访问流量为虚假访问流量,可以识别出多个终端多次访问服务器但是单个终端访问次数不超过第一访问次数阈值方案下所产生的虚假访问流量。
在本发明的一个可选实施例中,在根据终端访问日志和服务器核验日志识别虚假访问流量之后,还可以包括:根据虚假访问流量确定目标基站地理位置数据;根据目标基站地理位置数据确定虚假访问流量的流量来源位置。
其中,目标基站地理位置可以是产生虚假访问流量的终端所接入的基站的地理位置。流量来源位置可以是产生虚假访问流量的位置。虚假访问流量的地址可以包括接入产生虚假访问流量的终端的大致地理位置。
在本发明实施例中,在根据终端访问日志和服务器核验日志识别虚假访问流量之后,根据虚假访问流量确定对应的合并访问核验日志,根据合并访问核验日志可以确定产生虚假访问流量的终端所接入的目标基站,进一步根据目标基站地理位置数据确定虚假访问流量的流量来源位置,即目标基站的经度与纬度。根据目标基站的经度与纬度可以确定产生虚假访问流量的对应终端的大致地理位置。
示例性的,可以通过对获取的所有虚假访问流量进行聚类分析,得到为虚假访问流量服务的基站地理位置,根据基站地理位置确定虚假访问流量的大致位置。例如,聚类分析可以包括对所有虚假访问流量进行统计分析。
在本发明实施例中,针对终端访问加密数据中存在与目标服务端访问加密数据相同的终端访问加密数据这种情况,如果终端访问次数超过第一访问次数阈值根据合并访问核验日志中的基站经度数据以及纬度数据可以确定产生虚假访问流量的终端所接入的基站的地理位置,即虚假访问流量的流量来源位置。如果访问终端数量超过访问数量阈值,根据流量来源标识数据以及第二次访问次数阈值确定虚假访问流量,产生虚假访问流量终端所接入的基站的地理位置作为虚假访问流量的流量来源位置。
图4是本发明实施例二提供的一种虚假访问流量识别定位流程图,如图4所示,解析原始流量数据中的EnodeB IP地址、PGW IP地址、终端内网IP地址和服务器外网IP地址、cookie数据以及URL数据,再解析防火墙网络地址转换日志获取终端外网IP地址,进一步根据运营商基站工程参数获取基站地理位置数据。根据获得的EnodeB IP地址、PGW IP地址、终端内网IP地址和服务器外网IP地址、cookie数据、URL数据、终端外网IP地址以及基站地理位置数据构建终端访问日志。根据服务器中用于进行广告结算的访问日志构建服务器核验日志。将完成构建的服务器核验日志和终端访问日志进行关联分析,从服务器核验日志中提取出虚假访问流量,根据识别出的虚假访问流量确定虚假访问流量的来源位置。
图5是本发明实施例二提供的一种终端向广告服务器发送请求的示例图,如图5所示,当终端向广告服务器发送请求,该请求产生的数据通过EnodeB与SGW发送至PGW。PGW将数据发送至防火墙,防火墙对数据中的终端内网IP地址转换为终端外网IP地址。防火墙将数据发送至广告服务器,广告服务器根据接收到的数据进行费用结算。
图6是本发明实施例二提供的一种广告访问过程示意图,在一个具体的例子中,如图6所示,终端接收到用户发出的APP登陆请求时,APP将用户的cookie数据发送至广告服务器,广告服务器根据存储的用户画像信息,匹配到用户喜好,同时将要显示的广告以及广告资源地址发送至APP,由APP将广告页面展示在广告位上。用户点击广告的同时向广告服务器中的广告资源发送访问请求,该访问请求包括了广告资源地址和链接标签等信息。
网络设备的覆盖范围受基站类型和覆盖场景不同,覆盖范围可大致分为室内微基站覆盖楼宇,室外宏基站覆盖在城市核心区200米以内,一般城区500米以内,郊区及农村2公里以内。而现有技术采用IP地址定位只能定位到城市级别,在定位精度上明显不足。本发明实施例提供的根据目标基站地理位置数据确定虚假访问流量来源位置的方法,可以将虚假访问流量来源位置定位在所接入基站的覆盖范围内,因此本发明实施例提供的方案大大提升了虚假访问流量来源位置的定位效果。
本发明实施例,根据GTP数据、防火墙日志解析数据以及基站地理位置数据构建终端访问数据,进一步根据终端访问数据构建的终端访问日志和服务器核验日志对虚假访问流量进行识别与定位,提高了虚假访问流量的识别率,提升了虚假访问流量来源位置的定位精度。
需要说明的是,以上各实施例中各技术特征之间的任意排列组合也属于本发明的保护范围。
实施例三
图7是本发明实施例三提供的一种流量识别装置的示意图,如图7所示,所述装置包括:数据获取模块310、终端访问日志构建模块320、服务器核验日志构建模块330以及虚假访问流量识别模块340,其中:
数据获取模块310,用于获取终端访问数据和服务器访问日志数据;
终端访问日志构建模块320,用于根据所述终端访问数据构建终端访问日志;
服务器核验日志构建模块330,用于根据所述服务器访问日志数据构建服务器核验日志;
虚假访问流量识别模块340,用于根据所述终端访问日志和所述服务器核验日志识别虚假访问流量。
可选的,数据获取模块310,具体用于:获取运营商管道数据和终端防火墙日志数据;解析所述运营商管道数据,以获取GTP数据;解析所述终端防火墙日志数据,以获取防火墙日志解析数据;根据所述GTP数据和所述防火墙日志解析数据构建所述终端访问数据。
可选的,数据获取模块310,具体用于:获取运营商基站工程数据;解析所述运营商基站工程数据,以获取基站地理位置数据;所述根据所述GTP数据和所述防火墙日志解析数据构建所述终端访问数据,包括:根据所述GTP数据、所述防火墙日志解析数据和所述基站地理位置数据构建所述终端访问数据。
可选的,数据获取模块310,具体用于:获取运营商通信接口的原始流量数据作为所述运营商管道数据;所述解析所述运营商管道数据,以获取GTP数据,包括:解析所述原始流量数据中的GTP协议信息,获取网络设备IP地址、服务器外网IP地址、终端内网IP地址和终端访问标识数据;其中,所述终端访问标识数据包括cookie数据和URL数据;根据所述网络设备IP地址、所述服务器外网IP地址、所述终端内网IP地址、所述cookie数据和所述URL数据构建所述GTP数据。
可选的,防火墙日志解析数据包括终端内网IP地址、终端外网IP地址以及IP地址映射关系,数据获取模块310,具体用于:根据所述终端内网IP地址、所述终端外网IP地址以及所述IP地址映射关系确定与各所述终端内网IP地址对应的各所述终端外网IP地址;根据所述网络设备IP地址、所述服务器外网IP地址、所述终端内网IP地址、所述终端外网IP地址、所述cookie数据、所述URL数据和基站地理位置数据所述构建所述终端访问数据。
可选的,服务器核验日志构建模块330,具体用于:解析所述服务器访问日志数据,获取服务端侧的终端cookie数据和终端URL数据;根据所述服务端侧的终端内网IP地址、服务器外网IP地址、终端cookie数据和终端URL数据构建所述服务器核验日志。
可选的,虚假访问流量识别模块340,具体用于:提取所述终端访问日志中包括的cookie数据和URL数据,并对所述cookie数据和所述URL数据进行加密计算,得到终端访问加密数据;提取所述服务器核验日志中包括的终端cookie数据和终端URL数据,并对所述终端cookie数据和所述终端URL数据进行加密计算,得到服务端访问加密数据;根据所述终端访问加密数据和所述服务端访问加密数据识别所述虚假访问流量。
可选的,虚假访问流量识别模块340,具体用于:从所述服务端访问加密数据中确定目标服务端访问加密数据;在预设识别时间范围内确定所述终端访问加密数据中不存在与所述目标服务端访问加密数据相同的终端访问加密数据的情况下,确定所述目标服务端访问加密数据对应的终端访问流量为所述虚假访问流量。
可选的,虚假访问流量识别模块340,具体用于:从所述服务端访问加密数据中确定目标服务端访问加密数据;在预设识别时间范围内确定所述终端访问加密数据中存在与所述目标服务端访问加密数据相同的终端访问加密数据的情况下,将所述终端访问加密数据中与所述目标服务端访问加密数据相同的终端访问加密数据确定为目标终端访问加密数据;将所述目标终端访问加密数据对应的终端访问日志和所述目标服务端访问加密数据对应的服务器核验日志进行合并,得到合并访问核验日志;根据所述合并访问核验日志识别所述虚假访问流量。
可选的,虚假访问流量识别模块340,具体用于:将所述合并访问核验日志中的终端内网IP地址与终端外网IP地址合并作为终端身份标识数据;获取所述终端身份标识数据访问服务器的访问次数;在确定所述访问次数超过第一访问次数阈值的情况下,确定所述合并访问核验日志对应的终端访问流量为所述虚假访问流量。
可选的,虚假访问流量识别模块340,具体用于:将所述合并访问核验日志中的网络设备IP地址作为流量来源标识数据;获取所述流量来源标识数据中的访问终端数量;在确定所述访问终端数量超过访问数量阈值的情况下,将所述合并访问核验日志中的终端内网IP地址与终端外网IP地址合并作为终端身份标识数据,并获取所述终端身份标识数据访问服务器的访问次数;在确定所述访问次数超过第二访问次数阈值的情况下,确定所述合并访问核验日志对应的终端访问流量为所述虚假访问流量。
可选的,流量识别装置,还可以包括虚假访问流量定位模块,用于根据所述虚假访问流量确定目标基站地理位置数据;根据所述目标基站地理位置数据确定所述虚假访问流量的流量来源位置。
本发明实施例根据获取的终端访问数据构建终端访问日志,并根据获取的服务器访问日志数据构建服务器核验日志,以根据终端访问日志和服务器核验日志识别虚假访问流量,解决了现有技术中虚假访问流量识别准确率低的问题,提高了虚假访问流量的识别准确率。
上述流量识别装置可执行本发明任意实施例所提供的流量识别方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任意实施例提供的流量识别方法。
由于上述所介绍的流量识别装置为可以执行本发明实施例中的流量识别方法的装置,故而基于本发明实施例中所介绍的流量识别方法,本领域所属技术人员能够了解本实施例的流量识别装置的具体实施方式以及其各种变化形式,所以在此对于该流量识别装置如何实现本发明实施例中的流量识别方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中流量识别方法所采用的装置,都属于本申请所欲保护的范围。
实施例四
图8为本发明实施例四提供的一种电子设备的结构示意图。图8示出了适于用来实现本发明实施方式的电子设备412的框图。图8显示的电子设备412仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图8所示,电子设备412以通用计算设备的形式表现。电子设备412的组件可以包括但不限于:一个或者多个处理器416,存储装置428,连接不同系统组件(包括存储装置428和处理器416)的总线418。
总线418表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture,ISA)总线,微通道体系结构(MicroChannel Architecture,MCA)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,VESA)局域总线以及外围组件互连(Peripheral Component Interconnect,PCI)总线。
电子设备412典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备412访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储装置428可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory,RAM)430和/或高速缓存存储器432。电子设备412可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统434可以用于读写不可移动的、非易失性磁介质(图8未显示,通常称为“硬盘驱动器”)。尽管图8中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如只读光盘(Compact Disc-ReadOnly Memory,CD-ROM)、数字视盘(Digital Video Disc-Read Only Memory,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线418相连。存储装置428可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块426的程序436,可以存储在例如存储装置428中,这样的程序模块426包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块426通常执行本发明所描述的实施例中的功能和/或方法。
电子设备412也可以与一个或多个外部设备414(例如键盘、指向设备、摄像头、显示器424等)通信,还可与一个或者多个使得用户能与该电子设备412交互的设备通信,和/或与使得该电子设备412能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(Input/Output,I/O)接口422进行。并且,电子设备412还可以通过网络适配器420与一个或者多个网络(例如局域网(Local AreaNetwork,LAN),广域网Wide Area Network,WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器420通过总线418与电子设备412的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备412使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of IndependentDisks,RAID)系统、磁带驱动器以及数据备份存储系统等。
处理器416通过运行存储在存储装置428中的程序,从而执行各种功能应用以及数据处理,例如实现本发明上述实施例所提供的流量识别方法:获取终端访问数据和服务器访问日志数据;根据所述终端访问数据构建终端访问日志;根据所述服务器访问日志数据构建服务器核验日志;根据所述终端访问日志和所述服务器核验日志识别虚假访问流量。
本发明实施例,根据获取的终端访问数据构建终端访问日志,并根据获取的服务器访问日志数据构建服务器核验日志,以根据终端访问日志和服务器核验日志识别虚假访问流量,解决了现有技术中虚假访问流量识别准确率低的问题,提高了虚假访问流量的识别准确率。
实施例五
本发明实施例五还提供一种存储计算机程序的计算机存储介质,所述计算机程序在由计算机处理器执行时用于执行本发明上述实施例任一所述的流量识别方法:获取终端访问数据和服务器访问日志数据;根据所述终端访问数据构建终端访问日志;根据所述服务器访问日志数据构建服务器核验日志;根据所述终端访问日志和所述服务器核验日志识别虚假访问流量。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ReadOnly Memory,ROM)、可擦式可编程只读存储器((Erasable Programmable Read OnlyMemory,EPROM)或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、射频(Radio Frequency,RF)等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (13)

1.一种流量识别方法,其特征在于,包括:
获取终端访问数据和服务器访问日志数据;
根据所述终端访问数据构建终端访问日志;
根据所述服务器访问日志数据构建服务器核验日志;
根据所述终端访问日志和所述服务器核验日志识别虚假访问流量;
其中,所述根据所述服务器访问日志数据构建服务器核验日志,包括:
解析所述服务器访问日志数据,获取服务端侧的终端cookie数据和终端URL数据;
根据所述服务端侧的终端外网IP地址、服务器外网IP地址、终端cookie数据和终端URL数据构建所述服务器核验日志;
其中,所述根据所述终端访问日志和所述服务器核验日志识别虚假访问流量,包括:
提取所述终端访问日志中包括的cookie数据和URL数据,并对所述cookie数据和所述URL数据进行加密计算,得到终端访问加密数据;
提取所述服务器核验日志中包括的终端cookie数据和终端URL数据,并对所述终端cookie数据和所述终端URL数据进行加密计算,得到服务端访问加密数据;
根据所述终端访问加密数据和所述服务端访问加密数据识别所述虚假访问流量。
2.根据权利要求1所述的方法,其特征在于,所述获取终端访问数据,包括:
获取运营商管道数据和终端防火墙日志数据;
解析所述运营商管道数据,以获取GTP数据;
解析所述终端防火墙日志数据,以获取防火墙日志解析数据;
根据所述GTP数据和所述防火墙日志解析数据构建所述终端访问数据。
3.根据权利要求2所述的方法,其特征在于,在所述根据所述GTP数据和所述防火墙日志解析数据构建所述终端访问数据之前,还包括:
获取运营商基站工程数据;
解析所述运营商基站工程数据,以获取基站地理位置数据;
所述根据所述GTP数据和所述防火墙日志解析数据构建所述终端访问数据,包括:
根据所述GTP数据、所述防火墙日志解析数据和所述基站地理位置数据构建所述终端访问数据。
4.根据权利要求3所述的方法,其特征在于,所述获取运营商管道数据,包括:
获取运营商通信接口的原始流量数据作为所述运营商管道数据;
所述解析所述运营商管道数据,以获取GTP数据,包括:
解析所述原始流量数据中的GTP协议信息,获取网络设备IP地址、服务器外网IP地址、终端内网IP地址和终端访问标识数据;其中,所述终端访问标识数据包括cookie数据和统一资源定位符URL数据;
根据所述网络设备IP地址、所述服务器外网IP地址、所述终端内网IP地址、所述cookie数据和所述URL数据构建所述GTP数据。
5.根据权利要求4所述的方法,其特征在于,所述防火墙日志解析数据包括终端内网IP地址、终端外网IP地址以及IP地址映射关系;
所述根据所述GTP数据、所述防火墙日志解析数据和所述基站地理位置数据构建所述终端访问数据,包括:
根据所述终端内网IP地址、所述终端外网IP地址以及所述IP地址映射关系确定与各所述终端内网IP地址对应的各所述终端外网IP地址;
根据所述网络设备IP地址、所述服务器外网IP地址、所述终端内网IP地址、所述终端外网IP地址、所述cookie数据、所述URL数据和基站地理位置数据所述构建所述终端访问数据。
6.根据权利要求1所述的方法,其特征在于,所述根据所述终端访问加密数据和所述服务端访问加密数据识别所述虚假访问流量,包括:
从所述服务端访问加密数据中确定目标服务端访问加密数据;
在预设识别时间范围内确定所述终端访问加密数据中不存在与所述目标服务端访问加密数据相同的终端访问加密数据的情况下,确定所述目标服务端访问加密数据对应的终端访问流量为所述虚假访问流量。
7.根据权利要求1所述的方法,其特征在于,所述根据所述终端访问加密数据和所述服务端访问加密数据识别所述虚假访问流量,包括:
从所述服务端访问加密数据中确定目标服务端访问加密数据;
在预设识别时间范围内确定所述终端访问加密数据中存在与所述目标服务端访问加密数据相同的终端访问加密数据的情况下,将所述终端访问加密数据中与所述目标服务端访问加密数据相同的终端访问加密数据确定为目标终端访问加密数据;
将所述目标终端访问加密数据对应的终端访问日志和所述目标服务端访问加密数据对应的服务器核验日志进行合并,得到合并访问核验日志;
根据所述合并访问核验日志识别所述虚假访问流量。
8.根据权利要求7所述的方法,其特征在于,所述根据所述合并访问核验日志识别所述虚假访问流量,包括:
将所述合并访问核验日志中的终端内网IP地址与终端外网IP地址合并作为终端身份标识数据;
获取所述终端身份标识数据访问服务器的访问次数;
在确定所述访问次数超过第一访问次数阈值的情况下,确定所述合并访问核验日志对应的终端访问流量为所述虚假访问流量。
9.根据权利要求7所述的方法,其特征在于,所述根据所述合并访问核验日志识别所述虚假访问流量,包括:
将所述合并访问核验日志中的网络设备IP地址作为流量来源标识数据;
获取所述流量来源标识数据中的访问终端数量;
在确定所述访问终端数量超过访问数量阈值的情况下,将所述合并访问核验日志中的终端内网IP地址与终端外网IP地址合并作为终端身份标识数据,并获取所述终端身份标识数据访问服务器的访问次数;在确定所述访问次数超过第二访问次数阈值的情况下,确定所述合并访问核验日志对应的终端访问流量为所述虚假访问流量。
10.根据权利要求1所述的方法,其特征在于,在所述根据所述终端访问日志和所述服务器核验日志识别虚假访问流量之后,还包括:
根据所述虚假访问流量确定目标基站地理位置数据;
根据所述目标基站地理位置数据确定所述虚假访问流量的流量来源位置。
11.一种流量识别装置,其特征在于,包括:
数据获取模块,用于获取终端访问数据和服务器访问日志数据;
终端访问日志构建模块,用于根据所述终端访问数据构建终端访问日志;
服务器核验日志构建模块,用于根据所述服务器访问日志数据构建服务器核验日志;
虚假访问流量识别模块,用于根据所述终端访问日志和所述服务器核验日志识别虚假访问流量;
其中,所述服务器核验日志构建模块,具体用于解析所述服务器访问日志数据,获取服务端侧的终端cookie数据和终端URL数据;根据所述服务端侧的终端外网IP地址、服务器外网IP地址、终端cookie数据和终端URL数据构建所述服务器核验日志;
其中,所述虚假访问流量识别模块,具体用于提取所述终端访问日志中包括的cookie数据和URL数据,并对所述cookie数据和所述URL数据进行加密计算,得到终端访问加密数据;提取所述服务器核验日志中包括的终端cookie数据和终端URL数据,并对所述终端cookie数据和所述终端URL数据进行加密计算,得到服务端访问加密数据;根据所述终端访问加密数据和所述服务端访问加密数据识别所述虚假访问流量。
12.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-10中任一所述的流量识别方法。
13.一种计算机存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-10中任一所述的流量识别方法。
CN202011322816.8A 2020-11-23 2020-11-23 一种流量识别方法、装置、电子设备及存储介质 Active CN112511459B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011322816.8A CN112511459B (zh) 2020-11-23 2020-11-23 一种流量识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011322816.8A CN112511459B (zh) 2020-11-23 2020-11-23 一种流量识别方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112511459A CN112511459A (zh) 2021-03-16
CN112511459B true CN112511459B (zh) 2024-04-26

Family

ID=74959591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011322816.8A Active CN112511459B (zh) 2020-11-23 2020-11-23 一种流量识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112511459B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113194043B (zh) * 2021-03-18 2022-09-02 成都深思科技有限公司 一种nat环境下的网络流量分类方法
CN114422232B (zh) * 2022-01-17 2024-03-22 恒安嘉新(北京)科技股份公司 一种违规流量的监测方法、装置、电子设备、系统及介质
CN115941357B (zh) * 2023-01-09 2023-05-12 北京安帝科技有限公司 基于工业安全的流量日志检测方法、装置与电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10037546B1 (en) * 2012-06-14 2018-07-31 Rocket Fuel Inc. Honeypot web page metrics
CN108810948A (zh) * 2018-05-29 2018-11-13 浙江每日互动网络科技股份有限公司 一种鉴别真实流量的方法
CN108810947A (zh) * 2018-05-29 2018-11-13 浙江每日互动网络科技股份有限公司 基于ip地址的鉴别真实流量的服务器
CN108881305A (zh) * 2018-08-08 2018-11-23 西安交通大学 一种面向加密流量识别的样本自动标定方法
CN111814084A (zh) * 2020-06-18 2020-10-23 北京天空卫士网络安全技术有限公司 数据访问管理的方法、装置和系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7903566B2 (en) * 2008-08-20 2011-03-08 The Boeing Company Methods and systems for anomaly detection using internet protocol (IP) traffic conversation data
JP6053091B2 (ja) * 2014-03-19 2016-12-27 日本電信電話株式会社 トラヒック特徴情報抽出方法、トラヒック特徴情報抽出装置及びトラヒック特徴情報抽出プログラム
US20150288711A1 (en) * 2014-04-03 2015-10-08 The Sylint Group Network analysis apparatus and method
US10469523B2 (en) * 2016-02-24 2019-11-05 Imperva, Inc. Techniques for detecting compromises of enterprise end stations utilizing noisy tokens

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10037546B1 (en) * 2012-06-14 2018-07-31 Rocket Fuel Inc. Honeypot web page metrics
CN108810948A (zh) * 2018-05-29 2018-11-13 浙江每日互动网络科技股份有限公司 一种鉴别真实流量的方法
CN108810947A (zh) * 2018-05-29 2018-11-13 浙江每日互动网络科技股份有限公司 基于ip地址的鉴别真实流量的服务器
CN108881305A (zh) * 2018-08-08 2018-11-23 西安交通大学 一种面向加密流量识别的样本自动标定方法
CN111814084A (zh) * 2020-06-18 2020-10-23 北京天空卫士网络安全技术有限公司 数据访问管理的方法、装置和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Nuttachot Promrit ; Anirach Mingkhwan.Traffic Flow Classification and Visualization for Network Forensic Analysis.2015 IEEE 29th International Conference on Advanced Information Networking and Applications.2015,全文. *
基于数据挖掘的异常流量检测技术;倪谢俊;中国优秀硕士学位论文数据库;20160916;全文 *

Also Published As

Publication number Publication date
CN112511459A (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
CN112511459B (zh) 一种流量识别方法、装置、电子设备及存储介质
US9280665B2 (en) Fast and accurate identification of message-based API calls in application binaries
CN110933103B (zh) 反爬虫方法、装置、设备和介质
WO2022142685A1 (zh) 传染病的传染概率预测方法及装置、存储介质、电子设备
US10754717B2 (en) Fast and accurate identification of message-based API calls in application binaries
CN110324416B (zh) 下载路径跟踪方法、装置、服务器、终端及介质
CN110313147A (zh) 数据处理方法、装置和系统
US20210288976A1 (en) Methods and apparatus to analyze network traffic for malicious activity
CN104579830A (zh) 服务监控方法及装置
CN102035847B (zh) 用户访问行为处理方法、系统和客户端
CN114157568B (zh) 一种浏览器安全访问方法、装置、设备及存储介质
CN110955890B (zh) 恶意批量访问行为的检测方法、装置和计算机存储介质
CN113206850B (zh) 恶意样本的报文信息获取方法、装置、设备及存储介质
CN112685255A (zh) 一种接口监控方法、装置、电子设备及存储介质
CN111209566A (zh) 一种多层威胁拦截的智能反爬虫系统及方法
CN113839948B (zh) 一种dns隧道流量检测方法、装置、电子设备和存储介质
CN115022201B (zh) 一种数据处理功能测试方法、装置、设备及存储介质
CN112306826A (zh) 用于终端的处理信息的方法和装置
CN113225325B (zh) 一种ip黑名单确定方法、装置、设备及存储介质
CN113794731B (zh) 识别基于cdn流量伪装攻击的方法、装置、设备和介质
CN113923190B (zh) 设备标识跳变的识别方法及装置、服务器及存储介质
CN114417198A (zh) 一种网络诈骗预警方法、装置、预警设备、系统
CN109714371B (zh) 一种工控网络安全检测系统
CN110868410B (zh) 获取网页木马连接密码的方法、装置、电子设备、及存储介质
CN109933990B (zh) 基于多模式匹配的安全漏洞发现方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant