CN110895593B - 数据处理方法、装置及电子设备 - Google Patents

数据处理方法、装置及电子设备 Download PDF

Info

Publication number
CN110895593B
CN110895593B CN201811063852.XA CN201811063852A CN110895593B CN 110895593 B CN110895593 B CN 110895593B CN 201811063852 A CN201811063852 A CN 201811063852A CN 110895593 B CN110895593 B CN 110895593B
Authority
CN
China
Prior art keywords
data
downlink data
server
webpage
uplink data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811063852.XA
Other languages
English (en)
Other versions
CN110895593A (zh
Inventor
孙建亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811063852.XA priority Critical patent/CN110895593B/zh
Publication of CN110895593A publication Critical patent/CN110895593A/zh
Application granted granted Critical
Publication of CN110895593B publication Critical patent/CN110895593B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本申请实施例提供一种数据处理方法、装置及电子设备,其中方法包括:获取网站服务器与终端设备之间传输的网页的下行数据;判断所述下行数据是否满足预设条件;若满足,则查找所述下行数据对应的上行数据;根据所述上行数据确定所述网页对应的URL。本申请实施例提供的数据处理方法、装置及电子设备,能够快速、准确地利用网站服务器与终端设备之间传输的真实数据来查找满足预设条件的网页URL,获取到的网页内容与实际展示给用户的网页内容一致,同时通过上行数据来确定网页URL,有效提高了网页提取的准确性和效率。

Description

数据处理方法、装置及电子设备
技术领域
本申请涉及互联网技术领域,尤其涉及一种数据处理方法、装置及电子设备。
背景技术
随着互联网技术的不断发展和硬件设备处理速度的不断提升,各种网站也层出不穷,如何从中提取出符合要求的网页成为新的问题,例如,为了保证网络信息合法性,常常需要及时从海量的网页中提取出内容违规的网页。
现有技术中,通常采用离线爬取的方案来查找违规网页的URL,首先离线搜集HTTP访问日志,并在一段时间内对该日志进行去重,然后将去重之后的URL进行离线爬取,通过相关算法对爬取获得的内容进行处理,判断网页是否为违规网页,若是,则上报网页URL到违规处理平台。
现有技术的不足之处在于,因为离线爬取时不一定具备用户的相关信息,所以爬取的页面很有可能是失败网页或者是空网页,也就是说,通过离线爬取的方式获得的网页内容不一定与展示给用户的网页内容一致,会漏掉很多有用户权限管理的违规网页,因此导致网页提取效果较差、效率较低。
发明内容
有鉴于此,本申请实施例提供一种数据处理方法、装置及电子设备,以提高查找符合要求的网页URL的效率。
第一方面,本申请实施例提供一种数据处理方法,包括:
获取网站服务器与终端设备之间传输的网页的下行数据;
判断所述下行数据是否满足预设条件;
若满足,则查找所述下行数据对应的上行数据;
根据所述上行数据确定所述网页对应的URL。
第二方面,本申请实施例提供一种数据处理方法,包括:
获取服务器与终端设备之间传输的网页的下行数据,其中,所述下行数据包括所述服务器向所述终端设备发送的数据;
判断所述下行数据是否包含满足预设条件的关键词;
若包含,则查找所述下行数据对应的上行数据,其中,所述上行数据包括所述终端设备向所述服务器发送的数据;
根据所述上行数据确定满足预设条件的网页的URL。
第三方面,本申请实施例提供一种数据处理装置,包括:
第一获取模块,用于获取网站服务器与终端设备之间传输的网页的下行数据;
第一判断模块,用于判断所述下行数据是否满足预设条件;
第一查找模块,用于在所述下行数据满足预设条件时,查找所述下行数据对应的上行数据;
第一确定模块,用于根据所述上行数据确定所述网页对应的URL。
第四方面,本申请实施例提供一种数据处理装置,包括:
第二获取模块,用于获取网站服务器与终端设备之间传输的网页的下行数据,其中,所述下行数据包括所述服务器向所述终端设备发送的数据;
第二判断模块,用于判断所述下行数据是否包含满足预设条件的关键词;
第二查找模块,用于在所述下行数据包含所述满足预设条件的关键词时,查找所述下行数据对应的上行数据,其中,所述上行数据包括所述终端设备向所述服务器发送的数据;
第二确定模块,用于根据所述上行数据确定满足预设条件的网页的URL。
第五方面,本申请实施例提供一种电子设备,包括第一处理器和第一存储器,所述第一存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述第一处理器执行时实现上述第一方面中的数据处理方法。该电子设备还可以包括第一通信接口,用于与其他设备或通信网络通信。
第六方面,本申请实施例提供一种电子设备,包括第二处理器和第二存储器,所述第二存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述第二处理器执行时实现上述第二方面中的数据处理方法。该电子设备还可以包括第二通信接口,用于与其他设备或通信网络通信。
本申请实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第一方面或第二方面中的数据处理方法。
本申请实施例提供的数据处理方法、装置及电子设备,可以实时获取网站服务器与终端设备之间传输的上行数据和下行数据,并判断网页的下行数据是否满足预设条件,如是否包含违禁违规关键词等,若满足预设条件,则查找所述下行数据对应的上行数据,并根据所述上行数据确定所述网页的URL,能够快速、准确地利用网站服务器与终端设备之间传输的真实数据来查找满足预设条件的网页URL,获取到的网页内容与实际展示给用户的网页内容一致,同时通过上行数据来确定网页URL,有效提高了网页提取的准确性和效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的数据处理方法的一种应用场景示意图;
图2为本申请实施例提供的数据处理方法实施例一的流程示意图;
图3为本申请实施例提供的一种下行数据的处理逻辑示意图;
图4为本申请实施例提供的一种URL对准示意图;
图5为本申请实施例提供的数据处理方法实施例二的流程示意图;
图6为本申请实施例提供的数据处理方法实施例三的流程示意图;
图7为本申请实施例提供的数据处理方法实施例四的流程示意图;
图8为本申请实施例提供的数据处理方法实施例五的流程示意图;
图9为本申请实施例提供的一种数据处理装置的结构示意图;
图10为本申请实施例提供的另一种数据处理装置的结构示意图;
图11为本申请实施例提供的一种电子设备的结构示意图;
图12为本申请实施例提供的另一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
图1为本申请实施例提供的数据处理方法的一种应用场景示意图。如图1所示,用户在终端设备访问网站,终端设备通过互联网与网站进行通信,向用户显示请求的网页内容。
用户访问的网站可能是正常的网站,也可能是违规违禁的网站,本申请实施例可以在网络出入口处通过旁路镜像的方式获取原始数据流,数据处理设备可以根据原始数据流分析网页是否包含违规违禁的内容,从而提取出违规网页。
在另外一种可选的实施方式中,也可以通过串行等方法来获取原始数据流,并对原始数据流进行分析,判断网页是否包含违规违禁的内容。通过旁路镜像和通过串行方式获取数据流的具体实现方法均属于现有技术,本实施例中不再赘述。
此外,本申请实施例提供的方法,除了可以用于根据数据流判断网页是否为违规网页,还可以用于判断网页是否为其它满足要求的网页,例如,是否为针对某一热点舆情的网页,等等。
下面结合如下的方法实施例以及附图对本申请实施例提供的数据处理方法的实现过程进行介绍。另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
图2为本申请实施例提供的数据处理方法实施例一的流程示意图。本申请实施例提供的方法的执行主体可以为任意具有数据处理能力的电子设备,例如图1中的数据处理设备。如图2所示,本实施例中的数据处理方法,可以包括:
步骤201、获取网站服务器与终端设备之间传输的网页的下行数据。
具体地,用户可以通过终端设备发起网页请求,服务器获取到网页请求后,将对应的网页内容发送给终端设备,由终端设备显示或播放给用户。本申请实施例中,上行数据可以为终端设备向服务器发送的数据,一般指网页请求链路(http_request),下行数据可以为服务器向终端设备发送的数据,一般指响应链路(http_response)。
可选的,可以通过旁路镜像,或者通过串行,或者通过其它任意方式来获取互联网中的数据包,并通过数据包来获取网站服务器与终端设备之间传输的网页的下行数据。
旁路镜像是一种采用分光分流等方法通过旁路获取网络流量的方式。可选的,可以获取通过旁路镜像采集到的数据包;根据所述数据包对应的IP信息,确定所述数据包是否为下行数据包;若为下行数据包,则根据所述数据包的协议类型,判断所述数据包是否为网页的下行数据包;若是,则对所述下行数据包进行还原,得到下行数据。
具体地,获取到的数据包一般包括IP数据包和底层数据包,可选的,可以首先判断获取到的数据包是否为IP数据包,若是,则判断是TCP(Transmission Control Protocol,传输控制协议)数据包还是UDP(User Datagram Protocol,用户数据报协议)数据包。
若是TCP数据包,则进一步判断是否为网页数据包,可选的,可以根据TCP数据包的协议类型来判断是否为网页数据包,即判断数据包是否为请求网页的数据包(上行数据包)或网页响应的数据包(下行数据包)。一般来说,可以判断TCP数据包对应的协议是否为HTTP协议或其它表明数据包为网页数据包的协议,若是,则判断其为网页数据包。
HTTP协议(HyperText Transfer Protocol,超文本传输协议)是用于从服务器传输超文本到本地浏览器的传送协议。RFC 1945定义了HTTP/1.0版本,RFC 2616定义了今天普遍使用的一个版本——HTTP 1.1。
根据数据包中的IP地址,可以判断是上行数据包还是下行数据包,若数据包中的源IP地址为服务器IP,则判断其为下行数据包,若数据包中的目的IP地址为服务器IP,则判断其为上行数据包。
在得到网页的下行数据包后,可以对下行数据包进行还原操作,得到下行数据。具体地,可以首先对数据包进行流重组,然后进行压缩解析、chunk解析和编码转换等工作,从而得到下行数据。
步骤202、判断所述下行数据是否满足预设条件。
所述预设条件可以根据要提取的网页的要求来设置。例如,如果目的是找出违规违禁的网页,则所述预设条件可以为包含违规违禁关键词;如果目的是找出讨论热点舆情的网页,则所述预设条件可以为包含热点舆情的关键词;或者,所述预设条件可以为其它任意条件例如文本字数大于预设字数、页面包含图片、页面图片是否符合要求,等等。
图片等多媒体数据一般比较大,因此对设备的处理能力有比较高的要求。可选的,本实施例中可以通过判断下行数据中的文本信息是否包含相应的关键词来确定下行数据是否满足预设条件。
图3为本申请实施例提供的一种下行数据的处理逻辑示意图。如图3所示,对获取到的TCP数据包的IP信息进行识别,可以确定其是否为下行数据包,对下行数据包进行协议判断,可以确定其是否为网页的下行数据包,对网页的下行数据包进行还原,可以得到下行数据,对下行数据进行关键词判断,可以得到满足预设条件的下行数据如违规下行数据等。
图3给出的是一种示意流程,各个判断逻辑的顺序可以根据实际需要来调整,例如,也可以先判断是否为下行数据,再判断是否为网页数据包。
步骤203、若满足,则查找所述下行数据对应的上行数据。
具体地,根据数据包的IP地址确定其是否为上行数据包。对获取到的上行数据包进行还原,可以得到上行数据。将上行数据与下行数据进行对比,如果相匹配的话,说明是关联的上行数据和下行数据,也就是说,该下行数据为服务器响应于该上行数据返回的信息,该下行数据与该上行数据属于一个完整的网页信息。
本申请实施例中所述的上行数据/下行数据,可以是指上行数据包/下行数据包还原后得到的全部数据,也可以是上行数据包/下行数据包还原后得到的部分数据。可选的,所述上行数据可以包括元组信息、数据包序列号和URL(Uniform Resource Locator,统一资源定位符),所述下行数据可以包括元组信息、数据包序列号和文本信息。
其中,所述元组信息可以为四元组信息或五元组信息或七元组信息等,其中包含有数据包的属性信息,例如五元组信息可以包括源IP地址、源端口、目的IP地址、目的端口、和传输层协议。所述数据包序列号可以为TCP数据包的sequence。
查找所述下行数据对应的上行数据,也可以称为下行数据和上行数据的对准。在分析网页流量的时候,不仅要能够对下行数据进行关键词匹配,还要能够找到下行数据关联的上行数据,从而将下行数据对应的URL查找出来,本申请实施例中,将这种上下行数据的关联叫做双向流量对准。在云上这种海量流量的场景下进行数据对准是有一定挑战的。
可选的,可以根据下行数据的元组信息、下行数据的数据包序列号或下行数据的获取时间等信息来确定下行数据对应的上行数据。
在一种可选的实施方式中,可以根据下行数据的元组信息和获取时间查找对应的上行数据,具体地,若某一上行数据的元组信息与下行数据的元组信息相匹配,且获取到该上行数据的时间与获取到所述下行数据的时间间隔小于预设值,则认为两者属于一个完整的网页信息。这种方式简单、快捷,但是在终端设备短时间内发起大量的同一服务器的网页请求时,可能会出现对准错误。
在另一种可选的实施方式中,可以根据下行数据的元组信息和数据包序列号查找对应的上行数据,具体地,若某一上行数据的元组信息与下行数据的元组信息相匹配,且该上行数据的数据包序列号与所述下行数据的数据包序列号相匹配,则认为两者属于一个完整的网页信息。这种方式能够更加准确地实现对上行数据和下行数据的对准。
可选的,为了提高对准的处理效率,可以将下行数据仅与一定时间内获取到的上行数据进行对准判断。具体地,在获取到上行数据后,可以将上行数据保留预设时间,如五分钟,五分钟之后即删除所述上行数据。在查找为满足预设条件的下行数据时,可以在保留的上行数据中查找所述下行数据对应的上行数据,如果不满足,就间隔一定时间如5s继续查找,若查找超过一定时间或一定次数,就放弃所述下行数据,不再进行查找。
可选的,还可以对下行数据进行批量查找,例如,可以每隔预设时间,或者,每当满足预设条件的下行数据达到一定数量后,对满足预设条件的下行数据统一进行对准处理,有效提高了对准的效率。
步骤204、根据所述上行数据确定所述网页对应的URL。
在查找到满足预设条件的下行数据对应的上行数据后,可以根据上行数据确定所述下行数据对应的URL,即确定下行数据所属的网页的URL。在确定网页的URL后,可以将所述URL上报给相应平台进行处理。例如,可以将违规的网页的URL上报给违规处理平台,由违规处理平台对网页进行处理;可以将包含热点舆情的网页的URL上报给热点分析平台,由热点分析平台对网页进行分析。
在实际应用中,可以实时获取服务器与终端设备交互的数据包,并对数据包进行分析,若为网页的上行数据包,则还原后保留一定时间,若为网页的下行数据包,则还原后判断是否满足预设条件,若满足,则从保留的上行数据里查找与所述满足条件的下行数据对应的上行数据,再从对应的上行数据里获取URL,从而得到满足条件的网页URL。本申请实施例能够在分钟级别发现违规网页,相对于现有的离线爬取方案具有很大的进步。
在现有技术中,网页的下行数据可能也包含有URL,但是下行数据包含的URL并不一定是真实的URL,或者,当有多个URL都指向同一个页面时,可能该页面的下行数据只包含其中一个URL,这会导致漏掉重要的网页,因此,本申请实施例中,首先利用下行数据判断网页是否满足条件,再通过对准操作找到下行数据对应的上行数据,根据上行数据可以确定准确的网页URL。
综上,本实施例提供的数据处理方法,可以实时获取网站服务器与终端设备之间传输的上行数据和下行数据,并判断网页的下行数据是否满足预设条件,如是否包含违禁违规关键词等,若满足预设条件,则查找所述下行数据对应的上行数据,并根据所述上行数据确定所述网页的URL,能够快速、准确地利用网站服务器与终端设备之间传输的真实数据来查找满足预设条件的网页URL,获取到的网页内容与实际展示给用户的网页内容一致,同时通过上行数据来确定网页URL,有效提高了网页提取的准确性和效率。
图4为本申请实施例提供的一种URL对准示意图。如图4所示,可以从原始数据包中提取出上行数据和下行数据,然后,对下行数据进行关键词匹配,判断下行数据是否满足要求,若满足,则将下行数据和上行数据进行对准处理。
图5为本申请实施例提供的数据处理方法实施例二的流程示意图。本实施例是在上述实施例提供的技术方案的基础上,可以根据观察列表来确定是否保留上行数据。如图5所示,本实施例中的数据处理方法,可以包括:
步骤501、获取网站服务器与终端设备之间传输的数据包。
步骤502、判断所述数据包是上行数据包还是下行数据包,若为上行数据包,则执行步骤5031至步骤5033,若为下行数据包,则执行步骤5041至步骤5044。
步骤5031、判断上行数据包的服务器IP是否在观察列表中。
步骤5032、若在观察列表中,则对所述上行数据包进行还原,得到上行数据。
步骤5033、将上行数据加入到数据队列中。
具体地,所述观察列表中可以存储有疑似符合要求的服务器IP,例如,可以为疑似违规的服务器IP。在获取到上行数据包时,可以首先判断所述上行数据包中的服务器IP是否在观察列表中,如果是,则说明该数据包为疑似符合要求的网页的数据包,此时可以对数据包进行还原处理,提取出URL,得到上行数据,并将上行数据保存在数据队列里,等待与满足预设条件的下行数据进行对准操作。
其中,所述上行数据可以包括元组信息、URL和数据包序列号。
所述观察列表可以预先设置好,例如,可以通过大数据分析确定疑似符合要求的服务器IP,并将其添加到观察列表中,或者,可以人工输入疑似符合要求的服务器IP,添加到观察列表中。
如果上行数据包中的服务器IP不在观察列表里,说明该数据包对应的网页不是想要提取的网页,此时可以放行或删除该数据包,不对其进行还原等操作。
在其它可选的实施方式中,也可以先对上行数据包进行还原处理,得到上行数据,然后再判断其服务器IP是否在观察列表里。
步骤5041、根据下行数据包得到下行数据。
步骤5042、判断下行数据是否满足预设条件。
步骤5043、若满足,则在所述数据队列中查找所述下行数据对应的上行数据。
步骤5044、根据所述上行数据确定所述网页对应的URL。
具体地,步骤5041至5044的具体实现方法可以参照前述实施例。在确定满足预设条件的下行数据后,可以在数据队列里查找与其对应的上行数据。
可选的,在数据队列中,查找与所述下行数据对应的上行数据,可以包括:将下行数据的元组信息和数据包序列号与数据队列中的上行数据的元组信息和数据包序列号进行对比;若上行数据的元组信息和数据包序列号与下行数据的元组信息和数据包序列号相匹配,则确定该上行数据为所述下行数据对应的上行数据。
综上,本实施例提供的数据处理方法,在获取到上行数据包时,如果上行数据包的服务器IP在观察列表中,就将上行数据添加到数据队列中,当需要查找满足预设条件的下行数据对应的上行数据时,可以在所述数据队列中查找对应的上行数据,所述观察列表能够对上行数据进行筛选,只有服务器IP位于观察列表中的上行数据才被拿去与下行数据进行对准,能够将正常的上行数据放行,减小对准操作的数据处理工作量,提高了对准的效率。
图6为本申请实施例提供的数据处理方法实施例三的流程示意图。本实施例是在上述实施例提供的技术方案的基础上,在确定下行数据满足预设条件时,将下行数据的服务器IP加入到观察列表中。如图6所示,本实施例中的数据处理方法,可以包括:
步骤601、获取网站服务器与终端设备之间传输的数据包。
步骤602、判断所述数据包为上行数据包还是下行数据包,若为上行数据包,则执行步骤6031至步骤6033,若为下行数据包,则执行步骤6041至步骤6045。
步骤6031、判断上行数据包的服务器IP是否在观察列表中。
步骤6032、若在观察列表中,则对所述上行数据包进行还原,得到上行数据。
步骤6033、将上行数据加入到数据队列中。
本实施例中,步骤6031至6033的具体实现方法可以参照前述实施例,此处不再赘述。
步骤6041、根据下行数据包得到下行数据。
步骤6042、判断下行数据是否满足预设条件。
步骤6043、若所述下行数据满足预设条件,则将所述下行数据对应的服务器IP加入所述观察列表。
步骤6044、在所述数据队列中查找所述下行数据对应的上行数据。
步骤6045、根据所述上行数据确定所述网页对应的URL。
本实施例与前述实施例的不同之处在于,观察列表中的服务器IP由满足预设条件的下行数据确定。具体地,在确定所述下行数据满足预设条件后,可以将所述下行数据对应的服务器IP加入所述观察列表。图6中的虚线箭头表示下行数据的服务器IP加入到观察列表中会对上行数据通过观察列表的筛选有一定的影响。
在实际应用中,如果判断下行数据满足预设要求,就将其服务器IP放入观察列表中,在获取到上行数据包时,如果上行数据的服务器IP在观察列表中,就将其加入需要数据队列,反之则放行。然后,将下行数据与所述数据队列中的上行数据进行对准,匹配成功的上行数据的URL就是满足预设条件的下行数据对应的URL。
可选的,可以将提取出的上行数据和满足预设条件的下行数据都上报到对准模块,由对准模块对上行数据和下行数据进行对准操作,得到满足预设条件的下行数据对应的URL。
如图6所示,左侧部分主要完成上行数据的提取和保存,右侧部分主要完成下行数据的提取和匹配。其中下行数据的提取和匹配是全流量进行的,因为并不知道哪些流量里面有违规内容,所以需要还原所有的下行数据进行关键词匹配,匹配命中的下行数据需要进行URL对准,此时还会把需要对准的服务器IP同步给上行数据对应的观察列表。
在对上行数据进行处理时,只有命中观察列表的URL才会被提取和上交给对准系统。这样上行数据和下行数据都上报给对准模块,就可以根据五元组+数据包序列号等进行对准。
本实施例中方案的特点是不保存或上报全部的上行数据,只保存或上报对准操作需要的上行数据,这是通过上行数据和下行数据同步关注服务器IP实现的。这样做的好处是数量级地减少了需要进行对准处理的上行数据,但是缺点是对于第一次出现的满足预设条件的网页的下行数据可能无法实现对准,因为此时的服务器IP还未被加入到观察列表中,但是第二次及以后请求该网页时对应的下行数据就能够正常对准了。
由于第一次请求相对于以后海量的请求来说,重要程度较小,因此本实施例中的方案在第一次请求满足预设条件的网页时无法检测出对应的URL带来的损失基本可以忽略不计。
综上,本实施例提供的数据处理方法,在判断下行数据满足预设条件时,可以将所述下行数据对应的服务器IP加入所述观察列表,从而可以根据网页真实数据添加疑似满足预设条件的服务器IP,无需事先设置观察列表中的服务器IP,减少了前期工作量,并且根据下行数据的判断结果反馈上行数据的筛选条件,进一步提高了网页提取的准确性。
在上述各实施例提供的技术方案的基础上,可选的是,在上行数据被添加到所述数据队列中第一预设时间后,可以从所述数据队列中删除所述上行数据。所述第一预设时间可以根据实际需要来设置,例如可以为5分钟,如果五分钟之内还没有匹配到对应的下行数据,则将上行数据从数据队列中删除,避免数据队列过大导致占用过多的存储空间和处理效率降低。
在上述各实施例提供的技术方案的基础上,可选的是,为了保证筛选上行数据的观察列表不要越积越大,可以对观察列表进行老化,例如超过一定时间的服务器IP会被删除出该观察列表。
具体地,在服务器IP被加入所述观察列表第二预设时间后,可以从所述观察列表中删除所述服务器IP。所述第二预设时间可以根据实际需要来设置,例如可以为10分钟,如果发现满足预设条件的下行数据,就将该下行数据的服务器IP加入到观察列表中,在获取到上行数据时,根据观察列表确定是否将上行数据添加到数据队列中,如果服务器IP加入观察列表超过10分钟,则从观察列表中删除该服务器IP。
进一步地,步骤6043中的若所述下行数据满足预设条件,则将所述下行数据对应的服务器IP加入所述观察列表,可以包括:
若所述下行数据满足预设条件且所述观察列表中不包括所述下行数据对应的服务器IP,则将所述服务器IP加入所述观察列表,并将所述服务器IP的保留时间设置为第二预设时间;若所述下行数据满足预设条件且所述观察列表中包括所述下行数据对应的服务器IP,则将观察列表中的所述服务器IP的保留时间重置为第二预设时间。
例如,在检测到下行数据满足预设条件时,如果所述观察列表中不包括所述下行数据对应的服务器IP,则将所述服务器IP加入所述观察列表,并将所述服务器IP的保留时间设置为10分钟,10分钟后从观察列表里删除所述下行数据的服务器IP。
在检测到下行数据满足预设条件时,如果所述观察列表中包括所述下行数据对应的服务器IP,则将所述服务器IP的保留时间重置为10分钟。假设检测到满足预设条件的下行数据对应的服务器IP为IP1,可以将IP1放入观察列表,并设置保留时间为10分钟,8分钟后,观察列表中的IP1的保留时间只剩2分钟,假设又检测到另一条满足预设条件的下行数据,其服务器IP也为IP1,此时可以将观察列表中的IP1的保留时间重置为10分钟。
通过对观察列表中的服务器设置保留时间,并在将满足条件的下行数据的服务器IP加入到观察列表中时,根据观察列表中是否已经包含该服务器IP以及该服务器IP对应的保留时间来进行处理,能够快速、简便地实现服务器IP的添加,保证对准流程的正常执行。
在上述各实施例提供的技术方案的基础上,可选的是,只要下行数据满足预设条件,就认为对应的网页是符合要求的网页,可以在根据对应的上行数据获取到所述网页的URL后,直接上报所述URL,或者将所述URL添加到符合要求的网页URL集合中。获取到符合要求的URL后的处理流程属于现有技术,本申请实施例不再赘述。
或者,也可以在下行数据满足预设条件后,根据对应的上行数据获取到网页的URL后,进一步对网页进行判断处理,从而识别所述网页是否为符合要求的网页,也就是说,仅仅下行数据满足预设条件还不能说明网页是符合要求的,必须要对网页进一步进行验证,只有验证通过才认为是符合要求的网页。下面通过实施例四来进行详细说明。
图7为本申请实施例提供的数据处理方法实施例四的流程示意图。本实施例是在上述实施例提供的技术方案的基础上,在找到下行数据对应的URL后,进一步地对下行数据进行处理,确定对应的网页是否为满足要求的网页。如图7所示,本实施例中的数据处理方法,可以包括:
步骤701、获取网站服务器与终端设备之间传输的网页的下行数据。
步骤702、判断所述下行数据是否包含初筛关键词。
步骤703、若是,则确定所述下行数据满足预设条件,查找所述下行数据对应的上行数据。
步骤704、根据所述上行数据确定所述网页对应的URL。
其中,步骤701至步骤704的具体实现方式可以参见上述任一实施例,此处不再赘述。
步骤705、根据所述网页的下行数据是否包括细筛关键词,和/或,通过对所述网页进行分析处理,确定所述网页是否为符合要求的网页。
步骤706、若为符合要求的网页,则上报所述网页的URL。
在一种可选的实施方式中,可以根据所述网页的下行数据是否包括细筛关键词来确定所述网页是否为符合要求的网页。
其中,所述初筛关键词和所述细筛关键词可以均为用于筛选符合要求的网页的关键词,且所述初筛关键词和所述细筛关键词可以不相同。
可选的,所述符合要求的网页可以为违规网页,所述初筛关键词和所述细筛关键词可以为不同的违规关键词。
可选的,可以设置多个初筛关键词和多个细筛关键词。在步骤703中,只要下行数据中包含其中任意一个初筛关键词即为满足预设条件的下行数据;类似的,在步骤705中,只要下行数据包含其中任意一个细筛关键词即为包含所述细筛关键词。
所述初筛关键词和所述细筛关键词可以根据实际需要设置,可以人工输入,也可以根据大数据分析得出,也可以从其它平台获得。
在另一种可选的实施方式中,可以通过对所述网页进行分析处理来确定所述网页是否为符合要求的网页。所述网页进行分析处理的实现方式可以有很多种,例如,可以通过算法对网页进行各种模型的验证,和/或,可以对网页的HTML信息进行语义分析等处理,判断网页是消极的还是积极的,和/或,可以对网页进行人工审核,从而判断网页是否属于满足要求的网页。
在又一种可选的实施方式中,可以首先判断网页的下行数据是否包含细筛关键词,若不包含,说明不属于符合要求的网页,若包含,则进一步通过对网页进行分析处理来确定所述网页是否为符合要求的网页。
在确定网页为符合要求的网页之后,可以保存或输出所述网页的URL,例如,可以将URL上报给相关的分析平台或处理平台,供平台进行后续处理。
本申请各实施例提供的数据处理方法,可以应用于公有云系统,也可以应用于私有云系统或者混合云系统,本申请对此不作限制。
综上,本实施例提供的数据处理方法,在找出满足预设条件的下行数据和对应的URL之后,进一步地对所述网页进行处理,确定所述网页是否为符合要求的网页,例如可以将网页的URL和网页内容流向下游算法模块,经过算法判定该网页是否是违规网页,避免仅通过初筛关键词对网页进行筛选导致误判,提高了网页提取的准确性,并且,将初筛操作设置在提取URL之前,将细筛和根据算法等对网页进行进一步判定的操作设置在提取URL之后,避免对下行数据的判断时间过久导致对应的上行数据已经被释放,保证了URL提取的时效性,进一步提高了数据处理的准确性和效率。
图8为本申请实施例提供的数据处理方法实施例五的流程示意图。本实施例是在上述任一实施例提供的技术方案的基础上,通过下行数据是否包含关键词来对网页是否满足预设条件进行判断。如图8所示,本实施例中的数据处理方法,可以包括:
步骤801、获取网站服务器与终端设备之间传输的网页的下行数据,其中,所述下行数据包括所述服务器向所述终端设备发送的数据。
步骤802、判断所述下行数据是否包含满足预设条件的关键词。
步骤803、若包含,则查找所述下行数据对应的上行数据,其中,所述上行数据包括所述终端设备向所述服务器发送的数据。
步骤804、根据所述上行数据确定满足预设条件的网页的URL。
可选的,所述满足预设条件的关键词可以根据需要提取的网页是满足哪种预设条件的网页来设置。例如,本实施例提供的技术方案可以具体应用于对违规网页进行提取,则“满足预设条件的”可以为“违规”,相应的,满足预设条件的网页可以为违规网页,满足预设条件的关键词可以为违规关键词。
其中,违规网页是指内容涉黄、涉恐、涉爆等违反国家相关法律的网页。相应的,违规关键词可以包括用于检测网页是否违规的关键词,例如“枪支”等。
本实施例中方法的实现过程和原理可以参照前述任一实施例,本实施例中,通过判断下行数据是否包含满足预设条件的关键词来实现前述各实施例中所述的判断下行数据是否满足预设条件,所述的满足预设条件的网页可以作为前述各实施例中所述的符合要求的网页。
与前述各实施例类似,最终确定满足预设条件的网页的URL可以有多种实现方法。
在一种可选的实施方式中,可以在确定下行数据包含满足预设条件的关键词后,就认为对应的网页是满足预设条件的网页。在这种情况下,在根据对应的上行数据获取到所述网页的URL后,可以直接上报所述URL,或者将所述URL添加到满足预设条件的网页URL集合中。
在另一种可选的实施方式中,也可以在确定下行数据包含满足预设条件的关键词并根据对应的上行数据获取到网页的URL后,进一步对网页进行判断处理,从而识别所述网页是否为满足预设条件的网页,也就是说,仅仅下行数据包含满足预设条件的关键词还不能说明网页是满足预设条件的,需要对网页进一步进行辅助验证,只有验证通过才认为是满足预设条件的网页。
可选的,根据所述上行数据确定满足预设条件的网页的URL,可以包括:根据所述网页的下行数据是否包括用于辅助判断所述网页是否为满足预设条件的网页的辅助关键词,和/或,通过对所述网页进行分析处理,判断所述网页是否为满足预设条件的网页;若是,则根据所述上行数据确定所述满足预设条件的网页的URL。
本实施例中,所述满足预设条件的关键词可以相当于前述各实施例中的初筛关键词,所述辅助关键词可以相当于前述各实施例中的细筛关键词,根据细筛关键词和/或通过对网页进行分析处理来进一步判断网页是否为满足预设条件的网页的具体实现方法可以参见前述各实施例,此处不再赘述。
可选的,在根据所述上行数据确定满足预设条件的网页的URL之后,还可以:根据所述满足预设条件的网页的URL,禁止用户访问所述满足预设条件的网页。
禁止用户访问满足预设条件的网页的方法可以有很多种,例如可以通过旁路阻断的方式禁止用户访问所述满足预设条件的网页。
可选的,所述方法还可以包括:若所述下行数据包含满足预设条件的关键词,则将所述下行数据对应的服务器IP加入观察列表;若上行数据对应的服务器IP在观察列表中,则将所述上行数据添加到数据队列中。
相应的,查找所述下行数据对应的上行数据,可以包括:在所述数据队列中,查找与所述下行数据对应的上行数据。
综上,本实施例提供的数据处理方法,可以判断所述下行数据是否包含满足预设条件的关键词,若包含,则查找所述下行数据对应的上行数据,并根据所述上行数据确定满足预设条件的网页的URL,能够快速、准确地定位满足预设条件的URL,例如可以应用于查找违规网页的URL,保障网络信息安全性,提高了网络监管效果和便利性。
以下将详细描述本申请的一个或多个实施例的数据处理装置。本领域技术人员可以理解,这些数据处理装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。
图9为本申请实施例提供的一种数据处理装置的结构示意图。如图9所示,该装置可以包括:
第一获取模块11,用于获取网站服务器与终端设备之间传输的网页的下行数据;
第一判断模块12,用于判断所述下行数据是否满足预设条件;
第一查找模块13,用于在所述下行数据满足预设条件时,查找所述下行数据对应的上行数据;
第一确定模块14,用于根据所述上行数据确定所述网页对应的URL。
可选的,所述装置还可以包括:第一添加模块,用于在上行数据对应的服务器IP在观察列表中时,将所述上行数据添加到数据队列中;相应的,所述第一查找模块13具体可以用于:在所述数据队列中,查找与所述下行数据对应的上行数据。
可选的,所述第一添加模块具体可以用于:在获取到上行数据包时,判断所述上行数据包的服务器IP是否在观察列表中;若是,则对所述上行数据包进行还原,得到上行数据,并将所述上行数据添加到数据队列中。
可选的,所述第一查找模块13具体可以用于:将下行数据的元组信息和数据包序列号与数据队列中的上行数据的元组信息和数据包序列号进行对比;若上行数据的元组信息和数据包序列号与下行数据的元组信息和数据包序列号相匹配,则确定该上行数据为所述下行数据对应的上行数据。
可选的,所述第一添加模块还可以用于:在上行数据被添加到所述数据队列中第一预设时间后,从所述数据队列中删除所述上行数据。
可选的,所述装置还可以包括:第二添加模块,用于在所述下行数据满足预设条件,将所述下行数据对应的服务器IP加入所述观察列表。
可选的,所述第二添加模块还可以用于:在服务器IP被加入所述观察列表第二预设时间后,从所述观察列表中删除所述服务器IP。
可选的,所述第二添加模块具体可以用于:若所述下行数据满足预设条件且所述观察列表中不包括所述下行数据对应的服务器IP,则将所述服务器IP加入所述观察列表,并将所述服务器IP的保留时间设置为第二预设时间;若所述下行数据满足预设条件且所述观察列表中包括所述下行数据对应的服务器IP,则将观察列表中的所述服务器IP的保留时间重置为第二预设时间。
可选的,所述第一获取模块11具体可以用于:获取通过旁路镜像采集到的数据包;根据所述数据包对应的IP信息,确定所述数据包是否为下行数据包;若为下行数据包,则根据所述数据包的协议类型,判断所述数据包是否为网页的下行数据包;若是,则对所述下行数据包进行还原,得到下行数据。
可选的,所述第一判断模块12具体可以用于:判断所述下行数据是否包含初筛关键词;若是,则确定所述下行数据满足预设条件。
可选的,所述第一确定模块14还可以用于:在根据所述上行数据确定所述网页对应的URL之后,根据所述网页的下行数据是否包括细筛关键词,和/或,通过对所述网页进行分析处理,确定所述网页是否为符合要求的网页;若为符合要求的网页,则保存或输出所述网页的URL。
图9所示装置可以执行前述实施例一至四提供的数据处理方法,本实施例未详细描述的部分,可参考对前述实施例的相关说明。该技术方案的执行过程和技术效果参见前述实施例中的描述,在此不再赘述。
图10为本申请实施例提供的另一种数据处理装置的结构示意图。如图10所示,该装置可以包括:
第二获取模块15,用于获取网站服务器与终端设备之间传输的网页的下行数据,其中,所述下行数据包括所述服务器向所述终端设备发送的数据;
第二判断模块16,用于判断所述下行数据是否包含满足预设条件的关键词;
第二查找模块17,用于在所述下行数据包含所述满足预设条件的关键词时,查找所述下行数据对应的上行数据,其中,所述上行数据包括所述终端设备向所述服务器发送的数据;
第二确定模块18,用于根据所述上行数据确定满足预设条件的网页的URL。
可选的,所述第二确定模块18具体可以用于:根据所述网页的下行数据是否包括用于辅助判断所述网页是否为满足预设条件的网页的辅助关键词,和/或,通过对所述网页进行分析处理,判断所述网页是否为满足预设条件的网页;若是,则根据所述上行数据确定所述满足预设条件的网页的URL。
可选的,所述第二确定模块18还可以用于:在根据所述上行数据确定满足预设条件的网页的URL之后,根据所述满足预设条件的网页的URL,禁止用户访问所述满足预设条件的网页。
可选的,所述第二确定模块18还可以用于:若所述下行数据包含满足预设条件的关键词,则将所述下行数据对应的服务器IP加入观察列表;若上行数据对应的服务器IP在观察列表中,则将所述上行数据添加到数据队列中;相应的,所述第二查找模块17具体可以用于:在所述下行数据包含所述满足预设条件的关键词时,在所述数据队列中查找与所述下行数据对应的上行数据。
图10所示装置可以执行前述实施例五提供的数据处理方法,本实施例未详细描述的部分,可参考对前述实施例的相关说明。该技术方案的执行过程和技术效果参见前述实施例中的描述,在此不再赘述。
图11为本申请实施例提供的一种电子设备的结构示意图。该电子设备可以为任意具有数据处理功能的设备如数据处理服务器等。如图11所示,该电子设备可以包括:第一处理器21和第一存储器22。其中,所述第一存储器22用于存储支持电子设备执行前述任一实施例提供的数据处理方法的程序,所述第一处理器21被配置为用于执行所述第一存储器22中存储的程序。
所述程序包括一条或多条计算机指令,其中,所述一条或多条计算机指令被所述第一处理器21执行时能够实现如下步骤:
获取网站服务器与终端设备之间传输的网页的下行数据;
判断所述下行数据是否满足预设条件;
若满足,则查找所述下行数据对应的上行数据;
根据所述上行数据确定所述网页对应的URL。
可选地,所述第一处理器21还用于执行前述图1-图7所示实施例中的全部或部分步骤。
其中,所述电子设备的结构中还可以包括第一通信接口23,用于电子设备与其他设备或通信网络通信。
图12为本申请实施例提供的另一种电子设备的结构示意图。如图12所示,该电子设备可以包括:第二处理器24和第二存储器25。其中,所述第二存储器25用于存储支持电子设备执行前述任一实施例提供的数据处理方法的程序,所述第二处理器24被配置为用于执行所述第二存储器25中存储的程序。
所述程序包括一条或多条计算机指令,其中,所述一条或多条计算机指令被所述第二处理器24执行时能够实现如下步骤:
获取服务器与终端设备之间传输的网页的下行数据,其中,所述下行数据包括所述服务器向所述终端设备发送的数据;
判断所述下行数据是否包含满足预设条件的关键词;
若包含,则查找所述下行数据对应的上行数据,其中,所述上行数据包括所述终端设备向所述服务器发送的数据;
根据所述上行数据确定满足预设条件的网页的URL。
可选地,所述第二处理器24还用于执行前述图8所示实施例中的全部或部分步骤。
其中,所述电子设备的结构中还可以包括第二通信接口26,用于电子设备与其他设备或通信网络通信。
另外,本申请实施例提供了一种存储计算机指令的计算机可读存储介质,当所述计算机指令被处理器执行时,致使所述处理器执行包括以下的动作:
获取网站服务器与终端设备之间传输的网页的下行数据;
判断所述下行数据是否满足预设条件;
若满足,则查找所述下行数据对应的上行数据;
根据所述上行数据确定所述网页对应的URL。
当所述计算机指令被处理器执行时,还可以致使所述处理器执行实施例一至四中的数据处理方法所涉及的全部或部分步骤。
另外,本申请实施例提供了另一种存储计算机指令的计算机可读存储介质,当所述计算机指令被处理器执行时,致使所述处理器执行包括以下的动作:
获取服务器与终端设备之间传输的网页的下行数据,其中,所述下行数据包括所述服务器向所述终端设备发送的数据;
判断所述下行数据是否包含满足预设条件的关键词;
若包含,则查找所述下行数据对应的上行数据,其中,所述上行数据包括所述终端设备向所述服务器发送的数据;
根据所述上行数据确定满足预设条件的网页的URL。
当所述计算机指令被处理器执行时,还可以致使所述处理器执行实施例五中的数据处理方法所涉及的全部或部分步骤。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式楼层的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (17)

1.一种数据处理方法,其特征在于,包括:
获取网站服务器与终端设备之间传输的网页的下行数据;
通过判断所述下行数据中的文本信息是否包含相应的关键词,判断所述下行数据是否满足预设条件;
若上行数据对应的服务器IP在观察列表中,则将所述上行数据添加到数据队列中;
若满足所述预设条件,则在所述数据队列中,查找所述下行数据对应的上行数据;
根据所述上行数据确定所述网页对应的URL。
2.根据权利要求1所述的方法,其特征在于,若上行数据对应的服务器IP在观察列表中,则将所述上行数据添加到数据队列中,包括:
在获取到上行数据包时,判断所述上行数据包的服务器IP是否在观察列表中;
若是,则对所述上行数据包进行还原,得到上行数据,并将所述上行数据添加到数据队列中。
3.根据权利要求1所述的方法,其特征在于,在数据队列中,查找与所述下行数据对应的上行数据,包括:
将下行数据的元组信息和数据包序列号与数据队列中的上行数据的元组信息和数据包序列号进行对比;
若上行数据的元组信息和数据包序列号与下行数据的元组信息和数据包序列号相匹配,则确定该上行数据为所述下行数据对应的上行数据。
4.根据权利要求1所述的方法,其特征在于,还包括:
在上行数据被添加到所述数据队列中第一预设时间后,从所述数据队列中删除所述上行数据。
5.根据权利要求1所述的方法,其特征在于,还包括:
若所述下行数据满足预设条件,则将所述下行数据对应的服务器IP加入所述观察列表。
6.根据权利要求5所述的方法,其特征在于,还包括:
在服务器IP被加入所述观察列表第二预设时间后,从所述观察列表中删除所述服务器IP。
7.根据权利要求6所述的方法,其特征在于,若所述下行数据满足预设条件,则将所述下行数据对应的服务器IP加入所述观察列表,包括:
若所述下行数据满足预设条件且所述观察列表中不包括所述下行数据对应的服务器IP,则将所述服务器IP加入所述观察列表,并将所述服务器IP的保留时间设置为第二预设时间;
若所述下行数据满足预设条件且所述观察列表中包括所述下行数据对应的服务器IP,则将观察列表中的所述服务器IP的保留时间重置为第二预设时间。
8.根据权利要求1所述的方法,其特征在于,获取网站服务器与终端设备之间传输的网页的下行数据,包括:
获取通过旁路镜像采集到的数据包;
根据所述数据包对应的IP信息,确定所述数据包是否为下行数据包;
若为下行数据包,则根据所述数据包的协议类型,判断所述数据包是否为网页的下行数据包;
若是,则对所述下行数据包进行还原,得到下行数据。
9.根据权利要求1所述的方法,其特征在于,判断所述下行数据是否满足预设条件,包括:
判断所述下行数据是否包含初筛关键词;
若是,则确定所述下行数据满足预设条件。
10.根据权利要求9所述的方法,其特征在于,根据所述上行数据确定所述网页对应的URL之后,还包括:
根据所述网页的下行数据是否包括细筛关键词,和/或,通过对所述网页进行分析处理,确定所述网页是否为符合要求的网页;
若为符合要求的网页,则保存或输出所述网页的URL。
11.一种数据处理方法,其特征在于,包括:
获取服务器与终端设备之间传输的网页的下行数据,其中,所述下行数据包括所述服务器向所述终端设备发送的数据;
判断所述下行数据是否包含满足预设条件的关键词;
若包含,则将所述下行数据对应的服务器IP加入观察列表;
若上行数据对应的服务器IP在观察列表中,则将所述上行数据添加到数据队列中;
在所述数据队列中,查找所述下行数据对应的上行数据,其中,所述上行数据包括所述终端设备向所述服务器发送的数据;
根据所述上行数据确定满足预设条件的网页的URL。
12.根据权利要求11所述的方法,其特征在于,根据所述上行数据确定满足预设条件的网页的URL,包括:
根据所述网页的下行数据是否包括用于辅助判断所述网页是否为满足预设条件的网页的辅助关键词,和/或,通过对所述网页进行分析处理,判断所述网页是否为满足预设条件的网页;
若是,则根据所述上行数据确定所述满足预设条件的网页的URL。
13.根据权利要求11所述的方法,其特征在于,在根据所述上行数据确定满足预设条件的网页的URL之后,还包括:
根据所述满足预设条件的网页的URL,禁止用户访问所述满足预设条件的网页。
14.一种数据处理装置,其特征在于,包括:
第一获取模块,用于获取网站服务器与终端设备之间传输的网页的下行数据;
第一判断模块,用于通过判断所述下行数据中的文本信息是否包含相应的关键词,判断所述下行数据是否满足预设条件;若上行数据对应的服务器IP在观察列表中,则将所述上行数据添加到数据队列中;
第一查找模块,用于在所述下行数据满足预设条件时,在所述数据队列中,查找所述下行数据对应的上行数据;
第一确定模块,用于根据所述上行数据确定所述网页对应的URL。
15.一种数据处理装置,其特征在于,包括:
第二获取模块,用于获取网站服务器与终端设备之间传输的网页的下行数据,其中,所述下行数据包括所述服务器向所述终端设备发送的数据;
第二判断模块,用于判断所述下行数据是否包含满足预设条件的关键词;
第二查找模块,用于在所述下行数据包含所述满足预设条件的关键词时,将所述下行数据对应的服务器IP加入观察列表;若上行数据对应的服务器IP在观察列表中,则将所述上行数据添加到数据队列中;
在所述数据队列中,查找所述下行数据对应的上行数据,其中,所述上行数据包括所述终端设备向所述服务器发送的数据;
第二确定模块,用于根据所述上行数据确定满足预设条件的网页的URL。
16.一种电子设备,其特征在于,包括:第一存储器和第一处理器;其中,
所述第一存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述第一处理器执行时实现如权利要求1至10中任一项所述的数据处理方法。
17.一种电子设备,其特征在于,包括:第二存储器和第二处理器;其中,
所述第二存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述第二处理器执行时实现如权利要求11至13中任一项所述的数据处理方法。
CN201811063852.XA 2018-09-12 2018-09-12 数据处理方法、装置及电子设备 Active CN110895593B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811063852.XA CN110895593B (zh) 2018-09-12 2018-09-12 数据处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811063852.XA CN110895593B (zh) 2018-09-12 2018-09-12 数据处理方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN110895593A CN110895593A (zh) 2020-03-20
CN110895593B true CN110895593B (zh) 2023-06-20

Family

ID=69785002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811063852.XA Active CN110895593B (zh) 2018-09-12 2018-09-12 数据处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN110895593B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101267299A (zh) * 2007-03-14 2008-09-17 阿里巴巴集团控股有限公司 一种安全显示网页中数据的方法和系统
CN102663060A (zh) * 2012-03-30 2012-09-12 奇智软件(北京)有限公司 一种识别被篡改网页的方法及装置
CN103825887A (zh) * 2014-02-14 2014-05-28 深信服网络科技(深圳)有限公司 基于https加密的网站过滤方法和系统
CN105743904A (zh) * 2016-03-14 2016-07-06 上海携程商务有限公司 网站的用户信息的泄露检测方法和系统
CN105824884A (zh) * 2016-03-10 2016-08-03 海信集团有限公司 一种用户上网信息处理方法及装置
CN107872493A (zh) * 2016-09-28 2018-04-03 腾讯科技(深圳)有限公司 一种信息处理方法、终端和服务器

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978176B (zh) * 2014-04-10 2019-03-08 腾讯科技(北京)有限公司 应用程序接口调用方法、装置及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101267299A (zh) * 2007-03-14 2008-09-17 阿里巴巴集团控股有限公司 一种安全显示网页中数据的方法和系统
CN102663060A (zh) * 2012-03-30 2012-09-12 奇智软件(北京)有限公司 一种识别被篡改网页的方法及装置
CN103825887A (zh) * 2014-02-14 2014-05-28 深信服网络科技(深圳)有限公司 基于https加密的网站过滤方法和系统
CN105824884A (zh) * 2016-03-10 2016-08-03 海信集团有限公司 一种用户上网信息处理方法及装置
CN105743904A (zh) * 2016-03-14 2016-07-06 上海携程商务有限公司 网站的用户信息的泄露检测方法和系统
CN107872493A (zh) * 2016-09-28 2018-04-03 腾讯科技(深圳)有限公司 一种信息处理方法、终端和服务器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈志鹏 ; 张鹏 ; 黄彩云 ; 刘庆云 ; 邢丽超 ; .一种基于多维特征分析的网页代理服务发现方法.信息安全学报.2018,(第04期),全文. *

Also Published As

Publication number Publication date
CN110895593A (zh) 2020-03-20

Similar Documents

Publication Publication Date Title
CN107341160B (zh) 一种拦截爬虫的方法及装置
US11290468B2 (en) Content delivery network (CDN) bot detection using primitive and compound feature sets
CN107341395B (zh) 一种拦截爬虫的方法
CN109033195A (zh) 网页信息的获取方法、获取设备及计算机可读介质
KR100732689B1 (ko) 웹 보안방법 및 그 장치
CN107294919A (zh) 一种水平权限漏洞的检测方法及装置
CN110782374A (zh) 基于区块链的电子取证方法及系统
CN107147645B (zh) 网络安全数据的获取方法及装置
CN111008405A (zh) 一种基于文件Hash的网站指纹识别方法
CN111368227B (zh) 一种url处理方法以及装置
JP7241789B2 (ja) データ検索方法、装置、システム、デバイスおよびコンピュータ可読記憶媒体
US20170163663A1 (en) False positive detection reduction system for network-based attacks
CN110875907A (zh) 一种访问请求控制方法及装置
CN109981533B (zh) 一种DDoS攻击检测方法、装置、电子设备及存储介质
Aase et al. Whiskey, Weed, and Wukan on the World Wide Web: On Measuring Censors' Resources and Motivations.
CN110619075A (zh) 一种网页识别方法与设备
US11023590B2 (en) Security testing tool using crowd-sourced data
CN107786529B (zh) 网站的检测方法、装置及系统
CN111131236A (zh) 一种web指纹检测装置、方法、设备及介质
CN112202717B (zh) 一种http请求的处理方法、装置、服务器及存储介质
CN106911636B (zh) 一种检测网站是否存在后门程序的方法及装置
CN110895593B (zh) 数据处理方法、装置及电子设备
CN109740386B (zh) 一种静态资源文件的检测方法及装置
CN113392297A (zh) 一种爬取数据的方法、系统及设备
CN116451071A (zh) 样本标注方法、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant