CN106066854A

CN106066854A - 数据抓取方法及系统

Info

Publication number: CN106066854A
Application number: CN201610346373.3A
Authority: CN
Inventors: 李洪福; 李艳松
Original assignee: LeTV Holding Beijing Co Ltd; LeTV Cloud Computing Co Ltd
Current assignee: LeTV Holding Beijing Co Ltd; LeTV Cloud Computing Co Ltd
Priority date: 2016-05-23
Filing date: 2016-05-23
Publication date: 2016-11-02

Abstract

一种数据抓取方法，其包括：当某一网站被访问时，抓取多个数据包；解析所述任意一个数据包以确定所对应的协议类型；根据确定的所述协议类型选取作为外部数据信息的数据包；此外本公开还提供一种数据抓取系统；本公开的方法和系统通过确定接收到的数据包所基于的协议类型来针对性的获取可用于外部数据信息的数据包，而不是将抓取的所有的数据包都作为外部数据信息，这样即避免了分析所有的被抓取的数据包而造成的资源的浪费，也避免了对冗余的无用数据包进行盲目的分析所消耗的时间，同时也避免了过多的冗余数据包对识别结果的干扰，提升了通过外部数据信息识别数据包来源网站的准确率。

Description

数据抓取方法及系统

技术领域

本公开涉及互联网技术领域，特别涉及一种数据抓取方法及系统。

背景技术

随着互联网的发展，用户每天可以从网络当中获取各种各样的信息，而这些信息的来源我们却是不知道的，有些信息可能是我们真正需要的，但是有些信息却是网络强行推送给我们的，或者有些访问内容是安全的，有些内容是存在潜在危险的(例如。木马病毒)或者是在特定的环境下是需要进行屏蔽的(例如，企业网络中为了避免员工在工作时间观看视频、浏览购物网站等，就需要将来自这些网站的数据给屏蔽掉)，总之，互联网为我们提供海量数据信息的同时也是需要我们有选择的接收的。

现有技术中面对互联网提供的海量的数据信息时，选择出需要的数据信息，或者屏蔽不需要的数据信息的方法为：当需要屏蔽某一来源的数据信息时就分析该来源的数据信息存在哪些个特征信息，然后将该特征信息抽离出来，当抓取到外部数据信息时，比较分析所述外部数据信息以确定其是否包括了被标定的特征信息，如果是则说明该信息是需要屏蔽的，如果否则表明该信息时可以接收的；此外对于只能接受有限个来源的数据的专用网络，相反可以提取该有限个来源的数据信息的特征信息进行标定，当接收到外部数据信息时，比较分析该外部数据信息以确定其是否包括了别标定的特征信息，如果是则说明该信息是可以接收的信息，如果否则拒绝接收该数据信息。

现有技术的缺点在于，每一次抓取到来自外部的数据信息后都需要解析该外部数据信息，然后分析确定该外部数据信息是否包括了被标定的特征信息以决定该来源的数据信息所对应的网站是否需要被屏蔽，由于不知道那些数据包能够真正反映网站的特征以用于确定被抓取的数据包所来自的网站，所以每一次都要抓取的大量的数据包，人工对这些大量的数据包一一进行分析比较以确定数据包所来自的网站，然后再确定该网站是否需要被屏蔽，这种做法不仅效率低下，同时还将抓取的大量造成干扰的数据包也进行了分析，浪费了大量的时间来做无用的分析工作，而且大量冗余的无用数据包还会对网站的识别结果造成不必要的干扰。

发明内容

本公开提供一种数据抓取方法及系统，用于至少解决上述技术问题之一。

一方面，本公开的实施例提供一种数据抓取方法，其包括：

当某一网站被访问时，抓取多个数据包；

解析所述任意一个数据包以确定所对应的协议类型；

根据确定的所述协议类型选取从所述多个数据包中作为用于识别所述某一网站的外部数据信息的数据包。

另一方面，本公开的实施例还提供一种数据抓取系统，其包括：

数据包抓取单元，用于当某一网站被访问时，抓取多个数据包；

协议类型确定单元，用于解析任意一个数据包以确定所对应的协议类型；

外部数据信息选取单元，用于根据确定的所述协议类型从所述多个数据包中选取作为用于识别所述某一网站的外部数据信息的数据包。

本公开提供一种数据抓取方法及系统通过确定接收到的数据包所基于的协议类型来针对性的获取可用于外部数据信息的数据包，而不是将抓取的所有的数据包都作为外部数据信息，这样即避免了分析所有的被抓取的数据包而造成的资源的浪费，也避免了对冗余的无用数据包进行盲目的分析所消耗的时间，同时也避免了过多的冗余数据包对识别结果的干扰，提升了通过外部数据信息识别数据包来源网站的准确率。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本公开的数据抓取方法的一实施方式的流程图；

图2为本公开的数据抓取方法的另一实施方式的流程图；

图3为本公开的数据抓取方法的又一实施方式的流程图；

图4为本公开的数据抓取方法的再一实施方式的流程图；

图5为本公开的数据抓取系统的一实施方式的示意图；

图6为本公开的数据抓取系统的另一实施方式的示意图；

图7为本公开的数据抓取系统的又一实施方式的示意图；

图8为本公开的数据抓取系统的再一实施方式的示意图

图9为本公开的用户设备的一实施方式的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施方式及实施方式中的特征可以相互组合。

本公开可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本公开可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本公开，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

如图1所示，本公开的一实施方式的数据抓取方法，其包括：

S11、当某一网站被访问时，抓取多个数据包；

S12、解析所述任意一个数据包以确定所对应的协议类型；

S13、根据确定的所述协议类型从所述多个数据包中选取作为用于识别所述某一网站的外部数据信息的数据包。

本实施例中通过确定接收到的数据包所基于的协议类型来针对性的获取可用于外部数据信息的数据包，而不是将抓取的所有的数据包都作为外部数据信息，这样即避免了分析所有的被抓取的数据包而造成的资源的浪费，也避免了对冗余的无用数据包进行盲目的分析所消耗的时间，同时也避免了过多的冗余数据包对识别结果的干扰，提升了通过外部数据信息识别数据包来源网站的准确率。步骤S11为，当某一网站被访问时，抓取该网站所发送的多个数据包，即当某一网站被访问时，该某一被访问的网站的发送被访问内容的数据包至访问端，这时在数据包的传输过程中抓取多个被发送的数据包。

如图2所示，本公开的另一实施例的数据抓取方法，其中，

S21、当所述协议类型为tcp协议时，判断所述数据包的目的端口号是否为特定端口号；

S22、如果是，则所述根据确定的所述协议类型选取作为外部数据信息的数据包为：确定任意一个数据包为外部数据信息；

S23、如果否，则所述根据确定的所述协议类型选取作为外部数据信息的数据包为：确定前三个数据包为外部数据信息。

在本实施例中进一步将tcp协议进一步细分为了http协议以及普通的tcp协议，当接收到的数据包基于tcp协议时直接根据数据包中所包含的目的端口号(端口号为80和/或8080)即可确定该数据包是基于http协议的，这时只需要任意一个抓取的数据包即可用于识别该数据包来源的网站，因为对于http协议的数据包，其所有的特征信息在任意的一个数据包中都有；此外，还可以进一步通过解析接收的数据包中是否包含有GET URL的字节，如果有则可判定该数据包为基于http协议的；本实施例中可以只通过验证数据包的端口号是否为80和/或8080，也可以只通过验证数据包中是否包含有GET URL的字节，还可以同时采取两种验证方式以确定数据包所基于的协议类型；当通过单一一种验证方式时，验证速度快，但会存在一定的误判率，当采取两种验证方式时虽然验证速度有所减慢但是却大大提升了对数据包协议类型的确定的准确率；在应用中，如果需要及时的响应，快速的验证，而又允许有一定的误差的场合则采取上述任意一种验证方式即可；当对准确率要求高的场合则需要同时采取上述两种验证方式。

本实施例中当数据包中即不包含端口号80和/或8080，也不包含GET URL的字节，则认为该数据包为普通的tcp数据包，对于普通的数据包，网站的特征信息存储在前三个数据包中，因此，只需获得前三个数据包即可。

如图3所示，本公开的又一实施例的数据抓取方法，其中，确定前三个数据包为外部数据信息为：

S31、根据http三次握手通信确定被访问网站返回的起始SYN序列号；

S32、确定携带的SYN序列号等于所述起始SYN序列号的数据包为第一数据包；

S33、确定携带的SYN序列号等于所述起始SYN序列号与第一数据包长度之和的数据包为第二数据包；

S34、确定携带的SYN序列号等于所述起始SYN序列号与第一数据包长度和第二数据包长度之和的数据包为第三数据包。

本实施例中通过tcp特有的三次握手协议以及握手协议中发送的数据包所包含的特有的SYN序列号(SYN(synchronous)是TCP/IP建立连接时使用的握手信号，并且对应有一个SYN序列号)首先确定出了发送的第一个数据包的序列号，以用于确定抓取的数据包中哪一个是第一数据包；然后再根据每一次发送的数据包长度确定出的相应下一个数据包的序列号的大小，以从抓取的数据包中进一步的确定出第二数据包和第三数据包；通过SYN这个特定的序列号确定了发送的数据包的排序，以便于选取包含了网站的特征信息的前三个数据包，避免了无序的抓取多个包(因为，第三个数据包以后的数据包只包含了文件内容，不再有特征信息)对验证结果的干扰以及因计算量的增大而造成的延时。

如图4所示，本公开的再一实施例的数据抓取方法，其中，

当所述协议类型为udp协议时，所述根据确定的所述协议类型选取作为外部数据信息的数据包为：

S41、解析抓取的所述多个数据包以确定所述多个数据包中具有递增趋势的特征序列号；

S42、将所述多个数据包按照所述特征序列号递增的方式进行排列；

S43、确定前三个数据包为外部数据信息。

在本实施例中针对udp协议没有链接的概念的情况，而专门分析udp数据包中的前几个字节中的字符，以确定出字符间存在递增关系的字节，并将该字节中的字符确定为特征序列号；因为基于udp的开发中数据包中并不存在哪一个字节是用来固定写入数据包的序列号的(没有约定，不同的程序员则根据个人的喜好与习惯将序列号写在不同的字节中，但一般都在数据包的前几个字节中，因此这里的分析是按照前几个字节顺序分析比较的)，因此，需要对各个字节中的字符进行分析以确定；本实施例通过特征序列号确定了发送的udp数据包的排序，以便于选取包含了网站的特征信息的前三个数据包，避免了无序的抓取多个包(因为，第三个数据包以后的数据包只包含了文件内容，不再有特征信息)对验证结果的干扰以及因计算量的增大而造成的延时。

本公开的一实施例还提供一种网站识别方法，包括：

确定需要识别的网站，并为所述需要识别的网站分配标识值；

以来自所述需要识别的网站的多个数据信息为输入样本，以所述标识值为输出进行深度学习以确定深度学习模型；

抓取某一网站被访问时发送的外部数据信息；

判断将所述外部数据信息输入所述深度学习模型得到的输出结果是否为所述标识值。

本实施例中的抓取某一网站被访问时发送的外部数据信息采用本公开的数据抓取方法的上述任意实施例的方法，本网站屏蔽方法的实施例通过深度学习的方法来预先确定了一个用于判定接收到的数据信息是否为需要屏蔽的数据的深度学习模型，该模型是根据接收到的整个数据信息来确定的，而不是数据信息中的某一个“特征信息”确定的，综合考虑了更多的因素，因此通过该深度学习模型得到的识别网站的识别结果的准确度有了极大提升，降低了对接收的数据信息的误判或者漏判的概率，从而提供了一种更加便于快速高效的判定接收到的数据包所来自的网站的方法和系统。

本公开实施方式中可以通过硬件处理器(hardware processor)来实现相关功能模块。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作合并，但是本领域技术人员应该知悉，本公开并不受所描述的动作顺序的限制，因为依据本公开，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本公开所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

如图5所示，本公开的实施例还提供一种数据抓取系统，其包括：

本实施例中通过确定接收到的数据包所基于的协议类型来针对性的获取可用于外部数据信息的数据包，而不是将抓取的所有的数据包都作为外部数据信息，这样即避免了分析所有的被抓取的数据包而造成的资源的浪费，也避免了对冗余的无用数据包进行盲目的分析所消耗的时间，同时也避免了过多的冗余数据包对识别结果的干扰，提升了通过外部数据信息识别数据包来源网站的准确率。

如图6所示，本公开的另一实施例的数据抓取系统，其还包括：

端口号确定模块，用于当所述协议类型为http协议时，判断所述数据包的目的端口号是否为特定端口号；

所述外部数据信息选取单元包括，

第一选取组件，用于当所述协议类型为http协议，且所述数据包的目的端口号为特定端口号时，确定任意一个数据包为外部数据信息；

第二选取组件，用于当所述协议类型为http协议，但所述数据包的目的端口号不为特定端口号时，确定前三个数据包为外部数据信息。

如图7所示，本公开的又一实施例的数据抓取系统，其中，所述第二选取组件包括：

序列号确定器件，用于根据http三次握手通信确定被访问网站返回的起始SYN序列号；

数据包确定器件，用于确定携带的SYN序列号等于所述起始SYN序列号的数据包为第一数据包；确定携带的SYN序列号等于所述起始SYN序列号与第一数据包长度之和的数据包为第二数据包；确定携带的SYN序列号等于所述起始SYN序列号与第一数据包长度和第二数据包长度之和的数据包为第三数据包。

本实施例中通过tcp特有的三次握手协议以及握手协议中发送的数据包所包含的特有的SYN序列号首先确定出了发送的第一个数据包的序列号，以用于确定抓取的数据包中哪一个是第一数据包；然后再根据每一次发送的数据包长度确定出的相应下一个数据包的序列号的大小，以从抓取的数据包中进一步的确定出第二数据包和第三数据包；通过SYN这个特定的序列号确定了发送的数据包的排序，以便于选取包含了网站的特征信息的前三个数据包，避免了无序的抓取多个包(因为，第三个数据包以后的数据包只包含了文件内容，不再有特征信息)对验证结果的干扰以及因计算量的增大而造成的延时。

如图8所示，本公开的再一实施例的数据抓取系统，其中，当所述协议类型为udp协议时，所述外部数据信息选取单元包括：

特征序列号确定组件，用于解析抓取的所述多个数据包以确定所述多个数据包中具有递增趋势的特征序列号；

数据包排队组件，用于将所述多个数据包按照所述特征序列号递增的方式进行排列；

数据包确定组件，用于确定前三个数据包为外部数据信息。

图9为本申请实施例提供的又一种用户设备900的结构示意图，本申请具体实施例并不对用户设备900的具体实现做限定。如图9所示，该用户设备900可以包括：

处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930、以及通信总线940。其中：

处理器910、通信接口920、以及存储器930通过通信总线940完成相互间的通信。

通信接口920，用于与比如客户端等的网元通信。

处理器910，用于执行程序931，具体可以执行上述方法实施例中的相关步骤。

具体地，程序931可以包括程序代码，所述程序代码包括计算机操作指令。

处理器910可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。

上述实施例中的用户设备，包括：

存储器，用于存放程序；

处理器，用于执行所述存储器存储的程序，所述程序使得所述处理器执行以下操作：

当某一网站被访问时，抓取多个数据包；

解析所述任意一个数据包以确定所对应的协议类型；

根据确定的所述协议类型选取作为用于识别所述某一网站的外部数据信息的数据包。

以上所描述的方法实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

本领域内的技术人员应明白，本公开的实施方式可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施方式、完全软件实施方式、或结合软件和硬件方面的实施方式的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施方式的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应说明的是：以上实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围。

Claims

1.一种数据抓取方法，包括：

当某一网站被访问时，抓取多个数据包；

解析所述任意一个数据包以确定所对应的协议类型；

根据确定的所述协议类型从所述多个数据包中选取作为用于识别所述某一网站的外部数据信息的数据包。

2.根据权利要求1所述的方法，其中，

当所述协议类型为http协议时，判断所述数据包的目的端口号是否为特定端口号；

如果是，则所述根据确定的所述协议类型选取作为外部数据信息的数据包为：确定任意一个数据包为外部数据信息；

如果否，则所述根据确定的所述协议类型选取作为外部数据信息的数据包为：确定前三个数据包为外部数据信息。

3.根据权利要求2所述的方法，其中，确定前三个数据包为外部数据信息为：

根据http三次握手通信确定被访问网站返回的起始SYN序列号；

确定携带的SYN序列号等于所述起始SYN序列号的数据包为第一数据包；

确定携带的SYN序列号等于所述起始SYN序列号与第一数据包长度之和的数据包为第二数据包；

确定携带的SYN序列号等于所述起始SYN序列号与第一数据包长度和第二数据包长度之和的数据包为第三数据包。

4.根据权利要求1所述的方法，其中，

解析抓取的所述多个数据包以确定所述多个数据包中具有递增趋势的特征序列号；

将所述多个数据包按照所述特征序列号递增的方式进行排列；

确定前三个数据包为外部数据信息。

5.一种数据抓取系统，包括：

6.根据权利要求5所述的系统，其中，还包括：

所述外部数据信息选取单元包括，

7.根据权利要求6所述的系统，其中，所述第二选取组件包括：

8.根据权利要求5所述的系统，其中，当所述协议类型为udp协议时，所述外部数据信息选取单元包括：

数据包确定组件，用于确定前三个数据包为外部数据信息。