CN112989327A

CN112989327A - 一种窃取网站数据的检测方法、装置、设备及存储介质

Info

Publication number: CN112989327A
Application number: CN201911311283.0A
Authority: CN
Inventors: 余江; 章锁柱
Original assignee: Tols Tianxiang Net An Information Technology Co ltd
Current assignee: Tols Tianxiang Net An Information Technology Co ltd
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2021-06-18

Abstract

本申请公开了一种窃取网站数据的检测方法、装置、设备及存储介质，根据预设时间提取网站访问的镜相流量，生成镜相流量报文；统计镜相流量报文中每个链接的第一受访次数，对第一受访次数进行排名，得到每个链接的第一排名位次；比较每个链接的第一排名位次与受访行为数据模型中相同预设时间对应的第二排名位次，并当比较结果大于阈值时，发送报警信息。本申请实施例以网站中每个链接的受访次数排名为监测对象，并通过流量分析技术与统计学习技术相结合的方式，不断自学习以更新受访行为数据模型，从而将网站的实际受访情况与该受访行为数据模型进行对比分析，能够快速、准确地对窃取网站数据的行为进行检测，确保网络运行的安全。

Description

一种窃取网站数据的检测方法、装置、设备及存储介质

技术领域

本发明一般涉及信息安全技术领域，具体涉及一种窃取网站数据的检测方法、装置、设备及存储介质。

背景技术

随着科学技术的蓬勃发展，网站作为主流的信息展示媒介，给我们的日常生活带来了极大地便利。在各类网络中，每个网站都有公开的页面供用户浏览和使用，但是有一些恶意的爬虫软件却通过反复访问公开页面数据，不断地扒取网站的内部数据，威胁到网络安全，甚至还会造成用户信息的泄露。比如，网络中机动车信息页面仅供交通管理部门的工作人员正常查询使用，而爬虫软件却非法恶意地扒取机动车信息并售卖。

由于网络爬虫(又被称为网页蜘蛛、网页追逐者)是一种按照一定规则，自动地抓取网站信息的程序或者脚本。因此，现有窃取网站数据的检测方法包括通过http协议头域的Uer-Agent来识别爬虫软件、通过robots.txt来限制爬虫软件、或者通过JS脚本来防止爬虫软件的操作，比如获取验证码和滑动解锁等。

在实现本发明的过程中，发明人发现现有技术中至少存在如下问题：方法一要求在爬虫软件发起http请求的头域中标识爬虫的名称，但恶意爬虫软件会通过低频次的慢速数据扒取，模拟标准浏览器的Uer-Agent字段，以绕过Uer-Agent字段检查机制；方法二要求爬虫软件遵守robots.txt里的协议，但遵守与否，取决于爬虫软件的编写者；方法三中爬虫软件通过PhantomJS可以在没有低频次的慢速数据扒取图形界面的情况下，完全模拟一个浏览器，从而避开检测。

发明内容

鉴于现有技术中的上述缺陷或不足，期望提供一种窃取网站数据的检测方法、装置、设备及存储介质，能够快速、准确地对窃取网站数据的行为进行检测，确保网络运行的安全。

第一方面，本申请提供一种窃取网站数据的检测方法，所述方法包括：

根据预设时间提取网站访问的镜相流量，生成镜相流量报文；

统计所述镜相流量报文中每个链接的第一受访次数，对所述第一受访次数进行排名，得到所述每个链接的第一排名位次；

比较所述每个链接的第一排名位次与受访行为数据模型中相同所述预设时间对应的第二排名位次，并当比较结果大于阈值时，发送报警信息。

第二方面，本申请提供一种窃取网站数据的检测装置，所述装置包括：

提取模块，配置用于根据预设时间提取网站访问的镜相流量，生成镜相流量报文；

排名模块，配置用于统计所述镜相流量报文中每个链接的第一受访次数，对所述第一受访次数进行排名，得到所述每个链接的第一排名位次；

比较模块，配置用于比较所述每个链接的第一排名位次与受访行为数据模型中相同所述预设时间对应的第二排名位次，并当比较结果大于阈值时，发送报警信息。

第三方面，本申请提供一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如第一方面所述的窃取网站数据的检测方法。

第四方面，本申请提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序用于实现如第一方面所述的窃取网站数据的检测方法的步骤。

综上，本申请实施例提供的窃取网站数据的检测方法、装置、设备及存储介质，首先根据预设时间提取网站访问的镜相流量，生成镜相流量报文；然后，统计镜相流量报文中每个链接的第一受访次数，对第一受访次数进行排名，得到每个链接的第一排名位次；进而，比较每个链接的第一排名位次与受访行为数据模型中相同预设时间对应的第二排名位次，并当比较结果大于阈值时，发送报警信息。本申请实施例以网站中每个链接的受访次数排名为监测对象，并通过流量分析技术与统计学习技术相结合的方式，不断自学习以更新受访行为数据模型，从而将网站的实际受访情况与该受访行为数据模型进行对比分析，能够快速、准确地对窃取网站数据的行为进行检测，确保网络运行的安全。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1为本申请实施例提供的一种窃取网站数据的检测方法的基本流程示意图；

图2为本申请实施例提供的一种窃取网站数据的检测方法的具体示例；

图3为本申请实施例提供的一种窃取网站数据的检测装置的基本结构示意图；

图4为本申请实施例提供的一种窃取网站数据的检测装置的结构示意图；

图5为本申请实施例提供的一种计算机系统。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

此外，术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了便于理解和说明，下面通过图1至图5详细的阐述本申请实施例提供的窃取网站数据的检测方法、装置、设备及存储介质。

请参考图1，其为本申请实施例提供的一种窃取网站数据的检测方法的基本流程示意图，该方法包括以下步骤：

S101，根据预设时间提取网站访问的镜相流量，生成镜相流量报文。

比如，本申请实施例对网站接入的交换机端口做端口镜相，从而引出网站访问的镜相流量。需要说明的是，端口镜相(Port Mirroring)功能通过在交换机或路由器上，将一个或多个源端口的数据流量转发到某一个指定端口来实现对网络的监听，指定端口被称为镜相端口或者目的端口。在不严重影响源端口正常吞吐流量的情况下，可以通过镜相端口对网络的流量进行监控分析。

S102，统计镜相流量报文中每个链接的第一受访次数，对第一受访次数进行排名，得到每个链接的第一排名位次。

比如，本申请实施例使用流量探针自动地对镜相流量报文进行分析，避免人工参与检测过程，提高了处理效率和识别的准确率。

S103，比较每个链接的第一排名位次与受访行为数据模型中相同预设时间对应的第二排名位次，并当比较结果大于阈值时，发送报警信息。

需要说明的是，本申请实施例中受访行为数据模型通过如下步骤自学习而成：首先，获取学习周期内每一天的历史镜相流量报文，并还原得到同一网站中每个链接的受访记录，该受访记录可以包括但不限于每个链接的访问时间、URL超链接地址、流入流量和流出流量；然后，根据受访记录，分别统计每一天每个链接在预设时间对应的第二受访次数；进而，计算整个学习周期内第二受访次数的统计值，并基于统计值得到受访行为数据模型中在预设时间对应的第二排名位次，其中统计值可以包括但不限于整个学习周期内第二受访次数的中位数或者平均值。

比如，以学习周期是2019年11月1日至2019年11月30日为例进行说明。按照小时作为预设时间的基本单位，使用流量探针分析每一天的历史镜相流量报文，还原出同一网站中每个链接的受访记录。例如，2019年11月1日的历史镜相流量报文中00:00～1:00链接getData.php的第二受访次数为128000、链接Login.php的第二受访次数为230，23:00～24:00链接getData.php的第二受访次数为135000、链接Login.php的第二受访次数为100；2019年11月2日的历史镜相流量报文中00:00～1:00链接getData.php的第二受访次数为128050、链接Login.php的第二受访次数为200，23:00～24:00链接getData.php的第二受访次数为135060、链接Login.php的第二受访次数为98，其它日期的历史镜相流量报文与此相似，不再赘述。

以采用中位数算法为例，计算整个学习周期30天内第二受访次数的中位数，并根据该中位数得到受访行为数据模型中在预设时间对应的第二排名位次，如表1所示。

表1受访行为数据模型

可选地，本申请实施例中以每个链接在受访行为数据模型中的第二排名位次为基准，遍历相同预设时间内链接对应的第一排名位次，当链接排名位次的差值大于第一阈值时，显示链接并发送报警信息，其中阈值包括第一阈值。

比如，链接Login.php在受访行为数据模型中00:00～1:00的第二排名位次为64，而相同预设时间内对应的第一排名位次为56，即2019年12月1日镜相流量报文中00:00～1:00链接Login.php的第一排名位次为64。由于链接排名位次的差值为8，远大于第一阈值5，表明该链接访问存在异常。

可选地，当链接排名位次的差值大于第一阈值时，本申请实施例还可以获取预设时间内访问链接的IP地址，并统计每个IP地址的访问次数；进而，当IP地址的访问次数大于第二阈值时，显示IP地址并发送报警信息，其中阈值还包括第二阈值。

仍以2019年12月1日的镜相流量报文为例进行说明，在00:00～1:00访问链接Login.php的IP地址包括128.0.1.0、191.1.0.1和192.0.0.0等。其中，IP地址128.0.1.0的访问次数为96次，IP地址191.1.0.1的访问次数为20次，以及IP地址192.0.0.0的访问次数为50次。而假设第二阈值为60次，那么判定IP地址128.0.1.0对网站的数据进行了窃取，向网站管理者发送报警信息。

可选地，当IP地址的访问次数大于第二阈值时，本申请实施例还可以计算IP地址的访问次数占预设时间内所有IP地址总访问次数的比例；进而，当比例大于第三阈值时，显示IP地址并发送报警信息，其中阈值还包括第三阈值。

比如，IP地址128.0.1.0的访问次数为96次，IP地址191.1.0.1的访问次数为20次，以及IP地址192.0.0.0的访问次数为50次，则所有IP地址总访问次数为166次。那么，IP地址128.0.1.0的访问次数占比为57.8％，IP地址191.1.0.1的访问次数占比为12％，IP地址192.0.0.0的访问次数占比为30.2％。而假设第三阈值为50％，那么判定IP地址128.0.1.0对网站的数据进行了窃取。

为便于更好地理解本申请窃取网站数据的检测方法，如图2所示，其为本申请实施例提供的一种检测示例。

S201，交换机镜相流量。

比如，本申请实施例对网站接入的交换机端口做端口镜相，从而引出网站访问的镜相流量。

S202，流量分析。

S203，判断自学习是否完成，若是则执行S204，若否则执行S205；

S204，计算链接排名。

比如，链接Login.php在2019年12月1日镜相流量报文中00:00～1:00链接Login.php的第一排名位次为64。

S205，计算受访行为数据模型。

需要说明的是，本申请实施例中受访行为数据模型的自学习过程请参考上述，在此不再赘述。

S206，模型数据比对。

比如，链接Login.php在受访行为数据模型中00:00～1:00的第二排名位次为64。由于链接排名位次的差值为8，远大于第一阈值5，表明该链接访问存在异常。

S207，判断链接排名是否显著上升，若是则执行S208，若否则执行S202。

S208，判断链接受访次数受否显著上升，若是则执行S209，若否则执行S202。

S209，计算访问者IP地址的访问次数占比。

需要说明的是，为进一步掌握窃取网站数据的访问者信息，本申请实施例还可以对访问者IP地址的访问次数占比进行计算。比如，IP地址128.0.1.0的访问次数为96次，IP地址191.1.0.1的访问次数为20次，以及IP地址192.0.0.0的访问次数为50次，则所有IP地址总访问次数为166次。那么，IP地址128.0.1.0的访问次数占比为57.8％，IP地址191.1.0.1的访问次数占比为12％，IP地址192.0.0.0的访问次数占比为30.2％。

S210，判断占比是否大于第三阈值，若是则执行S211，若否则执行S202。

比如，假设第三阈值为50％，那么判定IP地址128.0.1.0对网站的数据进行了窃取。

S211，发送报警信息。

基于前述实施例，本申请实施例提供一种电子设备，该电子设备可以应用于图1～2对应的实施例提供的窃取网站数据的检测方法中，具体包括一个或多个处理器，用于存储一个或多个程序的存储器；当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器执行上述的窃取网站数据的检测方法。

需要说明的是，本申请实施例中所涉及的电子设备可以包括但不限于个人计算机(Personal Computer，PC)、个人数字助理(Personal Digital Assistant，PDA)、平板电脑(Tablet Computer)、无线手持设备和手机等。

本申请实施例提供的窃取网站数据的检测方法，首先根据预设时间提取网站访问的镜相流量，生成镜相流量报文；然后，统计镜相流量报文中每个链接的第一受访次数，对第一受访次数进行排名，得到每个链接的第一排名位次；进而，比较每个链接的第一排名位次与受访行为数据模型中相同预设时间对应的第二排名位次，并当比较结果大于阈值时，发送报警信息。本申请实施例以网站中每个链接的受访次数排名为监测对象，并通过流量分析技术与统计学习技术相结合的方式，不断自学习以更新受访行为数据模型，从而将网站的实际受访情况与该受访行为数据模型进行对比分析，能够快速、准确地对窃取网站数据的行为进行检测，确保网络运行的安全。

基于前述实施例，本申请实施例提供一种窃取网站数据的检测装置，该装置可以应用于图1～2对应的实施例提供的窃取网站数据的检测方法中。参照图3所示，该窃取网站数据的检测装置3包括：

提取模块31，配置用于根据预设时间提取网站访问的镜相流量，生成镜相流量报文；

排名模块32，配置用于统计镜相流量报文中每个链接的第一受访次数，对第一受访次数进行排名，得到每个链接的第一排名位次；

比较模块33，配置用于比较每个链接的第一排名位次与受访行为数据模型中相同预设时间对应的第二排名位次，并当比较结果大于阈值时，发送报警信息。

可选地，在本申请的其它实施例中，如图4所示，比较模块33还包括自学习单元331，该自学习单元331具体用于：

获取学习周期内每一天的历史镜相流量报文，并还原得到同一网站中每个链接的受访记录，受访记录包括每个链接的访问时间、URL超链接地址、流入流量和流出流量；

根据受访记录，分别统计每一天每个链接在预设时间对应的第二受访次数；

计算整个学习周期内第二受访次数的统计值，并基于统计值得到受访行为数据模型中在预设时间对应的第二排名位次。

可选地，统计值为整个学习周期内第二受访次数的中位数。

可选地，比较模块33具体用于以每个链接在受访行为数据模型中的第二排名位次为基准，遍历相同预设时间内链接对应的第一排名位次，当链接排名位次的差值大于第一阈值时，显示链接并发送报警信息，其中阈值包括所述第一阈值。

可选地，比较模块33还用于获取预设时间内访问链接的IP地址，并统计每个IP地址的访问次数；

当IP地址的访问次数大于第二阈值时，显示IP地址并发送报警信息，其中阈值还包括第二阈值。

可选地，比较模块33还用于计算IP地址的访问次数占预设时间内所有IP地址总访问次数的比例；

当比例大于第三阈值时，显示IP地址并发送报警信息，其中阈值还包括第三阈值。

需要说明的是，本实施例中与其它实施例中相同步骤和相同内容的说明，可以参照其它实施例中的描述，此处不再赘述。

本申请实施例提供的窃取网站数据的检测装置，该装置包括提取模块，配置用于根据预设时间提取网站访问的镜相流量，生成镜相流量报文；排名模块，配置用于统计镜相流量报文中每个链接的第一受访次数，对第一受访次数进行排名，得到每个链接的第一排名位次；比较模块，配置用于比较每个链接的第一排名位次与受访行为数据模型中相同预设时间对应的第二排名位次，并当比较结果大于阈值时，发送报警信息。本申请实施例以网站中每个链接的受访次数排名为监测对象，并通过流量分析技术与统计学习技术相结合的方式，不断自学习以更新受访行为数据模型，从而将网站的实际受访情况与该受访行为数据模型进行对比分析，能够快速、准确地对窃取网站数据的行为进行检测，确保网络运行的安全。

基于前述实施例，本申请实施例提供一种计算机系统。请参照图5所示，该计算机系统500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM503中，还存储有系统操作所需的各种程序和数据。CPU501、ROM502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本申请的实施例，上文参考流程图1描述的过程可以被实现为计算机软件程序。例如，本申请的实施例1包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序由CPU501执行，以实现如下步骤：

统计镜相流量报文中每个链接的第一受访次数，对第一受访次数进行排名，得到每个链接的第一排名位次；

比较每个链接的第一排名位次与受访行为数据模型中相同预设时间对应的第二排名位次，并当比较结果大于阈值时，发送报警信息。

在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。

需要说明的是，本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例窃取网站数据的检测方法、装置、设备和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。所描述的单元或模块也可以设置在处理器中，例如，可以描述为：一种处理器包括提取模块、排名模块及比较模块。其中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该电子设备实现如上述实施例中的窃取网站数据的检测方法。

例如，电子设备可以实现如图1中所示的：S101，根据预设时间提取网站访问的镜相流量，生成镜相流量报文；S102，统计镜相流量报文中每个链接的第一受访次数，对第一受访次数进行排名，得到每个链接的第一排名位次；S103，比较每个链接的第一排名位次与受访行为数据模型中相同预设时间对应的第二排名位次，并当比较结果大于阈值时，发送报警信息。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种窃取网站数据的检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的窃取网站数据的检测方法，其特征在于，所述受访行为数据模型通过如下步骤自学习而成：

获取学习周期内每一天的历史镜相流量报文，并还原得到同一网站中每个链接的受访记录，所述受访记录包括所述每个链接的访问时间、URL超链接地址、流入流量和流出流量；

根据所述受访记录，分别统计每一天所述每个链接在所述预设时间对应的第二受访次数；

计算整个所述学习周期内所述第二受访次数的统计值，并基于所述统计值得到所述受访行为数据模型中在所述预设时间对应的第二排名位次。

3.根据权利要求2所述的窃取网站数据的检测方法，其特征在于，所述统计值为整个所述学习周期内所述第二受访次数的中位数。

4.根据权利要求1所述的窃取网站数据的检测方法，其特征在于，所述比较所述每个链接的第一排名位次与受访行为数据模型中相同所述预设时间对应的第二排名位次，并当比较结果大于阈值时，发送报警信息，包括：

以所述每个链接在所述受访行为数据模型中的第二排名位次为基准，遍历相同所述预设时间内链接对应的第一排名位次，当所述链接排名位次的差值大于第一阈值时，显示所述链接并发送报警信息，其中所述阈值包括所述第一阈值。

5.根据权利要求4所述的窃取网站数据的检测方法，其特征在于，所述当所述链接排名位次的差值大于第一阈值时，显示所述链接并发送报警信息，还包括：

获取所述预设时间内访问所述链接的IP地址，并统计每个IP地址的访问次数；

当IP地址的访问次数大于第二阈值时，显示所述IP地址并发送报警信息，其中所述阈值还包括所述第二阈值。

6.根据权利要求5所述的窃取网站数据的检测方法，其特征在于，所述当IP地址的访问次数大于第二阈值时，显示所述IP地址并发送报警信息，还包括：

计算所述IP地址的访问次数占所述预设时间内所有IP地址总访问次数的比例；

当所述比例大于第三阈值时，显示所述IP地址并发送报警信息，其中所述阈值还包括所述第三阈值。

7.一种窃取网站数据的检测装置，其特征在于，所述装置包括：

8.根据权利要求7所述的窃取网站数据的检测装置，其特征在于，所述比较模块还包括自学习单元，所述自学习单元具体用于：

9.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1-6中任一项所述的窃取网站数据的检测方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序用于实现如权利要求1至6中任一项所述的窃取网站数据的检测方法的步骤。