CN113868651A - 一种基于web日志的网站反爬虫方法 - Google Patents

一种基于web日志的网站反爬虫方法 Download PDF

Info

Publication number
CN113868651A
CN113868651A CN202111133369.6A CN202111133369A CN113868651A CN 113868651 A CN113868651 A CN 113868651A CN 202111133369 A CN202111133369 A CN 202111133369A CN 113868651 A CN113868651 A CN 113868651A
Authority
CN
China
Prior art keywords
crawler
image
value
web
maximum likelihood
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111133369.6A
Other languages
English (en)
Other versions
CN113868651B (zh
Inventor
肖军弼
魏娇娇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN202111133369.6A priority Critical patent/CN113868651B/zh
Publication of CN113868651A publication Critical patent/CN113868651A/zh
Application granted granted Critical
Publication of CN113868651B publication Critical patent/CN113868651B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Virology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于web日志的网站反爬虫方法,该方法包含:首先获取web日志进行预处理,包括清除噪声数据、数据过滤等,并将其存储到关系数据库中;从web日志中提取观测序列作为HMM算法的训练集,得出爬虫检测模型;利用似然函数计算爬虫序列在HMM算法下的平均极大似然估计值,确定出爬虫的平均极大似然估计值区间;计算待检测序列的平均极大似然估计值,结合上一步获得的平均极大似然估计值区间判断待检序列是否为爬虫;最后,利用风格化迁移技术捕捉原始图像的风格与内容特征,并通过训练卷积神经网络将其转移到目标图像之上,完成图像重建,通过多次优化图像,生成难破解的验证码,应用于易被爬虫程序攻击的网站,以达到反爬虫的目的。

Description

一种基于web日志的网站反爬虫方法
技术领域
本发明属于网络安全技术领域,涉及一种基于web日志的网站反爬虫方法。
背景技术
随着互联网应用的发展,爬虫技术越来越普及,网络爬虫是一种自动化浏览网页和抓取网页数据的程序,通过网络爬虫人们可以按需抓取、保存数据。爬虫技术也是多种网络应用的关键技术,如搜索引擎依赖于爬虫获取网页中的信息。但是大量网络爬虫的产生会带来更多弊端,一些恶意爬虫也带来了多重隐患,甚至造成了不可忽视的损失,产生大量占用服务器资源、触碰用户隐私,窃取商业信息,泄露隐私数据,互联网带宽被过度占用,导致正常用户访问缓慢,甚至出现网站不能访问的现象等负面问题。因此反爬虫方法研究成为网站管理者的一项重要研究内容。
在网络运行过程中,会产生大量的网络日志来记录网络中发生的所有行为。这些网络日志包含了大量有用的信息,如客户端地址、访问时间、请求方式、浏览器信息等,可供网络安全专家发现网络爬虫程序,进而对爬虫程序进行阻断。反爬虫方法研究首先是结合卷积神经网络理论建立爬虫程序检测模型,从而发现爬虫行为,然后再采取反爬虫的手段将爬虫行为进行阻断。
目前,反爬虫技术大致包括:
1.前端反爬虫技术:只是提高了恶意爬虫拿到真实数据的难度,并不能起到禁止爬虫的作用。比如截图、文字识别技术的爬虫无法防御。
2.IP检测:通过IP风险库判断是恶意IP进行黑名单,IP策略无法有效防御动态切换IP的场景,并且IP防御误封率较高。
3.接口频率控制:爬虫常常通过快速的访问某一些页面,获取其中的关键信息。通过对页面设置访问频率基线,可以对此类爬虫起到一定的防御作用。但是,几乎所有业务接口的访问量都是随着时间变化的,如何设定访问频率阈值,这将是一项巨大的挑战。
4.反爬虫蜜罐:威胁情报一方面可以依靠反爬虫蜜罐,一个设置巧妙的蜜罐会极大的提升反爬虫系统的效率和准确性,反之,不仅起不到什么作用甚至可能会影响正常用户。
5.风险拦截技术:生成验证码、短信验证、针对恶意用户制造假数据等。验证码已经被证明是一种有效的用于抵御自动脚本恶意攻击的方法,目前生成验证码技术,如果设计的验证码复杂度不够,那么极容易被恶意攻击者破解,但是复杂度过高的验证码在提升了安全性的同时,用户使用也更复杂,通过验证耗时更多。
发明内容
本发明为克服上述缺陷,提出了一种基于web日志的网站反爬虫方法,本发明具体的实施步骤如下:
S1,从日志服务器中获取web日志,对web日志进行收集以及预处理,清除噪声数据,将不合规范的数据进行数据过滤、格式转化及规整,并将清洗后的日志数据存储到关系数据库中。
S2,从web日志中提取出观测序列,结合HMM算法训练爬虫检测模型。
S3,利用似然函数计算出爬虫序列在HMM算法下的平均极大似然估计值,确定出爬虫的平均极大似然估计值区间。
S4,对于待检测的观测序列,计算其平均极大似然估计值,根据网络爬虫程序的平均极大似然估计值区间判断是否为爬虫程序。
S5,基于卷积神经网络设计生成防破解的图像类验证码,利用风格化迁移技术将捕捉原始内容图像的风格特征与图像的内容特征,并通过训练卷积神经网络将其转移到目标图像之上,完成图像重建,通过多次迭代逐步优化图像,即可生成破解难度大的验证码,嵌入到容易被网络爬虫程序攻击的页面,以达到反爬虫的目的。
本发明的技术方案特征和改进为:
对于步骤S1,本发明首先对获取到的web日志进行预处理。预处理内容包括对web日志内容的缺失值处理以及异常值处理,产出高质量的数据,提高模型的检测效率。同时,要对清洗后的web日志数据进行特征降维操作,进行特征抽取和特征选择,保留关键特征,舍弃与爬虫程序分析无关的特征,以此提高网络爬虫程序检测的效率。数据预处理的具体操作如下:
(1)缺失值处理
数据缺失问题可能会造成系统中的不确定性成分的更难把握,还会造成模型训练过程陷入混乱,进而导致不可靠输出,造成输出结果的误判。如果没有高质量数据,就没有高质量反爬模型,所以缺失值的问题不容忽视。当缺失占的比例较小时,可直接对有缺失的记录进行手工处理或直接丢弃。但在实际的数据中,缺失数据占有相当大的比重。若进行手工处理,效率会非常低;若直接舍弃缺失的记录,则会造成大量信息的丢失,使不完全的观测数据与完整的观测数据之间产生较大的差异,针对这个问题采取的方法是对缺失值采取进行补0、众数、填充默认值的处理方法。
(2)异常值处理
由于实际环境的复杂性,可能会导致特征数据会出现异常值,所以需要把该特征值与对应的门限值作比较,剔除相对偏差较大的异常值,尽可能的保证数据的有效性,尽量减少对爬虫检测模型的影响。异常值的处理与缺失值类似,只是需要将特征的取值范围提前界定,以判断此采样值是否正常,从而对异常值采取进行补0、填充默认值或者丢弃的处理方法。
(3)特征降维
特征维度太低可能会导致无法挖掘出数据集里面有用的信息,但特征维度太高,也会造成维度复杂错乱,影响算法的计算速度,也使得重要的特征不能在模型中得到有效的表达,影响模型效果。所以综合模型的精度和速度,要对维度过高的特征进行降维处理,对web日志进行特征抽取和特征选择,保留关键特征,舍弃与爬虫程序分析无关的特征,以此寻求检测精度高的检测模型。
经过预处理之后的web日志内容具有较好的规范性,为进行后续的处理提供了便利性与支撑。
对于步骤S2,为了从web日志记录中检测出网络爬虫行为,本发明采用了HMM算法训练出网络爬虫程序检测模型。训练过程就是基于现有的网络爬虫日志生成观测序列,计算其平均极大似然估计值,确定出爬虫程序所在的平均极大似然估计值区间。对于待判定的网络爬虫日志,生成待预测序列,计算其平均极大似然估计值,与爬虫平均极大似然估计区间进行对比,从而判断出是否为爬虫程序。
假设爬虫序列可以描述为:t时刻序列记作
Figure BDA0003281144010000031
表示此爬虫序列在t时刻的第i个属性,例如客户端地址、访问时间、请求方式、浏览器信息等内容。
HMM的三元输入参数设为λ={A,τ,μ},其中A为N*N的隐藏状态的转移概率分布,τ为初始时刻的隐藏状态概率分布,μ是给定隐藏状态下的平均请求次数,是一个一维向量,记作μ={μ1,μ2,μ3,…,μn},各个分量可以通过公式(1)计算得到,
Figure BDA0003281144010000041
初始状态概率分布由τ表示:τ={τi},且满足
Figure BDA0003281144010000042
其中,τi=P(i1=qi)表示当时刻t=1时,观测序列处于状态qi的概率。
转移状态概率由矩阵A表示:A=[aij]N*M,其中,第i行第j列元素:aij=P(it+1=qj|it=qi),1≤i≤N,aij表示观测序列在t时刻处于某个隐藏状态qi的条件下,在t+1时刻转移到另一种隐藏状态qj的概率。
观测概率由B表示A=[bj(k)]N*M,其中bj(k)的计算公式如公式(2)所示,
Figure BDA0003281144010000043
其中,qj∈Ot,1≤j≤N;1≤k≤M,bj(k)表示待测序列在t时刻处于隐藏状态qj的条件下,生成观测值vk的概率。
通过期望-最大值EM算法迭代训练HMM算法的参数,参数的计算需要经过多轮的迭代过程,每一轮迭代分为以下两个步骤:
首先计算出期望值Q,计算公式如公式(3)所示:
Q(θ,θ(i))=∑z[(P(Y,Z|θ)|P(Z|Y,θ(i))] (3)
其中,θ是待极大化的参数,θ(i)是当前的估计值,Y是观测值,Z是隐藏状态,P(Y,Z|θ)是联合分布,P(Z|Y,θ(i))是条件分布。
在当前迭代过程中,记录下期望值最大的参数。通过公式(4)在迭代中递推计算出HMM的各个参数
Figure BDA0003281144010000051
Figure BDA0003281144010000052
Figure BDA0003281144010000053
Figure BDA0003281144010000054
然后,比较第n+1次得到的观测序列概率与第n次得到的观测序列概率,如果获得的第n+1次与第n次观测序列概率之差的绝对值满足公式(7),
Figure BDA0003281144010000055
K为提前设置好的定值,用来判断计算所得的HMM算法的参数是否收敛,如果计算结果的绝对值大于等于给定值K,那么认为第n次得到的HMM参数是收敛的,此时所得到的爬虫检测模型是最优的。
对于步骤S3,利用似然函数计算爬虫序列在HMM算法下的平均极大似然估计值,并且根据建立的爬虫检测模型确定出网络爬虫程序的平均极大似然估计值区间,从未分类的数据中辨认出爬虫。
在该模型下,计算出训练数据中每个观测序列的平均极大似然估计值,计算方法如下:
使用前向-后向算法,t时刻,得到前向变量αt(i)和后向变量βt(j):计算过程如公式(8)所示,
Figure BDA0003281144010000056
那么,t时刻观测序列
Figure BDA0003281144010000057
出现概率计算如公式(9)所示,
Figure BDA0003281144010000058
每个序列的极大似然估计值表示为MLEl,其计算如公式(10)所示,
Figure BDA0003281144010000061
根据公式(10)我们可以计算出所有观测序列的平均极大似然估计值,可以利用二维坐标图得出平均极大似然估计值的分布情况,进而可以确定出网络爬虫程序的平均极大似然估计值区间。
对于步骤S4,对于待检测的观测序列,计算其平均极大似然估计值,通过对于步骤S3中获取的网络爬虫程序的平均极大似然估计值区间判断是否为爬虫程序,如果待检测的观测序列的平均极大似然估计值在此区间内,则可以判断其为爬虫,反正则不是爬虫程序。
对于步骤S5,本发明基于卷积神经网络理论,采用风格化迁移技术将捕捉原始内容图像的风格特征与图像的内容特征,并通过训练卷积神经网络将其转移到目标图像之上,完成图像重建,通过多次迭代逐步优化图像,即可生成破解难度大的验证码,以达到反爬虫的目的。需要按照以下步骤进行:
第一步:从图像数据集中随机选择一种类别的图像,根据图像类别关键字生成一张与此图片类型相关的文本来描述图像,图像类别关键字的文本的生成可以使用任意字体,并酌情添加扭曲、噪线,适当地进行旋转移动,添加颜色等操作,从而增加破解文本描述的难度。
第二步:根据第一步选择的图像类别,从原始图像数据库中随机选取k张与选定的图像类型相关的图像,再随机选取N*M-k张任意其他类型的图像。
第三步:训练风格化迁移模型:首先基于卷积神经网络理论提取出原始图像的风格特征与图像的内容特征。首先,采用公式(11)计算图像的平均值,
Figure BDA0003281144010000062
利用计算出的图像的平均值对图像进行标准化处理,如公式(12):
Figure BDA0003281144010000063
其中,μ是图像的均值,x表示图像矩阵,σ表示标准方差,N表示图像x的像素数量。对于给定高度H和宽度w的图像x,通过CNN模型进行前向传播,最后一个卷积层的输出就是特征F∈Rw*h*c,其中w,h,c分别表示通道的宽度、高度和数量。F是局部特征的总和,其中在(i,j)处的每个向量Fij∈Rc都是输入图像的局部特征。然后,获取图像的局部特征之间的线性关系,对于特征
Figure BDA0003281144010000071
通过计算协方差矩阵CM∈Rc*c来获取局部特征之间的线性关系,如公式(13),
Figure BDA0003281144010000072
Figure BDA0003281144010000073
表示
Figure BDA0003281144010000074
的第n行向量,
Figure BDA0003281144010000075
表示
Figure BDA0003281144010000076
的第n行向量。CM中在坐标为(i,j)的元素值表示局部特征
Figure BDA0003281144010000077
的第i个特征通道与局部特征
Figure BDA0003281144010000078
的第j个特征通道之间的线性关系程度,值越大,线性关系越强。最后将获取到的特征进行特征融合,特征X与特征Y融合为新的特征Z计算过程如公式(14),
Figure BDA0003281144010000079
第四步:从提前训练好的风格化迁移模型中随机挑选一个或多个风格化模型,将第二步中选取的N*M张候选集图像随机放入风格化迁移模型中用于生成风格化图像,接着,将所有生成的风格化图像缩放到设定好的像素大小,至此,原始候选集图像全部经过风格化迁移生成了风格化图像,所有图像数据准备完毕。
第五步:将第三步准备好的所有风格化图像候选集随机放置在N*M大小的格子中,将第一步生成的文本描述图像与候选集图像合并组成一个完整的验证码图像,最终按照需要调整验证码图像的大小。
附图说明
图1为本发明中反爬虫方法的整体流程图
具体实施方式
下面结合附图以及具体实施方式对本发明作进一步详细说明:
图1为本发明中的发爬虫方法的整体流程,其中包含:
S1,从日志服务器中获取web日志,对web日志进行收集以及预处理,清除噪声数据,将不合规范的数据进行数据过滤、格式转化及规整,具体的预处理内容包括对web日志内容的缺失值处理以及异常值处理,产出高质量的数据,提高模型的检测效率。同时,要对清洗后的web日志数据进行特征降维操作,进行特征抽取和特征选择,保留关键特征,舍弃与爬虫程序分析无关的特征,以此提高网络爬虫程序检测的效率。
S2,为了从web日志记录中检测出网络爬虫行为,本发明采用了HMM算法训练出网络爬虫程序检测模型。训练过程就是基于现有的网络爬虫日志生成观测序列,计算其平均极大似然估计值,确定出爬虫程序所在的平均极大似然估计值区间。对于待判定的网络爬虫日志,生成待预测序列,计算其平均极大似然估计值,与爬虫平均极大似然估计区间进行对比,从而判断出是否为爬虫程序。
S4,对于待检测的观测序列,计算其平均极大似然估计值,通过对于步骤S3中获取的网络爬虫程序的平均极大似然估计值区间判断是否为爬虫程序,如果待检测的观测序列的平均极大似然估计值在此区间内,则可以判断其为爬虫,反正则不是爬虫程序。
S5,本发明基于卷积神经网络理论,采用风格化迁移技术将捕捉原始内容图像的风格特征与图像的内容特征,并通过训练卷积神经网络将其转移到目标图像之上,完成图像重建,通过多次迭代逐步优化图像,即可生成破解难度大的验证码,以达到反爬虫的目的。
综上所述,本发明的基于web日志的反爬虫方法可以对web日志进行研究分析,并检测出网络爬虫程序,而网络爬虫程序会对网络安全造成威胁,因此研究基于web日志的反爬虫方法对网络安全防护具有重要意义。本方法结合HMM算法训练出网络爬虫模型,并采用风格化迁移技术以及结合卷积神经网络模型生成难于破解的验证码,将其应用于含有重要数据的网站或可能会被爬虫程序攻击的网站中,以达到反爬虫的目的。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。

Claims (6)

1.一种基于web日志的网站反爬虫方法,其特征及具体步骤如下:
S1,从日志服务器中获取web日志,对web日志进行收集以及预处理,清除噪声数据,将不合规范的数据进行数据过滤、格式转化及规整,并将清洗后的日志数据存储到关系数据库中。
S2,从web日志中提取出观测序列,结合HMM算法训练爬虫检测模型。
S3,利用似然函数计算出爬虫序列在HMM算法下的平均极大似然估计值,确定出爬虫的平均极大似然估计值区间。
S4,对于待检测的观测序列,计算其平均极大似然估计值,根据网络爬虫程序的平均极大似然估计值区间判断是否为爬虫程序。
S5,基于卷积神经网络设计生成防破解的图像类验证码,利用风格化迁移技术将捕捉原始内容图像的风格特征与图像的内容特征,并通过训练卷积神经网络将其转移到目标图像之上,完成图像重建,通过多次迭代逐步优化图像,即可生成破解难度大的验证码,嵌入到容易被网络爬虫程序攻击的页面,以达到反爬虫的目的。
2.根据权利要求1所述的一种基于web日志的网站反爬虫方法,其特征在于,对于步骤S1,本发明首先对获取到的web日志进行预处理。预处理内容包括对web日志内容的缺失值处理以及异常值处理,产出高质量的数据,提高模型的检测效率。同时,要对清洗后的web日志数据进行特征降维操作,进行特征抽取和特征选择,保留关键特征,舍弃与爬虫程序分析无关的特征,以此提高网络爬虫程序检测的效率。具体操作如下:
(1)缺失值处理
数据缺失问题可能会造成系统中的不确定性成分的更难把握,还会造成模型训练过程陷入混乱,进而导致不可靠输出,造成输出结果的误判。如果没有高质量数据,就没有高质量反爬模型,所以缺失值的问题不容忽视。当缺失占的比例较小时,可直接对有缺失的记录进行手工处理或直接丢弃。但在实际的数据中,缺失数据占有相当大的比重。若进行手工处理,效率会非常低;若直接舍弃缺失的记录,则会造成大量信息的丢失,使不完全的观测数据与完整的观测数据之间产生较大的差异,针对这个问题采取的方法是对缺失值采取进行补0、众数、填充默认值的处理方法。
(2)异常值处理
由于实际环境的复杂性,可能会导致特征数据会出现异常值,所以需要把该特征值与对应的门限值作比较,剔除相对偏差较大的异常值,尽可能的保证数据的有效性,尽量减少对爬虫检测模型的影响。异常值的处理与缺失值类似,只是需要将特征的取值范围提前界定,以判断此采样值是否正常,从而对异常值采取进行补0、填充默认值或者丢弃的处理方法。
(3)特征降维
特征维度太低可能会导致无法挖掘出数据集里面有用的信息,但特征维度太高,也会造成维度复杂错乱,影响算法的计算速度,也使得重要的特征不能在模型中得到有效的表达,影响模型效果。所以综合模型的精度和速度,要对维度过高的特征进行降维处理,对web日志进行特征抽取和特征选择,保留关键特征,舍弃与爬虫程序分析无关的特征,以此寻求检测精度高的检测模型。
3.根据权利要求1所述的一种基于web日志的网站反爬虫方法,其特征在于,对于步骤S2,为了从web日志记录中检测出网络爬虫行为,本发明采用了HMM算法训练出网络爬虫程序检测模型。训练过程就是基于现有的网络爬虫日志生成观测序列,计算其平均极大似然估计值,确定出爬虫程序所在的平均极大似然估计值区间。对于待判定的网络爬虫日志,生成待预测序列,计算其平均极大似然估计值,与爬虫平均极大似然估计区间进行对比,从而判断出是否为爬虫程序。
假设爬虫序列可以描述为:t时刻序列记作:
Figure FDA0003281142000000021
Figure FDA0003281142000000022
表示此爬虫序列在t时刻的第i个属性,例如客户端地址、访问时间、请求方式、浏览器信息等内容。
HMM的三元输入参数设为λ={A,τ,μ},其中A为N*N的隐藏状态的转移概率分布,τ为初始时刻的隐藏状态概率分布,μ是给定隐藏状态下的平均请求次数,是一个一维向量,记作μ={μ1,μ2,μ3,…,μn},各个分量可以通过公式(1)计算得到,
Figure FDA0003281142000000023
初始状态概率分布由τ表示:τ={τi},且满足
Figure FDA0003281142000000024
其中,τi=P(i1=qi)表示当时刻t=1时,观测序列处于状态qi的概率。
转移状态概率由矩阵A表示:A=[aij]N*M,其中,第i行第j列元素:aij=P(it+1=qj|it=qi),1≤i≤N,aij表示观测序列在t时刻处于某个隐藏状态qi的条件下,在t+1时刻转移到另一种隐藏状态qj的概率。
观测概率由B表示A=[bj(k)]N*M,其中bj(k)的计算公式如公式(2)所示,
Figure FDA0003281142000000031
bj(k)表示待测序列在t时刻处于隐藏状态qj的条件下,生成观测值vk的概率。
通过期望-最大值EM算法迭代训练HMM算法的参数,参数的计算需要经过多轮的迭代过程,每一轮迭代分为以下两个步骤:
(1)首先计算出期望值Q:
计算公式如公式(3)所示:
Q(θ,θ(i))=∑z[(P(Y,Z|θ)|P(Z|Y,θ(i)))] (3)
其中,θ是待极大化的参数,θ(i)是当前的估计值,Y是观测值,Z是隐藏状态,P(Y,Z|θ)是联合分布,P(Z|Y,θ(i))是条件分布。
在当前迭代过程中,记录下期望值最大的参数。通过以下公式在迭代中递推计算出HMM的各个参数
Figure FDA0003281142000000032
Figure FDA0003281142000000033
Figure FDA0003281142000000034
Figure FDA0003281142000000035
比较第n+1次得到的观测序列概率与第n次得到的观测序列概率,如果获得的第n+1次与第n次观测序列概率之差的绝对值满足公式(7),
Figure FDA0003281142000000036
K为提前设置好的定值,用来判断计算所得的HMM算法的参数是否收敛,如果计算结果的绝对值大于等于给定值K,那么认为第n次得到的HMM参数是收敛的,此时所得到的爬虫检测模型是最优的。
4.根据权利要求1所述的一种基于web日志的网站反爬虫方法,其特征在于,对于步骤S3,利用似然函数计算爬虫序列在HMM算法下的平均极大似然估计值,并且根据建立的爬虫检测模型确定出网络爬虫程序的平均极大似然估计值区间,从未分类的数据中辨认出爬虫。
在该模型下,计算出训练数据中每个观测序列的平均极大似然估计值,计算方法如下:
使用前向-后向算法,t时刻,得到前向变量αt(i)和后向变量βt(j):计算过程如公式(8)所示,
Figure FDA0003281142000000041
那么,t时刻观测序列
Figure FDA0003281142000000042
出现概率计算如公式(9)所示,
Figure FDA0003281142000000043
每个序列的极大似然估计值表示为MLEl,其计算如公式(10)所示,
Figure FDA0003281142000000044
根据公式(10)我们可以计算出所有观测序列的平均极大似然估计值,可以利用二维坐标图得出平均极大似然估计值的分布情况,进而可以确定出网络爬虫程序的平均极大似然估计值区间。
5.根据权利要求1所述的一种基于web日志的网站反爬虫方法,其特征在于,对于步骤S4,对于待检测的观测序列,计算其平均极大似然估计值,通过对于步骤S3中获取的网络爬虫程序的平均极大似然估计值区间判断是否为爬虫程序,如果待检测的观测序列的平均极大似然估计值在此区间内,则可以判断其为爬虫,反正则不是爬虫程序。
6.根据权利要求1所述的一种基于web日志的网站反爬虫方法,其特征在于,对于步骤S5,本发明基于卷积神经网络理论,采用风格化迁移技术将捕捉原始内容图像的风格特征与图像的内容特征,并通过训练卷积神经网络将其转移到目标图像之上,完成图像重建,通过多次迭代逐步优化图像,即可生成破解难度大的验证码,以达到反爬虫的目的。需要按照以下步骤进行:
第一步:从图像数据集中随机选择一种类别的图像,根据图像类别关键字生成一张与此图片类型相关的文本来描述图像,图像类别关键字的文本的生成可以使用任意字体,并酌情添加扭曲、噪线,适当地进行旋转移动,添加颜色等操作,从而增加破解文本描述的难度。
第二步:根据第一步选择的图像类别,从原始图像数据库中随机选取k张与选定的图像类型相关的图像,再随机选取N*M-k张任意其他类型的图像。
第三步:训练风格化迁移模型:首先基于卷积神经网络理论提取出原始图像的风格特征与图像的内容特征。首先,采用公式(11)计算图像的平均值,
Figure FDA0003281142000000051
利用计算出的图像的平均值对图像进行标准化处理,如公式(12):
Figure FDA0003281142000000052
其中,μ是图像的均值,x表示图像矩阵,σ表示标准方差,N表示图像x的像素数量。对于给定高度H和宽度w的图像x,通过CNN模型进行前向传播,最后一个卷积层的输出就是特征F∈Rw*h*c,其中w,h,c分别表示通道的宽度、高度和数量。F是局部特征的总和,其中在(i,j)处的每个向量Fij∈Rc都是输入图像的局部特征。然后,获取图像的局部特征之间的线性关系,对于特征
Figure FDA0003281142000000053
通过计算协方差矩阵CM∈Rc*c来获取局部特征之间的线性关系,如公式(13),
Figure FDA0003281142000000054
Figure FDA0003281142000000055
表示
Figure FDA0003281142000000056
的第n行向量,
Figure FDA0003281142000000057
表示
Figure FDA0003281142000000058
的第n行向量。CM中在坐标为(i,j)的元素值表示局部特征
Figure FDA0003281142000000061
的第i个特征通道与局部特征
Figure FDA0003281142000000062
的第j个特征通道之间的线性关系程度,值越大,线性关系越强。最后将获取到的特征进行特征融合,特征X与特征Y融合为新的特征Z计算过程如公式(14),
Figure FDA0003281142000000063
第四步:从提前训练好的风格化迁移模型中随机挑选一个或多个风格化模型,将第二步中选取的N*M张候选集图像随机放入风格化迁移模型中用于生成风格化图像,接着,将所有生成的风格化图像缩放到设定好的像素大小,至此,原始候选集图像全部经过风格化迁移生成了风格化图像,所有图像数据准备完毕。
第五步:将第三步准备好的所有风格化图像候选集随机放置在N*M大小的格子中,将第一步生成的文本描述图像与候选集图像合并组成一个完整的验证码图像,最终按照需要调整验证码图像的大小。
CN202111133369.6A 2021-09-27 2021-09-27 一种基于web日志的网站反爬虫方法 Active CN113868651B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111133369.6A CN113868651B (zh) 2021-09-27 2021-09-27 一种基于web日志的网站反爬虫方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111133369.6A CN113868651B (zh) 2021-09-27 2021-09-27 一种基于web日志的网站反爬虫方法

Publications (2)

Publication Number Publication Date
CN113868651A true CN113868651A (zh) 2021-12-31
CN113868651B CN113868651B (zh) 2024-04-26

Family

ID=78990891

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111133369.6A Active CN113868651B (zh) 2021-09-27 2021-09-27 一种基于web日志的网站反爬虫方法

Country Status (1)

Country Link
CN (1) CN113868651B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114896531A (zh) * 2022-04-27 2022-08-12 北京聚通达科技股份有限公司 图像处理的方法、装置、电子设备及存储介质
CN117596081A (zh) * 2024-01-18 2024-02-23 北京无忧创想信息技术有限公司 一种基于机器学习的社区爬虫行为识别方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160055243A1 (en) * 2014-08-22 2016-02-25 Ut Battelle, Llc Web crawler for acquiring content
CN106961444A (zh) * 2017-04-26 2017-07-18 广东亿荣电子商务有限公司 一种基于隐马尔可夫模型的恶意网络爬虫检测方法
WO2018076571A1 (zh) * 2016-10-28 2018-05-03 南京华苏科技有限公司 Lte网络中的异常值检测方法及系统
US20180300850A1 (en) * 2017-04-14 2018-10-18 Facebook, Inc. Artifact reduction for image style transfer
CN110246198A (zh) * 2019-05-21 2019-09-17 北京奇艺世纪科技有限公司 选字验证码生成方法、装置、电子设备及存储介质
CN110399712A (zh) * 2019-07-31 2019-11-01 网易(杭州)网络有限公司 基于验证码的交互验证方法、装置、介质和计算设备
CN111242841A (zh) * 2020-01-15 2020-06-05 杭州电子科技大学 一种基于语义分割和深度学习的图片背景风格迁移方法
CN111325681A (zh) * 2020-01-20 2020-06-23 南京邮电大学 一种结合元学习机制与特征融合的图像风格迁移方法
WO2021114454A1 (zh) * 2019-12-13 2021-06-17 网宿科技股份有限公司 一种检测爬虫请求的方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160055243A1 (en) * 2014-08-22 2016-02-25 Ut Battelle, Llc Web crawler for acquiring content
WO2018076571A1 (zh) * 2016-10-28 2018-05-03 南京华苏科技有限公司 Lte网络中的异常值检测方法及系统
US20180300850A1 (en) * 2017-04-14 2018-10-18 Facebook, Inc. Artifact reduction for image style transfer
CN106961444A (zh) * 2017-04-26 2017-07-18 广东亿荣电子商务有限公司 一种基于隐马尔可夫模型的恶意网络爬虫检测方法
CN110246198A (zh) * 2019-05-21 2019-09-17 北京奇艺世纪科技有限公司 选字验证码生成方法、装置、电子设备及存储介质
CN110399712A (zh) * 2019-07-31 2019-11-01 网易(杭州)网络有限公司 基于验证码的交互验证方法、装置、介质和计算设备
WO2021114454A1 (zh) * 2019-12-13 2021-06-17 网宿科技股份有限公司 一种检测爬虫请求的方法和装置
CN111242841A (zh) * 2020-01-15 2020-06-05 杭州电子科技大学 一种基于语义分割和深度学习的图片背景风格迁移方法
CN111325681A (zh) * 2020-01-20 2020-06-23 南京邮电大学 一种结合元学习机制与特征融合的图像风格迁移方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
陈超: "前景与背景分离的图像风格迁移技术研究", 31 December 2019 (2019-12-31) *
陈超;: "前景与背景分离的图像风格迁移系统设计与实现", 信息通信, no. 04, 15 April 2019 (2019-04-15) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114896531A (zh) * 2022-04-27 2022-08-12 北京聚通达科技股份有限公司 图像处理的方法、装置、电子设备及存储介质
CN114896531B (zh) * 2022-04-27 2023-03-24 北京聚通达科技股份有限公司 图像处理的方法、装置、电子设备及存储介质
CN117596081A (zh) * 2024-01-18 2024-02-23 北京无忧创想信息技术有限公司 一种基于机器学习的社区爬虫行为识别方法及系统
CN117596081B (zh) * 2024-01-18 2024-03-26 北京无忧创想信息技术有限公司 一种基于机器学习的社区爬虫行为识别方法及系统

Also Published As

Publication number Publication date
CN113868651B (zh) 2024-04-26

Similar Documents

Publication Publication Date Title
CN109919981B (zh) 一种基于卡尔曼滤波辅助的多特征融合的多目标跟踪方法
CN105721427B (zh) 一种从Web日志中挖掘攻击频繁序列模式的方法
CN109889538B (zh) 用户异常行为检测方法及系统
CN113868651B (zh) 一种基于web日志的网站反爬虫方法
CN110162665B (zh) 视频搜索方法、计算机设备及存储介质
CN111507386B (zh) 一种存储文件及网络数据流加密通信检测方法及系统
CN113505826B (zh) 基于联合特征选择的网络流量异常检测方法
CN108154080B (zh) 一种视频设备快速溯源的方法
CN115378733B (zh) 一种基于动态图嵌入的多步攻击场景构建方法及系统
CN113407886A (zh) 网络犯罪平台识别方法、系统、设备和计算机存储介质
CN115037543B (zh) 一种基于双向时间卷积神经网络的异常网络流量检测方法
Khan et al. Digital forensics and cyber forensics investigation: security challenges, limitations, open issues, and future direction
Li et al. PhishBox: An approach for phishing validation and detection
CN112163493A (zh) 一种视频虚假人脸检测方法及电子装置
CN114841705B (zh) 一种基于场景识别的反欺诈监测方法
Singh et al. An ensemble approach for feature selection of Cyber Attack Dataset
US9332031B1 (en) Categorizing accounts based on associated images
US20240187446A1 (en) Method and system for detecting complex multi-step attack in electric power system
CN106530198A (zh) 基于参数拟合安全容量的自适应批量隐写方法
CN116758590B (zh) 用于身份认证的手掌特征处理方法、装置、设备和介质
CN115567305B (zh) 基于深度学习的顺序网络攻击预测分析方法
CN117081801A (zh) 网站的内容管理系统的指纹识别方法、装置及介质
CN114169432B (zh) 一种基于深度学习的跨站脚本攻击识别方法
CN116401479A (zh) 一种基于加密流量双向突发序列的网站内容行为识别方法和系统
Gong et al. AGRAMPLIFIER: Defending federated learning against poisoning attacks through local update amplification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant