CN116886446A - 一种自动化攻击的检测方法、电子设备及存储介质 - Google Patents
一种自动化攻击的检测方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116886446A CN116886446A CN202311141007.0A CN202311141007A CN116886446A CN 116886446 A CN116886446 A CN 116886446A CN 202311141007 A CN202311141007 A CN 202311141007A CN 116886446 A CN116886446 A CN 116886446A
- Authority
- CN
- China
- Prior art keywords
- target
- client
- preset
- attack
- language model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 61
- 239000013598 vector Substances 0.000 claims abstract description 88
- 230000006399 behavior Effects 0.000 claims abstract description 85
- 238000000034 method Methods 0.000 claims abstract description 48
- 230000003993 interaction Effects 0.000 claims abstract description 36
- 238000013145 classification model Methods 0.000 claims abstract description 28
- 230000001960 triggered effect Effects 0.000 claims abstract description 27
- 230000004044 response Effects 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims description 34
- 230000002776 aggregation Effects 0.000 claims description 16
- 238000004220 aggregation Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 8
- 238000011895 specific detection Methods 0.000 claims description 6
- 230000009471 action Effects 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 239000003795 chemical substances by application Substances 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 239000008186 active pharmaceutical agent Substances 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- UORJNBVJVRLXMQ-UHFFFAOYSA-N aprobarbital Chemical compound C=CCC1(C(C)C)C(=O)NC(=O)NC1=O UORJNBVJVRLXMQ-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 235000014510 cooky Nutrition 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种自动化攻击的检测方法、电子设备及存储介质,涉及网络安全领域,该方法包括:响应于到达设定时间点,获取目标大语言模型在目标时间窗口内被目标客户端的访问操作触发的预设检测行为,采集每一被触发的预设检测行为对应的行为特征参数;获取目标时间窗口内目标客户端与目标大语言模型之间的所有的目标交互数据;根据目标交互数据,确定目标客户端对应的目标数据交互特征向量;将目标数据交互特征向量输入目标分类模型中,得到第一概率值;根据第一概率值和每一类预设检测行为的次数,确定待检测攻击特征向量T;根据T,确定目标客户端是否正在进行自动化攻击。本发明能够及时检测出目标客户端是否正在进行自动化攻击。
Description
技术领域
本发明涉及网络安全领域,特别是涉及一种自动化攻击的检测方法、电子设备及存储介质。
背景技术
由于大语言模型基本都是以API的形式交付,使用这些API的不光是正常用户,还有大量恶意编写的机器人和被盗的账户会对这些API进行大规模的自动攻击,因此大语言模型非常需要自动化攻击防护。
发明内容
针对上述技术问题,本发明提供一种自动化攻击的检测方法、电子设备及存储介质,以提供一种能够识别出针对大语言模型的自动化攻击的方法。
在本发明的一方面,提供一种自动化攻击的检测方法,所述方法包括如下步骤:
响应于到达设定时间点,获取目标大语言模型在目标时间窗口内被目标客户端的访问操作触发的预设检测行为,采集每一被触发的预设检测行为对应的行为特征参数;
获取目标时间窗口内目标客户端与所述目标大语言模型之间的所有的目标交互数据;
根据所述目标交互数据,确定所述目标客户端对应的目标数据交互特征向量;
将所述目标数据交互特征向量输入目标分类模型中,得到第一概率值;所述第一概率值用于表示控制所述目标客户端访问所述目标大语言模型的用户为机器人的概率;
根据所述第一概率值和每一类预设检测行为的行为特征参数,确定待检测攻击特征向量T=(P,TZ1,TZ2,…,TZi,…,TZn),i=1,2,…,n;其中,P为所述第一概率值;TZi为在目标时间窗口内被触发的第i类预设检测行为对应的行为特征参数;n为被触发的预设检测行为的种类数量;
根据T,确定目标客户端是否正在对所述目标大语言模型进行自动化攻击。
在本申请的一种示例性实施例中,所述根据T,确定目标客户端是否正在对所述目标大语言模型进行自动化攻击,包括:
将T输入目标K-Means模型,以得到目标K-Means模型输出的分类结果;分类结果用于表示T是否被分配到若干预设的第一聚类集的其中之一内;所述第一聚类集为所述目标K-Means模型对若干正常访问目标大语言模型的客户端对应的历史特征向量进行聚类后得到的;所述历史特征向量根据目标训练样本得到;
若所述分类结果表示T未被分配到任一第一聚类集内,则确定目标客户端正在进行自动化攻击。
在本申请的一种示例性实施例中,所述根据T,确定目标客户端是否正在对所述目标大语言模型进行自动化攻击,包括:
计算T和m个历史特征向量的目标差异度,以得到目标差异度集Y=(Y1,Y2,…,Yj,…,Ym),j=1,2,…,m;其中,Yj为T和第j个历史特征向量的目标差异度,Yj=(1-∑n+1 k=1(Tk*Mk,j)/(sqrt(∑n+1 k=1(Tk)2)*sqrt(∑n+1 k=1(Mk,j)2)))/2;Tk为T中第k个参数;Mk,j为第j个历史特征向量中的第k个参数;sqrt()为预设的平方根确定函数;
获取目标客户端正在进行自动化攻击的概率MP=MAX(Y);其中,MAX()为预设的最大值确定函数;
若MP>YZ1,则确定目标客户端正在进行自动化攻击;YZ1为第一预设概率阈值;
若YZ2<MP<YZ1,则将T作为中间待检测攻击特征向量放入预设特征向量集内;YZ2为第二预设概率阈值。
在本申请的一种示例性实施例中,在所述将T作为中间待检测攻击特征向量放入预设特征向量集内之后,所述方法还包括;
当所述预设特征向量集内的中间待检测攻击特征向量的数量达到第一预设数量阈值,则使用预设的聚类算法对预设特征向量集内的中间待检测攻击特征向量聚类,以得到若干第二聚类集;
遍历每一第二聚类集,若当前的第二聚类集中包含的中间待检测攻击特征向量的数量大于第二预设数量阈值,则将当前的第二聚类集中每一中间待检测攻击特征向量对应的目标客户端正在进行自动化攻击。
在本申请的一种示例性实施例中,所述目标分类模型为SVM模型;
所述目标分类模型通过以下步骤得到:
根据已知的正常访问目标大语言模型的客户端在设定时间窗口内的历史交互数据,得到若干目标训练样本;
根据若干所述目标训练样本对初始SVM模型进行训练,以得到目标分类模型。
在本申请的一种示例性实施例中,所述历史特征向量通过以下步骤得到:
获取若干所述目标训练样本;
针对每一目标训练样本对应的客户端,获取在其对应的设定时间窗口内,所述目标大语言模型对该客户端执行各预设检测行为得到的历史行为特征参数;
根据每一所述目标训练样本以及其对应的历史行为特征参数,得到每一所述目标训练样本对应的历史特征向量。
在本申请的一种示例性实施例中,所述预设检测行为包括:访问频度防护、客户端环境检测、蜜罐检测;
所述访问频度防护为所述目标大语言模型在同一客户端的访问频度超过设定访问频度阈值时被触发的防护行为;
所述客户端环境检测为目标大语言模型的回应页面被实施预设动作时触发的特定检测行为;所述特定检测行为用于根据环境参数确定当前的客户端是否为浏览器;
所述蜜罐检测为确定客户端访问目标大语言模型的回应页面中的预设HTML链接的次数的计数行为;所述预设HTML链接在所述回应页面中以生物用户不可见的方式显示。
在本申请的一种示例性实施例中,所述目标交互数据包括:获取的json资源数量、获取的xml资源数量、文件上传数量、文件下载数量、获取的js文件数量、获取的css文件数量、获取的html文件数量、不带User-Agent字段的访问请求的数量、不带Referer字段的访问请求的数量、返回错误码的访问请求的数量、HTTP请求的数量、TCP连接数中的至少一个。
在本发明的另一方面,提供一种非瞬时性计算机可读存储介质,存储介质中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行以实现前述的自动化攻击的检测方法。
在本发明的另一方面,提供一种电子设备,包括处理器和上述非瞬时性计算机可读存储介质。
本发明至少具有以下有益效果:
本发明提供的自动化攻击的检测方法,响应于到达设定时间点,获取目标大语言模型在目标时间窗口内被目标客户端的访问操作触发的预设检测行为,并采集每一被触发的预设检测行为对应的行为特征参数。采集到的预设检测行为对应的行为特征参数可以反映控制目标客户端的访问目标大语言模型的用户为机器人的概率。然后获取目标时间窗口内目标客户端与目标大语言模型之间的所有的目标交互数据,以此确定目标客户端对应的目标数据交互特征向量,将目标数据交互特征向量输入目标分类模型中,可以得到第一概率值,也就是控制目标客户端访问目标大语言模型为机器人的概率。根据第一概率值和每一类预设检测行为的行为特征参数,可以确定待检测攻击特征向量T。正常用户控制目标客户端访问目标大语言模型的第一概率值和每一类预设检测行为的行为特征参数与攻击者利用机器人控制的目标客户端访问目标大语言模型的第一概率值和每一类预设检测行为的行为特征参数存在差别,如果判断出是攻击者利用机器人控制目标客户端访问目标大语言模型,则表示目标客户端正在进行自动化攻击。故而本发明提供的自动化攻击的检测方法,能够根据目标时间窗口内目标客户端触发的预设检测行为以及目标客户端与目标大语言模型之间的所有的目标交互数据,及时检测出目标客户端是否正在进行自动化攻击,帮助用户防御自动化攻击,保障正常用户访问、阻断机器人非法访问。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种自动化攻击的检测方法流程图;
图2为本发明实施例提供的另一种自动化攻击的检测方法流程图;
图3为本发明实施例提供的另一种自动化攻击的检测方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
请参考图1所示,本发明的实施例提供了一种自动化攻击的检测方法,包括:
S100,响应于到达设定时间点,获取目标大语言模型在目标时间窗口内被目标客户端的访问操作触发的预设检测行为,采集每一被触发的预设检测行为对应的行为特征参数;目标客户端为在目标时间窗口内访问过目标大语言模型的客户端。
为了提高检测效率,本发明预先为目标大语言模型设置了若干个预设检测行为。预设检测行为可以快速判断当前访问目标大语言模型的目标客户端是否为机器人,但是容易被攻击者绕开。比如可以通过设定阈值检测目标客户端是否为正在进行自动化攻击的机器人,但是在目标客户端访问频度超过设定访问频度阈值时,目标大语言模型才会被触发防护行为,如果机器人在不超过设定访问频度阈值的情况下进行攻击,此时就不会检测出来。故而,不能只通过目标客户端的预设检测行为检测其是否正在进行自动化攻击,需要利用本发明提供的方法进一步进行自动化攻击检测。
在具体实现时,本实例中所述目标时间窗口的长度可选范围可以设置为1-10分钟,优选的,所述目标时间窗口的长度为2分钟。
以及本发明中的机器人不仅指代常规意义上的实体机器人,也指代能够自动运行并完成信息发送等功能的软件程序,如脚本等。
进一步的,在上述实施例具体实施时,所述预设检测行为具体可以包括:访问频度防护、客户端环境检测、蜜罐检测等。
访问频度防护为目标大语言模型在同一客户端的访问频度超过设定访问频度阈值时会被触发的防护行为。
所述客户端环境检测为目标大语言模型的回应页面被实施预设动作时触发的特定检测行为;所述特定检测行为用于根据环境参数确定当前的客户端是否为浏览器。
所述蜜罐检测为确定客户端访问目标大语言模型的回应页面中的预设HTML链接的次数的计数行为;预设HTML链接在回应页面中以生物用户不可见的方式显示。
S200,获取目标时间窗口内目标客户端与目标大语言模型之间的所有的目标交互数据。
在具体实施时,所述目标交互数据包括:获取的json资源数量、获取的xml资源数量、文件上传数量、文件下载数量、获取的js文件数量、获取的css文件数量、获取的html文件数量、不带User-Agent字段的访问请求的数量、不带Referer字段的访问请求的数量、返回错误码的访问请求的数量、HTTP请求的数量、TCP连接数中的至少一个。
S300,根据目标交互数据,确定目标客户端对应的目标数据交互特征向量。
在具体实施时,可以通过预设的编码方式对上述的目标交互特征数据进行编码,得到每一目标交互数据对应的特征值,再根据这些特征值得到目标数据交互特征向量。其中,编码方法可以根据实际场景和需求进行确定。例如,对获取的json资源数量进行分箱处理,以得到对应的特征值等。
S400,将目标数据交互特征向量输入目标分类模型中,得到第一概率值;第一概率值用于表示控制目标客户端访问目标大语言模型为机器人的概率。
S500,根据第一概率值和每一类预设检测行为的行为特征参数,确定待检测攻击特征向量T=(P,TZ1,TZ2,…,TZi,…,TZn),i=1,2,…,n;其中,P为第一概率值;TZi为在目标时间窗口内被触发的第i类预设检测行为对应的行为特征参数;n为被触发的预设检测行为的种类数量。
S600,根据T,确定目标客户端是否正在对所述目标大语言模型进行自动化攻击。
本实施例提供的自动化攻击的检测方法,响应于到达设定时间点,获取目标大语言模型在目标时间窗口内被目标客户端的访问操作触发的预设检测行为,并采集每一被触发的预设检测行为对应的行为特征参数。采集到的预设检测行为对应的行为特征参数可以反映控制目标客户端的访问目标大语言模型的用户为机器人的概率。然后获取目标时间窗口内目标客户端与目标大语言模型之间的所有的目标交互数据,以此确定目标客户端对应的目标数据交互特征向量,将目标数据交互特征向量输入目标分类模型中,可以得到第一概率值,也就是控制目标客户端访问目标大语言模型为机器人的概率。根据第一概率值和每一类预设检测行为的行为特征参数,可以确定待检测攻击特征向量T。正常用户控制目标客户端访问目标大语言模型的第一概率值和每一类预设检测行为的行为特征参数与攻击者利用机器人控制的目标客户端访问目标大语言模型的第一概率值和每一类预设检测行为的行为特征参数存在差别,如果判断出是攻击者利用机器人控制目标客户端访问目标大语言模型,则表示目标客户端正在进行自动化攻击。故而本发明提供的自动化攻击的检测方法,能够根据目标时间窗口内目标客户端触发的预设检测行为以及目标客户端与目标大语言模型之间的所有的目标交互数据,及时检测出目标客户端是否正在进行自动化攻击,帮助用户防御自动化攻击,保障正常用户访问、阻断机器人非法访问。
请参考图2所示,在本发明的一种示例性实施例中,所述步骤S600,包括:
S610,将T输入目标K-Means模型,以得到目标K-Means模型输出的分类结果;分类结果用于表示T是否被分配到若干预设的第一聚类集的其中之一内;第一聚类集为目标K-Means模型对若干正常访问目标大语言模型的客户端对应的历史特征向量进行聚类后得到的;历史特征向量根据目标训练样本得到。
S620,若分类结果表示T未被分配到任一第一聚类集内,则确定目标客户端正在进行自动化攻击。
具体的,所述目标K-Means模型包括预设的K个聚类中心,通过对若干已知生物用户控制的客户端对应的历史特征向量进行聚类,得到的K个第一聚类集中的客户端的特征不一致,但均为已知生物用户控制的。将T输入目标K-Means模型中,若目标客户端为已知生物用户控制的,那么T将会被分到与K个聚类中心的差异度最高的一个第一聚类集中。若目标客户端为机器人控制的,则T将不会被分到K个第一聚类集的任一中。故而,可以确定目标客户端是否正在对所述目标大语言模型进行自动化攻击。
请参考图3所示,在本发明的另一种示例性实施例中,所述步骤S600,包括:
S630,计算T和m个历史特征向量的目标差异度,以得到目标差异度集Y=(Y1,Y2,…,Yj,…,Ym),j=1,2,…,m;其中,m为历史特征向量的数量;Yj为T和第j个历史特征向量的目标差异度,Yj=(1-∑n+1 k=1(Tk*Mk,j)/(sqrt(∑n+1 k=1(Tk)2)*sqrt(∑n+1 k=1(Mk,j)2)))/2;Tk为T中第k个参数;Mk,j为第j个历史特征向量中的第k个参数;sqrt()为预设的平方根确定函数。
可以理解的是,因为T中一种包含n+1个参数,故而,k 的取值范围为1到n+1;具体的,T1为P,T5为TZ4。即,k=1时,Tk=P。k>1时,Tk=TZk-1。Mk,j同理。
S640,获取目标客户端正在进行自动化攻击的概率MP=MAX(Y);其中,MAX()为预设的最大值确定函数。
具体的,所述历史特征向量对应的客户端均为已知生物用户控制的,所述目标差异度越大,表示目标客户端正在进行自动化攻击的概率越大。
S650,若MP>YZ1,则确定目标客户端正在进行自动化攻击;YZ1为第一预设概率阈值。
在本实施例中,可以通过计算得到T和每一历史特征向量的目标差异度,由于历史特征向量对应的客户端为生物用户控制,通过每一目标差异度可以表示目标客户端与每一已知生物用户控制的客户端的相似程度,并且可以将目标差异度的最大值作为机器人控制目标客户端访问目标大语言模型的概率MP,即目标客户端正在进行自动化攻击的概率为MP,若MP>YZ1,则可以确定目标客户端正在进行自动化攻击。
S660,若YZ2<MP<YZ1,则将T作为中间待检测攻击特征向量放入预设特征向量集内;YZ2为第二预设概率阈值。
具体的,经实验测试,YZ1的可选范围为0.85-0.95,优选的,YZ1=0.9。YZ2的可选范围为0.55-0.85,优选的,Y2=0.6。
进一步的,机器人控制的客户端进行自动化攻击时,可能会进行分散攻击(也就是将要完成的攻击分到多个客户端分别进行攻击)。同时,由于本实施例中,T仅是根据一个客户端的数据得到的,若攻击者采用上述的方式进行分散攻击,会导致最终得到的MP低于YZ1。这样,就会使得无法将这类客户端确定为正在进行自动化攻击的客户端。
为解决这一问题,本实施例中,若YZ2<MP<YZ1(即表示目标客户端不满足确定正在进行自动化攻击的判定,但是行为比较可疑),会将T作为中间待检测攻击特征向量放入预设特征向量集内。
因此,在所述步骤S660后,本实施例提供的方法还包括:
S670,当预设特征向量集内的中间待检测攻击特征向量的数量达到第一预设数量阈值,则使用预设的聚类算法对预设特征向量集内的中间待检测攻击特征向量聚类,以得到若干第二聚类集。
S680,遍历每一第二聚类集,若当前的第二聚类集中包含的中间待检测攻击特征向量的数量大于第二预设数量阈值,则确定当前的第二聚类集中每一中间待检测攻击特征向量对应的目标客户端正在进行自动化攻击。
具体的,所述中间待检测攻击特征向量的数量达到第一预设数量阈值时,表示有大量的目标客户端不满足确定正在进行自动化攻击的判定,但是行为比较可疑。如果所述中间待检测攻击特征向量对应的客户端被机器人控制,则可能会具有相似的行为,如果所述中间待检测攻击特征向量对应的客户端被生物用户控制,则每个客户端的行为一般不会有大量的重复。故而,通过预设的聚类算法对预设特征向量集内的中间待检测攻击特征向量聚类,以得到若干第二聚类集,所述第二聚类集中每一中间待检测攻击特征对应的客户端的行为相似。若当前的第二聚类集中包含的中间待检测攻击特征向量的数量大于第二预设数量阈值,则表示有大量客户端的行为相似,可以将这类客户端确定为正在进行自动化攻击的客户端。
进一步的,所述第一预设数量阈值可以由实际实施人员根据实际需求进行设定,本实施例中可以为50。
进一步的,所述第二预设数量阈值可以由实际实施人员根据实际需求进行设定,本实施例中可以为20。
本领域技术人员可知,现有技术中任一能够将数据分为不同类别的聚类算法,均落入本发明的保护范围,在此不再赘述。
在本发明的一种示例性实施例中,所述目标分类模型为SVM模型,
所述目标分类模型通过以下步骤得到:
S410,根据已知的正常访问目标大语言模型的客户端在设定时间窗口内的历史交互数据,得到若干目标训练样本。
在本发明实施例中,获取目标训练样本时选择的客户端不能属于异常客户端,异常客户端如存在下列情况的客户端:存在IP威胁情报和/或已知搜索引擎攻击等。以及本实施例中可以通过【cookie】或者【IP+UserAgent】确定客户端。
S420,根据若干目标训练样本对初始SVM模型进行训练,以得到目标分类模型。
在本发明实施例中,生物用户控制的客户端和机器人控制的客户端产生的交互数据不一致,存在一定的差别,可以将已知的生物用户控制的客户端在设定时间窗口内的历史交互数据作为训练数据,利用SVM模型的特点,如果满足条件就会将新的客户端分类为被生物用户控制的客户端,还可以通过计算新的客户端的数据交互特征向量与历史交互特征向量的差异度,以得到控制新的客户端访问所述目标大语言模型的为机器人的概率。
具体的,所述设定时间窗口的长度可选范围为1-10分钟,优选的,所述设定时间窗口的长度为2分钟。
进一步的,所述设定时间窗口的长度与目标时间窗口一致,可以使获取的数据具有相同维度,便于后续数据处理。
在本发明的一种示例性实施例中,所述历史特征向量通过以下步骤得到:
S611,获取若干目标训练样本。
S612,针对每一目标训练样本对应的客户端,获取在其对应的设定时间窗口内,所述目标大语言模型对该客户端执行各预设检测行为得到的历史行为特征参数。
S613,根据每一目标训练样本以及其对应的历史行为特征参数,得到每一目标训练样本对应的历史特征向量。
在本实施例中,所述历史特征向量可以直接复用目标训练样本,而不需要重新收集数据。
进一步的,获取所述若干目标训练样本后,还包括将每一目标训练样本输入目标分类模型,以得到目标分类模型输出的每一目标训练样本对应的概率值。
进一步的,根据每一目标训练样本对应的概率值和其对应的历史行为特征参数,得到每一目标训练样本对应的历史特征向量。
在本申请的一种示例性实施例中,所述方法还包括以下步骤:
S001,每到达预设的更新确定时间点,获取目标分类模型在目标历史时间段内对应的模型准确度DP;
其中,DP可以根据目标历史时间段内目标分类模型输出的第一概率,以及目标历史时间段内根据T得到的最终确定结果(即表示目标客户端是否正在进行自动化攻击的确定结果)得到。也可以使用其他的模型精度确定方法进行确定。更新确定时间点可以为每一天的24点整,也可以根据实际需求进行设置。目标历史时间段的长度可以为24小时,也可以根据实际需求进行设置。
S002,若1-(NUMa-NUMc)/(NUMall-NUMc)<β*DP,则使用目标历史数据对所述目标分类模型进行更新。
其中,NUMa为目标历史时间段内目标分类模型输出的大于异常判定阈值的第一概率值的数量;NUMc为目标历史时间段内被确定为正在进行自动化攻击的目标客户端的数量;NUMall为目标历史时间段内包含的设定时间点的数量,也可以理解为目标历史时间段内进行步骤S100-步骤S600以确定目标客户端是否正在对所述目标大语言模型进行自动化攻击次数,也可以理解为目标历史时间段内获取到目标数据交互特征向量的数量。β为预设的更新灵敏度系数。0<β≤1,且β的值越大,会使得更新更加频繁。实际实施时,可根据具体需求进行确定具体大小。
本实施例中,会在到达更新确定时间点时,通过1-(NUMa-NUMc)/(NUMall-NUMc)<β*DP确定是否对目标分类模型进行更新,以不断的在目标分类模型的准确度不达标的情况下对目标分类模型进行优化,以提高目标分类模型的准确度。
进一步的,本实施例中还提供了使用目标历史数据对所述目标分类模型进行更新的具体方法,具体的可以为,获取目标历史时间段内每次进行步骤S100-步骤S600的过程中得到的目标数据交互特征向量和步骤S600最终确定结果。然后用同一轮检测(执行一次步骤S100-步骤S600为一轮检测)中的最终确定结果作为样本标签对目标数据交互特征向量进行标记,以得到每一轮检测对应的训练样本。然后用这些训练样本对目标分类模型进行再训练,以实现对目标分类模型的更新。
本发明的实施例还提供了一种非瞬时性计算机可读存储介质,该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。
本发明的实施例还提供了一种电子设备,包括处理器和前述的非瞬时性计算机可读存储介质。
本发明的实施例还提供一种计算机程序产品,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使该电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。
Claims (10)
1.一种自动化攻击的检测方法,其特征在于,所述方法包括如下步骤:
响应于到达设定时间点,获取目标大语言模型在目标时间窗口内被目标客户端的访问操作触发的预设检测行为,采集每一被触发的预设检测行为对应的行为特征参数;
获取目标时间窗口内目标客户端与所述目标大语言模型之间的所有的目标交互数据;
根据所述目标交互数据,确定所述目标客户端对应的目标数据交互特征向量;
将所述目标数据交互特征向量输入目标分类模型中,得到第一概率值;所述第一概率值用于表示控制所述目标客户端访问所述目标大语言模型的用户为机器人的概率;
根据所述第一概率值和每一类预设检测行为的行为特征参数,确定待检测攻击特征向量T=(P,TZ1,TZ2,…,TZi,…,TZn),i=1,2,…,n;其中,P为所述第一概率值;TZi为在目标时间窗口内被触发的第i类预设检测行为对应的行为特征参数;n为被触发的预设检测行为的种类数量;
根据T,确定目标客户端是否正在对所述目标大语言模型进行自动化攻击。
2.根据权利要求1所述的方法,其特征在于,所述根据T,确定目标客户端是否正在对所述目标大语言模型进行自动化攻击,包括:
将T输入目标K-Means模型,以得到目标K-Means模型输出的分类结果;分类结果用于表示T是否被分配到若干预设的第一聚类集的其中之一内;所述第一聚类集通过所述目标K-Means模型对若干正常访问目标大语言模型的客户端对应的历史特征向量进行聚类后得到;所述历史特征向量根据目标训练样本得到;
若所述分类结果表示T未被分配到任一第一聚类集内,则确定目标客户端正在对所述目标大语言模型进行自动化攻击。
3.根据权利要求1所述的方法,其特征在于,所述根据T,确定目标客户端是否正在对所述目标大语言模型进行自动化攻击,包括:
计算T和m个历史特征向量的目标差异度,以得到目标差异度集Y=(Y1,Y2,…,Yj,…,Ym),j=1,2,…,m;其中,Yj为T和第j个历史特征向量的目标差异度,Yj=(1-∑n+1 k=1(Tk*Mk,j)/(sqrt(∑n+1 k=1(Tk)2)*sqrt(∑n+1 k=1(Mk,j)2)))/2;Tk为T中第k个参数;Mk,j为第j个历史特征向量中的第k个参数;sqrt()为预设的平方根确定函数;
获取目标客户端正在进行自动化攻击的概率MP=MAX(Y);其中,MAX()为预设的最大值确定函数;
若MP>YZ1,则确定目标客户端正在对所述目标大语言模型进行自动化攻击;YZ1为第一预设概率阈值;
若YZ2<MP<YZ1,则将T作为中间待检测攻击特征向量放入预设特征向量集内;YZ2为第二预设概率阈值。
4.根据权利要求3所述的方法,其特征在于,在所述将T作为中间待检测攻击特征向量放入预设特征向量集内之后,所述方法还包括;
当所述预设特征向量集内的中间待检测攻击特征向量的数量达到第一预设数量阈值,则使用预设的聚类算法对预设特征向量集内的中间待检测攻击特征向量聚类,以得到若干第二聚类集;
遍历每一第二聚类集,若当前的第二聚类集中包含的中间待检测攻击特征向量的数量大于第二预设数量阈值,则确定当前的第二聚类集中每一中间待检测攻击特征向量对应的目标客户端正在对所述目标大语言模型进行自动化攻击。
5.根据权利要求2或3所述的方法,其特征在于,所述目标分类模型为SVM模型;
所述目标分类模型通过以下步骤得到:
根据已知的正常访问目标大语言模型的客户端在设定时间窗口内的历史交互数据,得到若干目标训练样本;
根据若干所述目标训练样本对初始SVM模型进行训练,以得到目标分类模型。
6.根据权利要求5所述的方法,其特征在于,所述历史特征向量通过以下步骤得到:
获取若干所述目标训练样本;
针对每一目标训练样本对应的客户端,获取在其对应的设定时间窗口内,所述目标大语言模型对该客户端执行各预设检测行为得到的历史行为特征参数;
根据每一所述目标训练样本以及其对应的历史行为特征参数,得到每一所述目标训练样本对应的历史特征向量。
7.根据权利要求1所述的方法,其特征在于,所述预设检测行为包括:访问频度防护、客户端环境检测、蜜罐检测;
所述访问频度防护为所述目标大语言模型在同一客户端的访问频度超过设定访问频度阈值时被触发的防护行为;
所述客户端环境检测为目标大语言模型的回应页面被实施预设动作时触发的特定检测行为;所述特定检测行为用于根据环境参数确定当前的客户端是否为浏览器;
所述蜜罐检测为确定客户端访问目标大语言模型的回应页面中的预设HTML链接的次数的计数行为;所述预设HTML链接在所述回应页面中以生物用户不可见的方式显示。
8.根据权利要求1所述的方法,其特征在于,所述目标交互数据包括:获取的json资源数量、获取的xml资源数量、文件上传数量、文件下载数量、获取的js文件数量、获取的css文件数量、获取的html文件数量、不带User-Agent字段的访问请求的数量、不带Referer字段的访问请求的数量、返回错误码的访问请求的数量、HTTP请求的数量、TCP连接数中的至少一个。
9.一种非瞬时性计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-8中任意一项所述的方法。
10.一种电子设备,其特征在于,包括处理器和权利要求9中所述的非瞬时性计算机可读存储介质。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311141007.0A CN116886446B (zh) | 2023-09-06 | 2023-09-06 | 一种自动化攻击的检测方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311141007.0A CN116886446B (zh) | 2023-09-06 | 2023-09-06 | 一种自动化攻击的检测方法、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116886446A true CN116886446A (zh) | 2023-10-13 |
CN116886446B CN116886446B (zh) | 2023-11-24 |
Family
ID=88271889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311141007.0A Active CN116886446B (zh) | 2023-09-06 | 2023-09-06 | 一种自动化攻击的检测方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116886446B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117473513A (zh) * | 2023-12-28 | 2024-01-30 | 北京立思辰安科技术有限公司 | 一种设备检测方法、存储介质及电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200125639A1 (en) * | 2018-10-22 | 2020-04-23 | Ca, Inc. | Generating training data from a machine learning model to identify offensive language |
CN111083106A (zh) * | 2019-11-12 | 2020-04-28 | 华中科技大学 | 一种多机器人网络中攻击机器人检测方法及检测系统 |
CN114553523A (zh) * | 2022-02-21 | 2022-05-27 | 平安普惠企业管理有限公司 | 基于攻击检测模型的攻击检测方法及装置、介质、设备 |
CN115952343A (zh) * | 2022-12-16 | 2023-04-11 | 四川大学 | 一种基于多关系图卷积网络的社交机器人检测方法 |
CN116451207A (zh) * | 2023-06-15 | 2023-07-18 | 北京顶象技术有限公司 | 一种多要素语义验证码及其生成方法 |
US20230244938A1 (en) * | 2022-02-02 | 2023-08-03 | Google Llc | Using Chains of Thought to Prompt Machine-Learned Models Pre-Trained on Diversified Objectives |
CN116542297A (zh) * | 2023-07-03 | 2023-08-04 | 深圳须弥云图空间科技有限公司 | 基于文本数据训练生成对抗网络的方法及装置 |
CN116611074A (zh) * | 2023-07-17 | 2023-08-18 | 北京奇虎科技有限公司 | 安全信息审查方法、设备、存储介质及装置 |
-
2023
- 2023-09-06 CN CN202311141007.0A patent/CN116886446B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200125639A1 (en) * | 2018-10-22 | 2020-04-23 | Ca, Inc. | Generating training data from a machine learning model to identify offensive language |
CN111083106A (zh) * | 2019-11-12 | 2020-04-28 | 华中科技大学 | 一种多机器人网络中攻击机器人检测方法及检测系统 |
US20230244938A1 (en) * | 2022-02-02 | 2023-08-03 | Google Llc | Using Chains of Thought to Prompt Machine-Learned Models Pre-Trained on Diversified Objectives |
CN114553523A (zh) * | 2022-02-21 | 2022-05-27 | 平安普惠企业管理有限公司 | 基于攻击检测模型的攻击检测方法及装置、介质、设备 |
CN115952343A (zh) * | 2022-12-16 | 2023-04-11 | 四川大学 | 一种基于多关系图卷积网络的社交机器人检测方法 |
CN116451207A (zh) * | 2023-06-15 | 2023-07-18 | 北京顶象技术有限公司 | 一种多要素语义验证码及其生成方法 |
CN116542297A (zh) * | 2023-07-03 | 2023-08-04 | 深圳须弥云图空间科技有限公司 | 基于文本数据训练生成对抗网络的方法及装置 |
CN116611074A (zh) * | 2023-07-17 | 2023-08-18 | 北京奇虎科技有限公司 | 安全信息审查方法、设备、存储介质及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117473513A (zh) * | 2023-12-28 | 2024-01-30 | 北京立思辰安科技术有限公司 | 一种设备检测方法、存储介质及电子设备 |
CN117473513B (zh) * | 2023-12-28 | 2024-04-12 | 北京立思辰安科技术有限公司 | 一种设备检测方法、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116886446B (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190311114A1 (en) | Man-machine identification method and device for captcha | |
CN116886446B (zh) | 一种自动化攻击的检测方法、电子设备及存储介质 | |
CN112800116B (zh) | 一种业务数据的异常检测方法及装置 | |
US20060190960A1 (en) | System and method for incorporating video analytics in a monitoring network | |
CN110768971B (zh) | 适用于人工智能系统的对抗样本快速预警方法及系统 | |
CN113612656A (zh) | 网络流量检测方法、装置、终端设备及存储介质 | |
EP1958034B1 (en) | Use of sequential clustering for instance selection in machine condition monitoring | |
CN110351291B (zh) | 基于多尺度卷积神经网络的DDoS攻击检测方法及装置 | |
CN113687972B (zh) | 业务系统异常数据的处理方法、装置、设备及存储介质 | |
CN112839014B (zh) | 建立识别异常访问者模型的方法、系统、设备及介质 | |
Iqbal et al. | Advancing automation in digital forensic investigations using machine learning forensics | |
CN114553523A (zh) | 基于攻击检测模型的攻击检测方法及装置、介质、设备 | |
CN110830467A (zh) | 基于模糊预测的网络可疑资产识别方法 | |
CN114218998A (zh) | 一种基于隐马尔可夫模型的电力系统异常行为分析方法 | |
CN110502677A (zh) | 一种设备识别方法、装置及设备、存储介质 | |
CN115695025A (zh) | 网络安全态势预测模型的训练方法及装置 | |
CN113282920B (zh) | 日志异常检测方法、装置、计算机设备和存储介质 | |
CN111177725A (zh) | 一种检测恶意刷点击操作的方法、装置、设备及存储介质 | |
CN107766224B (zh) | 测试方法和测试装置 | |
CN113672782A (zh) | 一种基于数据查询的物联网设备重要性匹配方法 | |
CN116232765B (zh) | 一种工控安全系统异常访问分析方法及系统 | |
CN113033639A (zh) | 一种异常数据检测模型的训练方法、电子设备及存储介质 | |
CN112491627A (zh) | 一种网络质量实时分析方法及装置 | |
CN115189961B (zh) | 一种故障识别方法、装置、设备及存储介质 | |
KR102433831B1 (ko) | 보안관제 의사결정 지원 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |