CN115618283B

CN115618283B - 一种跨站点脚本攻击检测方法、装置、设备及存储介质

Info

Publication number: CN115618283B
Application number: CN202211620894.5A
Authority: CN
Inventors: 郭振; 马超; 吴青洋; 宁玉桥; 张亚楠; 刘天宇; 于明明; 索娇
Original assignee: China Automotive Technology and Research Center Co Ltd; Automotive Data of China Tianjin Co Ltd
Current assignee: China Automotive Technology and Research Center Co Ltd; Automotive Data of China Tianjin Co Ltd
Priority date: 2022-12-02
Filing date: 2022-12-02
Publication date: 2023-08-01
Anticipated expiration: 2042-12-02
Also published as: CN115618283A

Abstract

本发明公开了一种跨站点脚本攻击检测方法、装置、设备及存储介质，该方法包括，收集应用程序的初始脚本文件，所述初始脚本文件包含良性脚本文件和恶意脚本文件；将收集的每个初始脚本文件进行数据清洗，并获得清洗后的干净脚本文件；将干净脚本文件的字符数据输入到循环神经网络模型中进行分类，获得相应初始脚本文件对应的脚本文件类型为恶意脚本或良性脚本；本发明实施例的技术方案有效提高了跨站点脚本检测的准确性，同时也极大提升了跨站点脚本检测效率。

Description

一种跨站点脚本攻击检测方法、装置、设备及存储介质

技术领域

本发明涉及一种网络安全智能防御技术，尤其涉及一种跨站点脚本攻击检测方法、装置、设备及存储介质。

背景技术

跨站点脚本（XSS）是一种恶意脚本注入攻击，发生在客户端，即通过web浏览器进行攻击。攻击者的主要策略是在受害者浏览器客户端的web应用程序中执行恶意注入的脚本。一旦注入恶意脚本，当受害者访问包含注入代码的网页时，就会受到攻击。由于社交网站、论坛、电子邮件和留言板，允许输入非结构化内容，从而经常受到跨站点脚本攻击。如果web应用程序将用户的原始输入作为网页内容，则容易受到XSS攻击。攻击者使用跨站脚本攻击 (XSS) 来破坏应用程序的安全性，窃取cookie，然后可以冒充受害者。XSS 漏洞可能是其他安全攻击的来源，例如恶意软件的传播、凭据盗窃、凭据网络钓鱼、社交网络蠕虫、网站破坏。XSS 攻击可能在 JavaScript、VBScript、Flash 和 CSS 等许多脚本语言中进行。在 JavaScript 中最为常见，主要是因为 JavaScript 是一种广泛使用的客户端脚本语言，用于 web 2.0 应用程序。

随着 XSS 攻击方式的多样化，检测的难度日益提高，并且带来的危害也与日俱增。由于恶意攻击代码的数量逐渐增加且不易识别，传统的 XSS 攻击检测模型已经难以检测形式越来越复杂的跨站点脚本攻击。

发明内容

为了解决现有的 XSS 攻击方式的转变与多样化、检测的难度日益提高、恶意攻击代码的数量逐渐增加且不易识别等问题，本发明实施例提供了一种跨站点脚本攻击检测方法、装置、设备及存储介质，提高了跨站点脚本检测的准确性，同时也极大提升了跨站点脚本检测效率。

第一方面，本发明实施例提出了一种跨站点脚本攻击检测方法，其包括以下步骤：

S11、收集应用程序的初始脚本文件，所述初始脚本文件包含良性脚本文件和恶意脚本文件；

S12、将S11中所收集的每个初始脚本文件进行数据清洗，并获得清洗后的干净脚本文件；

S13、将S12中的干净脚本文件的字符数据输入到循环神经网络模型中进行分类，获得相应初始脚本文件对应的脚本文件类型为恶意脚本或良性脚本。

第二方面，本发明实施例提出了一种跨站点脚本攻击检测装置，该装置包括：

初始脚本文件收集模块，用于收集应用程序的初始脚本文件，所述初始脚本文件包含良性脚本文件和恶意脚本文件；

数据清洗模块，用于将收集的每个初始脚本文件进行数据清洗，并获得清洗后的干净脚本文件；

脚本文件分类模块，用于将干净脚本文件的字符数据输入到循环神经网络模型中进行分类，获得相应初始脚本文件对应的脚本文件类型为恶意脚本或良性脚本。

第三方面，本发明实施例提出了一种电子设备，该电子设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的跨站点脚本攻击检测方法。

第四方面，本发明实施例提出了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如上所述的跨站点脚本攻击检测方法。

本发明的有益效果如下：

1.将循环神经网络模型应用于跨站点脚本攻击检测方法中，并将跨站点脚本数据进行数据清洗等预处理，减少了后续循环神经网络模型计算的复杂度，同时提高数据处理和脚本检测的准确性；

2.本发明在循环神经网络模型的训练过程，包括对训练样本的选取方法、对测试样本的选取方法、对测试样本的输入序列的设置，均模拟了常见的跨站点脚本的攻击方式，如偶发性攻击或连发性攻击，提高了对循环神经网络模型训练的效率和准确性；

3.本发明通过设置环境模拟仿真平台，挑选逃脱样本，进一步弥补了循环神经网络模型对脚本分类的精确度问题，进一步提升了样本分类的准确定；并且，通过设置待分类脚本与逃脱样本集合的相似度计算步骤，进一步提升了系统整体的分类效率和准确性；

4.本发明在针对已有攻击数据的检测准确度中高达98％以上，而且能够大大提高对未知的XSS攻击数据的检测精准度和防御效果。

上述说明，仅是本发明技术方案的概述，为了能够更清楚了解本发明技术手段，可依照说明书的内容予以实施，并且为了让本发明的上述说明和其它目的、特征及优点能够更明显易懂，特举较佳实施例，详细说明如下。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。

图1为本发明实施例提供的一种跨站点攻击检测方法的流程示意图；

图2为本发明实施例提供的一种构建循环神经网络模型方法的流程示意图；

图3为本发明实施例提供的一种利用循环神经网络模型对脚本文件进行分类方法的流程示意图；

图4为本发明实施例提供的一种跨站点攻击检测装置的结构示意图；

图5为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

在本发明的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

图1为本发明实施例中的一种跨站点脚本攻击检测方法的流程示意图，如图1所示，该方法具体可以包括以下步骤：

S11、收集应用程序的初始脚本文件，所述初始脚本文件包含良性脚本文件和恶意脚本文件。

本实施例中，良性脚本文件为不包含恶意程序的脚本文件；恶意脚本文件为包含恶意程序的脚本文件；在脚本文件收集阶段，系统无法感知所收集到的脚本文件为良性脚本文件或是恶意脚本文件；应用程序包括但不限于网页应用、论坛、邮件、留言板等。

S12、将S11中所收集的每个初始脚本文件进行数据清洗，并获得清洗后的干净脚本文件。

优选的，所述将S11中所收集的每个初始脚本文件进行数据清洗，包括：

构建自动化数据清洗模型，所述自动化数据清洗模型包括：大小写转换模型、空格去除模型和噪声删除模型中的至少一个；

利用所述自动化数据清洗模型，对每个初始脚本文件中的字符数据进行自动化清洗。

优选的，所述利用所述自动化数据清洗模型，对每个初始脚本文件中的字符数据进行自动化清洗，包括：

判断当前字符是否能够匹配到相应的自动化数据清洗模型；

若是，则利用匹配到的自动化数据清洗模型，对所述当前字符进行自动化清洗；

若否，则通过界面向用户进行报警提示，并在界面上显示所述当前字符以及所述当前字符前后各预设数目的字符；

其中，预设数目优选可以为5，即在界面上显示当前字符以及当前自读前后各5个字符。

接收用户在界面上创建的针对所述当前字符的当前字符自动化数据清洗模型，并利用所述当前字符自动化数据清洗模型对所述当前字符进行数据清洗；

利用上述步骤对初始脚本文件中的字符数据进行循环处理，直至每个初始脚本文件均完成数据清洗。

本实施例中，将干净脚本文件的字符数据作为循环神经网络模型的输入，将脚本文件类型作为循环神经网络模型的输出。

本实施例提供的一种跨站点脚本攻击检测方法，收集应用程序的初始脚本文件，所述初始脚本文件包含良性脚本文件和恶意脚本文件；将所收集的每个初始脚本文件进行数据清洗，并获得清洗后的干净脚本文件；将干净脚本文件的字符数据输入到循环神经网络模型中进行分类，获得相应初始脚本文件对应的脚本文件类型为恶意脚本或良性脚本。上述通过将循环神经网络模型应用于跨站点脚本攻击检测方法中，并将跨站点脚本数据进行数据清洗等预处理，减少了后续循环神经网络模型计算的复杂度，同时提高数据处理和脚本检测的准确性。

在上述各实施例的基础上，进一步的，在步骤S13之前，还包括：

构建所述循环神经网络模型；

图2为本发明实施例中的一种构建循环神经网络模型方法的流程示意图，如图2所示，所述构建所述循环神经网络模型具体包括如下步骤：

S41、获取历史经验数据库中的历史脚本文件；

S42、获取所述历史脚本文件中正样本的n%和负样本的m%作为第一训练样本，利用所述第一训练样本对初始循环神经网络模型进行训练，得到第一训练循环神经网络模型。

本实施例中，初始循环神经网络模型为在进行模型训练之前，预先构建的待训练学习的循环神经网络模型。

S43、获取所述历史脚本文件中负样本的n%和正样本的m%作为第二训练样本，利用所述第二训练样本对所述第一训练循环神经网络模型进行训练，得到第二训练循环神经网络模型；

其中，所述正样本为良性脚本，负样本为恶意脚本，n>2m；

S44、获取所述历史脚本文件中的p个正样本和q个负样本，将p个正样本和q个负样本进行排序后输入至第二训练循环神经网络模型中，对第二训练循环神经网络模型进行测试，获得测试结果数据A1；

其中，1<p<10，50<q<60；

其中，将p个正样本和q个负样本进行排序包括：将q个负样本连续排列，将p个正样本均分成两份，并分别均匀分布在连续排列的q个负样本序列的两端。

本实施例中，测试结果数据A1为第二训练循环神经网络模型对p个正样本和q个负样本进行分类的分类正确率。

S45、获取所述历史脚本文件中的p个负样本和q个正样本，将p个负样本和q个正样本进行排序后输入至第二训练循环神经网络模型中，对第二训练循环神经网络模型进行测试，获得测试结果数据A2；

其中，1<p<10，50<q<60；

其中，将p个负样本数据和q个正样本进行排序包括：将q个正样本连续排列，将p个负样本均分成两份，并分别均匀分布在连续排列的q个正样本序列的两端。

本实施例中，测试结果数据A2为第二训练循环神经网络模型对q个正样本和p个负样本进行分类的分类正确率。

S46、当A1和A2均大于预设阈值时，将第二训练循环神经网络模型作为所述循环神经网络模型；

或，当A1小于等于预设阈值，且A2大于预设阈值时，按照S42中正负样本的比例，以每次r%的增长率，同时增加第一训练样本中正样本和负样本的数量，并对第二训练循环神经网络模型进行训练，得到新的第二训练循环神经网络模型；

或，当A2小于等于预设阈值，且A1大于预设阈值时，按照S43中正负样本的比例，以每次r%的增长率，同时增加第二训练样本种正样本和负样本的数量，并对第二训练循环神经网络模型进行训练，得到新的第二训练循环神经网络模型；

或，当A1小于等于预设阈值，且A2小于等于预设阈值时，按照S42中正负样本的比例，以每次r%的增长率，同时增加第一训练样本中正样本和负样本的数量，并对第二训练循环神经网络模型进行训练，得到新的第二训练循环神经网络模型；按照S43中正负样本的比例，以每次r%的增长率，同时增加第二训练样本种正样本和负样本的数量，并对新的第二训练循环神经网络模型进行训练，得到最新的第二训练循环神经网络模型；

S47、重复执行步骤S44-S46，直到A1和A2均大于预设阈值，完成所述循环神经网络模型的训练，将使得A1和A2均大于预设阈值的第二训练循环神经网络模型作为所述循环神经网络模型。

其中，预设阈值优选可以是98%。r值由实际脚本数量灵活设置，本文不作具体限定。

示例性的，以A1小于等于预设阈值，且A2大于预设阈值的情况为例，对上述训练并获得循环神经网络模型的步骤进行具体说明：

若历史经验数据库中的正样本数量为N，负样本数量为M，则当A1小于等于预设阈值，且A2大于预设阈值时，按照S42中正负样本的比例，增加第一训练样本中正样本的数量为N×n%(1+r%)，增加第一训练样本中负样本的数量为M×m%(1+r%)，并利用N×n%(1+r%)个正样本和M×m%(1+r%)个负样本对第二训练循环神经网络模型进行训练，得到新的第二训练循环神经网络模型。

获取历史脚本文件中的p个正样本和q个负样本，将p个正样本和q个负样本进行排序后输入至新的第二训练循环神经网络模型中，对新的第二训练循环神经网络模型进行测试，获得新的测试结果数据A1。

若新的测试结果数据A1大于预设阈值，则将新的第二训练循环神经网络模型作为最终用来分类的循环神经网络模型。若新的测试结果数据A1仍然小于等于预设阈值，则按照S42中正负样本的比例，增加第一训练样本中正样本的数量为N×n%×(1+r%)×(1+r%)，增加第一训练样本中负样本的数量为M×m%×(1+r%)×(1+r%)，并利用N×n%×(1+r%)×(1+r%)个正样本和M×m%×(1+r%)×(1+r%)个负样本对第二训练循环神经网络模型进行训练，再一次得到新的第二训练循环神经网络模型。

获取历史脚本文件中的p个正样本和q个负样本，将p个正样本和q个负样本进行排序后输入至新的第二训练循环神经网络模型中，对再一次得到的新的第二训练循环神经网络模型进行测试，再一次获得新的测试结果数据A1。

若再一次获得的新的测试结果数据A1大于预设阈值，则将再一次得到的新的第二训练循环神经网络模型作为最终用来分类的循环神经网络模型。若新的测试结果数据A1仍然小于等于预设阈值，则再次重复上述训练步骤，直至满足A1和A2均大于预设阈值，完成循环神经网络模型的训练，并将使得A1和A2均大于预设阈值的第二训练循环神经网络模型作为最终用来分类的循环神经网络模型。

本实施例中，在A2小于等于预设阈值，且A1大于预设阈值的情况下训练并获得循环神经网络模型的步骤，以及，在A1小于等于预设阈值，且A2小于等于预设阈值的情况下训练并获得循环神经网络模型的步骤，与上述举例说明的在A1小于等于预设阈值，且A2大于预设阈值的情况下训练并获得循环神经网络模型的步骤类似，此处不再进行赘述。

本发明在循环神经网络模型的训练过程，包括对训练样本的选取方法、对测试样本的选取方法、对测试样本的输入序列的设置，均模拟了常见的跨站点脚本的攻击方式，如偶发性攻击或连发性攻击，提高了对循环神经网络模型训练的效率和准确性；

图3为本发明实施例中的一种利用循环神经网络模型对脚本文件进行分类方法的流程示意图，在上述各实施例的基础上，进一步的，如图3所示，步骤S13包括：

S131、在构建所述循环神经网络模型后，将当前待分类的干净脚本文件输入至所述循环神经网络模型进行分类，其中，所述循环神经网络模型的输入为干净脚本文件的字符数据，输出结果为良性脚本或恶意脚本；

S132、构建当前运行环境模拟仿真平台；

S133、若当前待分类的干净脚本文件对应的输出结果为恶意脚本，则将下一个待分类的干净脚本文件输入至所述循环神经网络模型进行分类；

S134、若当前待分类的干净脚本文件对应的输出结果为良性脚本，则将该干净脚本输入至所述模拟仿真平台进行运行仿真；

S135、若运行仿真结果为该干净脚本文件为良性脚本，则将下一个待分类的干净脚本文件输入至所述循环神经网络模型进行分类；

S136、若运行仿真结果为该干净脚本文件为恶意脚本，则确定该干净脚本文件为逃脱脚本，将该逃脱脚本作为训练样本对所述循环神经网络模型进行训练，得到新的循环神经网络模型；

S137、将上述逃脱脚本存储至逃脱脚本集合，将下一个待分类的干净脚本文件与逃脱脚本集合中的逃脱脚本进行相似度计算；

S138、如上述相似度超出阈值T，将该下一个待分类的干净脚本文件直接输入至模拟仿真平台进行运行仿真，其中，所述阈值T根据所述逃脱脚本集合中的逃脱脚本数量确定。

S139、如上述相似度未超出阈值T，将该下一个待分类的干净脚本文件输入至新的循环神经网络模型进行分类。

本实施例中，如上述相似度超出阈值T，则认为下一个待分类的干净脚本文件为逃脱脚本。如上述相似度未超出阈值T，则认为下一个待分类的干净脚本文件不是逃脱脚本，但该干净脚本文件的脚本文件类型无法确定，需要通过输入循环神经网络模型中进行分类确定。

优选的，所述阈值T根据逃脱脚本集合中的逃脱脚本数量确定，包括：

记录预设时间内完成分类的干净脚本文件对应的已分类脚本数量a；

记录所述预设时间内的逃脱脚本数量b；

当逃脱脚本数量b与已分类脚本数量a的比值超过固定阈值k时，将相似度阈值T设置为小于等于90%的数值；

当逃脱脚本数量b与脚本分类数量a的比值未超过固定阈值k时，将相似度阈值T设置为大于90%的数值。

所述固定阈值k为1%到10%之间的数值。

本发明通过设置环境模拟仿真平台，挑选逃脱样本，进一步弥补了循环神经网络模型对脚本分类的精确度问题，进一步提升了样本分类的准确定；并且，通过设置待分类脚本与逃脱样本集合的相似度计算步骤，进一步提升了系统整体的分类效率和准确性。本发明在针对已有攻击数据的检测准确度中高达98％以上，而且能够大大提高对未知的XSS攻击数据的检测精准度和防御效果。

在上述各实施例的基础上，进一步的，该方法还包括：使用准确度、误分类率、精确率和召回率对所述循环神经网络模型进行质量评估，方法如下：

其中，OverallAccuraccy为准确度；MisclassificationRat e为误分类率；Precision为精确率；Recall为召回率；TP为良性脚本被分类为良性脚本的数量；FN为良性脚本被分类为恶意脚本的数量；FP为恶意脚本被分类为良性脚本的数量；TN为恶意脚本被分类为恶意脚本的数量。其中，准确度、精确率和召回率越高，循环神经网络模型的质量越高，误分类率越低，循环神经网络模型的质量越高。

图4为本公开实施例中的一种跨站点脚本攻击检测装置的结构示意图。如图4所示：该装置包括：

初始脚本文件收集模块410，用于收集应用程序的初始脚本文件，所述初始脚本文件包含良性脚本文件和恶意脚本文件；

数据清洗模块420，用于将收集的每个初始脚本文件进行数据清洗，并获得清洗后的干净脚本文件；

脚本文件分类模块430，用于将干净脚本文件的字符数据输入到循环神经网络模型中进行分类，获得相应初始脚本文件对应的脚本文件类型为恶意脚本或良性脚本。

本实施例提供的一种跨站点脚本攻击检测装置，利用初始脚本文件收集模块收集应用程序的初始脚本文件，所述初始脚本文件包含良性脚本文件和恶意脚本文件；利用数据清洗模块将所收集的每个初始脚本文件进行数据清洗，并获得清洗后的干净脚本文件；利用脚本文件分类模块将干净脚本文件的字符数据输入到循环神经网络模型中进行分类，获得相应初始脚本文件对应的脚本文件类型为恶意脚本或良性脚本。上述通过将循环神经网络模型应用于跨站点脚本攻击检测方法中，并将跨站点脚本数据进行数据清洗等预处理，减少了后续循环神经网络模型计算的复杂度，同时提高数据处理和脚本检测的准确性。

在上述各技术方案的基础上，进一步的，数据清洗模块420具体可以包括：

自动化数据清洗模型构建单元，用于构建自动化数据清洗模型，所述自动化数据清洗模型包括：大小写转换模型、空格去除模型和噪声删除模型中的至少一个；

自动化清洗单元，用于利用所述自动化数据清洗模型，对每个初始脚本文件中的字符数据进行自动化清洗。

在上述各技术方案的基础上，进一步的，自动化清洗单元具体可以用于：

判断当前字符是否能够匹配到相应的自动化数据清洗模型；

在上述各技术方案的基础上，进一步的，跨站点脚本攻击检测装置还包括循环神经网络模型构建模块，用于在将干净脚本文件的字符数据输入到循环神经网络模型中进行分类，获得相应初始脚本文件对应的脚本文件类型为恶意脚本或良性脚本之前，构建所述循环神经网络模型；

所述构建所述循环神经网络模型具体包括如下步骤：

S41、获取历史经验数据库中的历史脚本文件；

S42、获取所述历史脚本文件中正样本的n%和负样本的m%作为第一训练样本，利用所述第一训练样本对初始循环神经网络模型进行训练，得到第一训练循环神经网络模型；

其中，所述正样本为良性脚本，负样本为恶意脚本，n>2m；

其中，1<p<10，50<q<60；

其中，将p个正样本和q个负样本进行排序包括：将q个负样本连续排列，将p个正样本均分成两份，并分别均匀分布在连续排列的q个负样本序列的两端；

其中，1<p<10，50<q<60；

其中，将p个负样本数据和q个正样本进行排序包括：将q个正样本连续排列，将p个负样本均分成两份，并分别均匀分布在连续排列的q个正样本序列的两端；

在上述各技术方案的基础上，进一步的，脚本文件分类模块430具体可以用于：

在构建所述循环神经网络模型后，将当前待分类的干净脚本文件输入至所述循环神经网络模型进行分类，其中，所述循环神经网络模型的输入为干净脚本文件的字符数据，输出结果为良性脚本或恶意脚本；

构建当前运行环境模拟仿真平台；

若当前待分类的干净脚本文件对应的输出结果为恶意脚本，则将下一个待分类的干净脚本文件输入至所述循环神经网络模型进行分类；

若当前待分类的干净脚本文件对应的输出结果为良性脚本，则将该干净脚本输入至所述模拟仿真平台进行运行仿真；

若运行仿真结果为该干净脚本文件为良性脚本，则将下一个待分类的干净脚本文件输入至所述循环神经网络模型进行分类；

若运行仿真结果为该干净脚本文件为恶意脚本，则确定该干净脚本文件为逃脱脚本，将该逃脱脚本作为训练样本对所述循环神经网络模型进行训练，得到新的循环神经网络模型；

将上述逃脱脚本存储至逃脱脚本集合，将下一个待分类的干净脚本文件与逃脱脚本集合中的逃脱脚本进行相似度计算；

如上述相似度超出阈值T，将该下一个待分类的干净脚本文件直接输入至模拟仿真平台进行运行仿真，其中，所述阈值T根据所述逃脱脚本集合中的逃脱脚本数量确定；

如上述相似度未超出阈值T，将该下一个待分类的干净脚本文件输入至新的循环神经网络模型进行分类。

在上述各技术方案的基础上，进一步的，脚本文件分类模块430具体还可以用于：

记录所述预设时间内的逃脱脚本数量b；

所述固定阈值k为1%到10%之间的数值。

在上述各技术方案的基础上，进一步的，跨站点脚本攻击检测装置还包括质量评估模块，用于：使用准确度、误分类率、精确率和召回率对所述循环神经网络模型进行质量评估，方法如下：

其中，OverallAccuraccy为准确度；MisclassificationRat e为误分类率；Precision为精确率；Recall为召回率；TP为良性脚本被分类为良性脚本的数量；FN为良性脚本被分类为恶意脚本的数量；FP为恶意脚本被分类为良性脚本的数量；TN为恶意脚本被分类为恶意脚本的数量。

本公开实施例提供的跨站点脚本攻击检测装置，可执行本公开方法实施例所提供的跨站点脚本攻击检测方法中的步骤，具备执行步骤和有益效果此处不再赘述。

图5为本发明实施例提供的一种电子设备的结构示意图。如图5所示，电子设备400包括一个或多个处理器401和存储器402。

处理器401可以是中央处理单元（CPU）或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备400中的其他组件以执行期望的功能。

存储器402可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器（RAM）和/或高速缓冲存储器（cache）等。所述非易失性存储器例如可以包括只读存储器（ROM）、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器401可以运行所述程序指令，以实现上文所说明的本发明任意实施例的跨站点脚本攻击检测方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如初始外参、阈值等各种内容。

在一个示例中，电子设备400还可以包括：输入装置403和输出装置404，这些组件通过总线系统和/或其他形式的连接机构（未示出）互连。该输入装置403可以包括例如键盘、鼠标等等。该输出装置404可以向外部输出各种信息，包括预警提示信息、制动力度等。该输出装置404可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图5中仅示出了该电子设备400中与本发明有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备400还可以包括任何其他适当的组件。

除了上述方法和设备以外，本发明的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本发明任意实施例所提供的跨站点脚本攻击检测方法的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本发明的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本发明任意实施例所提供的跨站点脚本攻击检测方法的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

需要说明的是，本发明所用术语仅为了描述特定实施例，而非限制本申请范围。如本发明说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。

还需说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。除非另有明确的规定和限定，术语“安装”、“相连”、“连接”等应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种跨站点脚本攻击检测方法，其特征在于，包括以下步骤：

S13、将S12中的干净脚本文件的字符数据输入到循环神经网络模型中进行分类，获得相应初始脚本文件对应的脚本文件类型为恶意脚本或良性脚本；在步骤S13之前，还包括：

构建所述循环神经网络模型；

所述构建所述循环神经网络模型具体包括如下步骤：

S41、获取历史经验数据库中的历史脚本文件；

其中，所述正样本为良性脚本，负样本为恶意脚本，n>2m；

其中，1<p<10，50<q<60；

2.根据权利要求1所述的检测方法，其特征在于，所述将S11中所收集的每个初始脚本文件进行数据清洗，包括：

3.根据权利要求2所述的检测方法，其特征在于，所述利用所述自动化数据清洗模型，对每个初始脚本文件中的字符数据进行自动化清洗，包括：

判断当前字符是否能够匹配到相应的自动化数据清洗模型；

4.根据权利要求1所述的检测方法，其特征在于，步骤S13包括：

构建当前运行环境模拟仿真平台；

5.根据权利要求4所述的检测方法，其特征在于，所述阈值T根据逃脱脚本集合中的逃脱脚本数量确定，包括：

记录所述预设时间内的逃脱脚本数量b；

当逃脱脚本数量b与脚本分类数量a的比值未超过固定阈值k时，将相似度阈值T设置为大于90%的数值；

所述固定阈值k为1%到10%之间的数值。

6.根据权利要求4所述的检测方法，其特征在于，还包括：

使用准确度、误分类率、精确率和召回率对所述循环神经网络模型进行质量评估，方法如下：

其中，OverallAccuraccy为准确度；MisclassificationRate为误分类率；Precision为精确率；Recall为召回率；TP为良性脚本被分类为良性脚本的数量；FN为良性脚本被分类为恶意脚本的数量；FP为恶意脚本被分类为良性脚本的数量；TN为恶意脚本被分类为恶意脚本的数量。

7.一种跨站点脚本攻击检测装置，其特征在于，包括：

脚本文件分类模块，用于将干净脚本文件的字符数据输入到循环神经网络模型中进行分类，获得相应初始脚本文件对应的脚本文件类型为恶意脚本或良性脚本；

循环神经网络模型构建模块，用于在将干净脚本文件的字符数据输入到循环神经网络模型中进行分类，获得相应初始脚本文件对应的脚本文件类型为恶意脚本或良性脚本之前，构建所述循环神经网络模型；

所述构建所述循环神经网络模型具体包括如下步骤：

S41、获取历史经验数据库中的历史脚本文件；

其中，所述正样本为良性脚本，负样本为恶意脚本，n>2m；

其中，1<p<10，50<q<60；

8.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一项所述的跨站点脚本攻击检测方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一项所述的跨站点脚本攻击检测方法。