CN115952411B

CN115952411B - 一种前端界面的动态语言反混淆特征提取方法及提取系统

Info

Publication number: CN115952411B
Application number: CN202310238378.4A
Authority: CN
Inventors: 王洪哲; 关锋; 丁兆俊; 王克照; 秦漫; 叶海峰; 曲金凤; 潘昭雄; 胡鹏濠; 蔡静静; 易洪; 郭伟钧
Original assignee: Beijing Yousheng Boda Software Co ltd
Current assignee: Beijing Yousheng Boda Software Co ltd
Priority date: 2023-03-14
Filing date: 2023-03-14
Publication date: 2023-05-30
Anticipated expiration: 2043-03-14
Also published as: CN115952411A

Abstract

本发明公开了一种前端界面的动态语言反混淆特征提取方法及提取系统，包括步骤1、逐个字符提取脚本信息中的二元语句，并将二元语句的字符转换为标准代码语言的编码字符；步骤2、建立一个横坐标与纵坐标均包含全部标准代码语言的二维矩阵，根据编码字符将二元语句填入二维矩阵内；步骤3、根据二元语句的坐标值将出现频次填入二维矩阵内；步骤4、对二维矩阵进行归一化处理，得到特征矩阵。本发明一种前端界面的动态语言反混淆特征提取方法及提取系统，其结合标准编码信息将无限的自然语言转换为有限的标准编码信息，并建立二维矩阵，再将二维矩阵由字符型矩阵转换为数值型矩阵，便于简化矩阵特征，最终得到一个可由智能端学习的简易的特征矩阵。

Description

一种前端界面的动态语言反混淆特征提取方法及提取系统

技术领域

本发明实施例涉及信息处理技术领域，具体涉及一种前端界面的动态语言反混淆特征提取方法及提取系统。

背景技术

前端防御需要甄别请求的内容中是否有违规的SQL注入或者JS方法的调用，但是随着防御能力的提升，进攻者的方式也更加隐蔽。进攻者会在自己的进攻请求脚本中利用各种混淆技术加密自己的进攻脚本并自带解密算法。待请求被通过执行时，该请求会先利用自带的解密算法去解密自己的混淆脚本然后再利用脚本进行攻击。此种方法在一定程度上逃避了网络请求的初次过滤，类似一种病毒，只有在到一定阶段才开始自我展开并实行攻击。

从应用安全的角度考虑，最重要的一步就是要获知对方使用了脚本混淆技术，然后才可以进一步采取措施。由于市面上的脚本混淆技术和数据加解密技术数不胜数，根本无法在一套系统中穷尽所有的可能，所以考虑利用机器学习的方法去研究所有混淆脚本的特征，从而让机器积累经验代替人类去进行判断。

发明内容

为此，本发明实施例提供一种前端界面的动态语言反混淆特征提取方法及提取系统，以解决现有技术中由于脚本混淆技术和数据加解密技术数不胜数，而导致的无法在一套系统中穷尽所有脚本识别技术的问题。

为了实现上述目的，本发明实施例提供如下技术方案：

一种前端界面的动态语言反混淆特征提取方法，包括以下步骤：

步骤S01、逐个字符提取脚本信息中的二元语句，并将二元语句的字符转换为标准代码语言的编码字符，记录二元语句的出现频次。

步骤S02、建立一个横坐标与纵坐标均包含全部标准代码语言的二维矩阵，根据编码字符将二元语句填入二维矩阵内。

步骤S03、根据二元语句的坐标将二元语句的出现频次填入二维矩阵内，替换二元语句的坐标值。

步骤S04、对二维矩阵进行归一化处理，得到特征矩阵。

进一步的，所述逐个字符提取脚本信息中的二元语句包括先删除非文字字符，然后逐个字符提取脚本信息的二元语句；或者，在逐个字符提取脚本信息的过程中，若字符后遇到非文字字符，则二元语句直接跳过该非文字字符，与非文字字符后第一位的字符组成二元语句；或者，在逐个字符提取脚本信息的过程中，若字符后遇到非文字字符，则放弃该字符，跳到非文字字符后的第一个字符后开始逐个字符提取二元语句。

进一步的，所述标准代码语言为ASCII、UTF-8、UTF-16、UTF-32、ANSI、Unicode 中的任意一种。

进一步的，所述根据编码字符将二元语句填入二维矩阵内包括将二元语句的第一个字符的取值设为X轴坐标值，二元语句中第二个字符的取值设为Y轴坐标值；或者，将二元语句的第一个字符的取值设为Y轴坐标值，二元语句中第二个字符的取值设为X轴坐标值。

进一步的，所述步骤S02之后，对所述二维矩阵进行简化，简化方法包括计算每个二元语句的熵值，筛选掉熵值不满足筛选标准的二元语句，得到简化后的二维矩阵。

进一步的，所述二元语句的熵值E（x）的计算公式如下：

上式中：

H（C）为系统原本的熵，具体计算如下：

C为所有文档；

为文档/>

出现的概率，n=2，/>

为正常文档，/>

为混淆文档；

为固定特征X后的条件熵，具体计算如下：

上式中：

P(x)为二元语句x出现的概率；

为二元语句x没有出现的概率；

为出现二元语句x的熵值，即/>

，

为/>

中出现二元语句/>

的频率；

为没有出现二元语句x的熵值，即/>

，/>

为/>

中没有出现二元语句x的频率。

进一步的，所述步骤S03中对脚本信息进行窗口滑动，逐个字符的采集二元语句，建立二元语句与出现频次的键值对，以二元语句的字符为键，出现频次为值，每次采集二元语句均会对比已建立的全部键值对；若出现相同的二元语句，则计入所述二元语句的键值对的值中，即值+1；若未出现相同的二元语句，则建立新的键值对。

进一步的，所述归一化处理包括二维矩阵中每行的坐标值求和，得到行和值，然后将本行中每个坐标值均除以行和值，得到一个小于1的坐标值，转换完成后，每一行坐标值的加和均为1；或者，二维矩阵中每列的坐标值求和，得到列和值，然后将本列中每个坐标值均除以列和值，得到一个小于1的坐标值，转换完成后，每一列坐标值的加和均为1。

一种前端界面的动态语言反混淆特征提取系统，包括以下模块：

二元语句提取模块，用于逐个字符提取脚本信息中的二元语句，其连接标准编码信息数据库，从标准编码信息数据库中调取标准编码信息，将二元语句的字符转换为标准代码语言的编码字符，采集二元语句的出现频次。

频次采集模块，用于采集二元语句的出现频次，计算全部二元语句的出现频次总和，计算二元语句位于出现频次总和的占比，即计算二元语句的出现频率。

二维矩阵建立模块，其连接标准编码信息数据库，建立一个横坐标与纵坐标均包含全部标准代码语言的二维矩阵，根据编码字符将二元语句填入二维矩阵内，或者将二元语句的出现频次填入二维矩阵内，并对二维矩阵进行归一化处理，得到特征矩阵。

本发明实施例具有如下优点：

本发明实施例所述的一种前端界面的动态语言反混淆特征提取方法及提取系统，其结合标准编码信息将无限的自然语言转换为有限的标准编码信息，根据标准编码信息建立二维矩阵，再根据二元语句的出现频次，将二维矩阵由字符型矩阵转换为数值型矩阵，便于简化矩阵特征，最终得到一个可由智能端学习的简易的特征矩阵。

本发明实施例所述的一种前端界面的动态语言反混淆特征提取方法及提取系统通过对二元语句的出现频次的分析，确定二元语句对于脚本信息的重要性的熵值，并通过信息增益过滤的方法，过滤掉不满足标准的二元语句，实现对二维矩阵的缩减化，可通过调整过滤标准，将二维矩阵缩减到任意大小，大幅度减少本发明技术处理的数据量，减少错误率，提高系统运行效率。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

图1为本发明实施例1提供的一种前端界面的动态语言反混淆特征提取方法的方法流程图；

图2为本发明实施例2提供的一种前端界面的动态语言反混淆特征提取系统的系统结构图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，本实施例所述的一种前端界面的动态语言反混淆特征提取方法，包括以下步骤：

步骤S01、逐个字符提取脚本信息中的二元语句，并将二元语句的字符转换为标准代码语言的编码字符。

所述逐个字符提取脚本信息中的二元语句，其中删除空格、标点符号等非文字字符。具体的，先删除非文字字符，以中文为例，脚本信息为“我爱你，中国！”，先删除非文字字符“，”与“！”，得到“我爱你中国”，然后逐个字符提取脚本信息的二元语句，即“我爱”、“爱你”、“你中”、“中国”；或者，在逐个字符提取脚本信息的过程中，若字符后遇到非文字字符，则二元语句直接跳过该非文字字符，与非文字字符后第一位的字符组成二元语句；或者在逐个字符提取脚本信息的过程中，若字符后遇到非文字字符，则放弃该字符，跳到非文字字符后的第一个字符开始逐个字符提取二元语句。以英文为例，非文字字符的处理方式同前文所述，例如脚本信息为I LOVE YOU”，提取所述脚本信息的二元语句为“IL”、“LO ”、“OV”、“VE”、“EY”、“YO”、“OU”。

将二元语句的字符转换为标准代码语言的编码字符。具体包括根据ASCII、UTF-8、UTF-16、UTF-32、ANSI、Unicode 等标准代码语言对二元语句的两个字符分别进行编码，得到与二元语句的字符对应的编码字符。以ASCII语言为例，标准ASCII 码也叫标准ASCII（基础ASCII码），标准ASCII码用一个字节（8位）表示一个字符，并规定其最高位为0，实际只用到7位，码值为00000000~01111111，即 0~127，共 128 个不同字符。EASCII（ExtendedASCII，延伸美国标准信息交换码）扩展 ASCII 码用 8 位表示，最高位为 1，表示的码值范围为 10000000~11111111，即 128~255，共 128个不同字符。EASCII码比ASCII码扩充出来的符号包括表格符号、计算符号、希腊字母和特殊的拉丁符号，因此使用ASCII语言转换二元语句的字符，将得到的编码字符锁定在0-255的字符变化内，减少大量的字符种类，便于后续的数据处理。

在逐个字符提取脚本信息中二元语句的过程中记录二元语句的出现频次，可通过表格的方式或建立键值对的方式记录。

步骤S02、建立一个横坐标与纵坐标均包含全部标准代码语言的二维矩阵，根据编码字符将二元语句填入二维矩阵内。以ASCII语言为例，编码字符共包括256种字符变化，因此得到的二维矩阵为一个256*256的矩阵，其他标准编码语言同理。

本实施例中将二元语句的第一个字符的取值设为X轴坐标值，二元语句中第二个字符的取值设为Y轴坐标值，即二元语句的坐标为（x=第一字符的编码字符，y=第二字符的编码字符）；反之，第一个字符的取值设为Y轴坐标值，二元语句中第二个字符的取值设为X轴坐标值。

步骤S02之后，可以简化该二维矩阵，将未出现的编码字符、出现频次较低的编码字符等易于混淆脚本的特征删除，以减少数据处理量，提高数据处理速度。所述简化方法为计算二元语句的熵值，筛选掉熵值低于筛选标准的二元语句，筛选标准如低于平均熵值，得到熵值较高的二元语句，其中熵值越高，则该二元语句的出现几率越大，该二元语句对于脚本信息的重要性越高。由于X轴与Y轴的坐标轴上均删减相同的编码字符，从而实现二维矩阵的成比例缩减，即X轴与Y轴的缩减量相同，在二维矩阵缩减的情况下保证了二维矩阵的形态不变。

如图2所示，所述二元语句x的熵值IG（X）为系统的熵值与固定特征X后的条件熵值之差，X代表出现二元语句x与没有出现二元语句

，具体计算包括：

上式中：

H（C）为系统原本的熵，具体计算如下：

C为所有文档；

为文档/>

出现的概率，n=2，/>

为正常文档，/>

为混淆文档，由于已知的前端脚本代码只有正常和混淆，因此使用这两种集合的文档来计算特征矩阵的熵，相当于枚举了正常文档集合和混淆文档集合所有的可能性，这样就能对正常文档集合和混淆文档集合都进行判断，有利于缩小特征矩阵；

为固定特征X后的条件熵，具体计算如下：

上式中：

P(x)为二元语句x出现的概率；

为二元语句x没有出现的概率；

为二元语句x出现的熵值，即/>

，

为/>

中出现二元语句/>

的频率；

为x没有出现的熵值，即/>

，

为/>

中没有出现二元语句x的频率。

步骤S03、进行窗口滑动，采集二元语句的出现频次，根据二元语句的坐标值将出现频次填入二维矩阵内。

所述采集二元语句的出现频次包括对脚本信息进行窗口滑动，逐个字符的采集二元语句，建立二元语句与出现频次的键值对，以二元语句的字符为键，出现频次为值，每次采集二元语句均会对比已建立的全部键值对，若出现相同的二元语句，则计入所述二元语句的键值对的值中，即值+1；若未出现相同的二元语句，则建立新的键值对。当窗口滑动经过脚本信息内的全部字符后停止，根据键值对的键匹配二维矩阵内对应二元语句的坐标，将键值对的值填入该坐标内，得到一个全是数值的二维矩阵。本步骤中利用二元语句的显示频次，将全字符的二维矩阵转换为全数值的二维矩阵，实现二维矩阵由字符特征变化为数值特征，便于二维矩阵的特征简化。

步骤S04、对二维矩阵进行归一化处理，得到特征矩阵。所述归一化处理具体为二维矩阵中每行的坐标值求和，得到行和值，然后将本行中每个坐标值均除以行和值，得到一个小于1的坐标值，转换完成后，每一行坐标值的加和均为1；或者，二维矩阵中每列的坐标值求和，得到列和值，然后将本列中每个坐标值均除以列和值，得到一个小于1的坐标值，转换完成后，每一列坐标值的加和均为1。最后验证加和均为1后，形成的特征矩阵为一个马尔科夫字符矩阵，可作为CNN（卷积神经网络训练）模型的标准输入，用于智能机器学习的入参。模型输入后进行卷积、池化、全连接层，进行训练，可判断一个js脚本是否存在混淆特征，相对于现有基于代码层面的关键字和统计学进行分析的js混淆识别方法，本技术实现让CNN模型学习混淆和非混淆代码的特征，利用特殊算法提取代码特征向训练模型进行输入，解决了传统方法准确率低的问题。

本发明中马尔科夫矩阵认为每一个字符的出现只与其上一个字符出现有关，如二元语句“fu”所对应键值对的值为“f”后面出现“u”的频次；或者每一个字符的出现只与其下一个字符出现有关，如二元语句“fu”所对应键值对的值为“u”前面出现“f”的频次，而与其余的字符出现都没有关系。

实施例2

二元语句提取模块1，用于逐个字符提取脚本信息中的二元语句，并将二元语句的字符转换为标准代码语言的编码字符。

频次采集模块2，用于采集二元语句的出现频次，计算全部二元语句的出现频次总和，计算二元语句位于出现频次总和的占比，即计算二元语句的出现频率。

二维矩阵建立模块3，连接标准编码信息数据库4，建立一个横坐标与纵坐标均包含全部标准代码语言的二维矩阵，从标准编码信息数据库4中调取标准编码信息，将二元语句的字符转换为编码字符，并根据编码字符将二元语句填入二维矩阵内。或者将二元语句的出现频次填入二维矩阵内，并对二维矩阵进行归一化处理，得到特征矩阵。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种前端界面的动态语言反混淆特征提取方法，其特征在于，包括以下步骤：

步骤S01、逐个字符提取脚本信息中的二元语句，并将二元语句的字符转换为标准代码语言的编码字符，记录二元语句的出现频次；

步骤S02、建立一个横坐标与纵坐标均包含全部标准代码语言的二维矩阵，根据编码字符将二元语句填入二维矩阵内，所述根据编码字符将二元语句填入二维矩阵内包括将二元语句的第一个字符的取值设为X轴坐标值，二元语句中第二个字符的取值设为Y轴坐标值，或者将二元语句的第一个字符的取值设为Y轴坐标值，二元语句中第二个字符的取值设为X轴坐标值；

步骤S03、根据二元语句的坐标将二元语句的出现频次填入二维矩阵内，替换二元语句的坐标值；

步骤S04、对二维矩阵进行归一化处理，得到特征矩阵。

2.根据权利要求1所述的一种前端界面的动态语言反混淆特征提取方法，其特征在于：所述逐个字符提取脚本信息中的二元语句包括先删除非文字字符，然后逐个字符提取脚本信息的二元语句；

或者，在逐个字符提取脚本信息的过程中，若字符后遇到非文字字符，则二元语句直接跳过该非文字字符，与非文字字符后第一位的字符组成二元语句；

或者，在逐个字符提取脚本信息的过程中，若字符后遇到非文字字符，则放弃该字符，跳到非文字字符后的第一个字符后开始逐个字符提取二元语句。

3.根据权利要求1所述的一种前端界面的动态语言反混淆特征提取方法，其特征在于：所述标准代码语言为ASCII、UTF-8、UTF-16、UTF-32、ANSI、Unicode 中的任意一种。

4.根据权利要求1所述的一种前端界面的动态语言反混淆特征提取方法，其特征在于：所述步骤S02之后，对所述二维矩阵进行简化，简化方法包括计算每个二元语句的熵值，筛选掉熵值不满足筛选标准的二元语句，得到简化后的二维矩阵。

5.根据权利要求4所述的一种前端界面的动态语言反混淆特征提取方法，其特征在于，所述二元语句的熵值IG（x）的计算公式如下：

，

上式中：

H（C）为系统原本的熵，具体计算如下：

，

C为所有文档；

为文档/>

出现的概率，n=2，/>

为正常文档，/>

为混淆文档；

为固定特征X后的条件熵，具体计算如下：

，

上式中：

P(x)为二元语句x出现的概率；

为二元语句x没有出现的概率；

为出现二元语句x的熵值，即

，/>

为/>

中出现二元语句/>

的频率；

为没有出现二元语句x的熵值，即

，/>

为/>

中没有出现二元语句x的频率。

6.根据权利要求1所述的一种前端界面的动态语言反混淆特征提取方法，其特征在于；所述步骤S03中建立二元语句与出现频次的键值对，以二元语句的字符为键，出现频次为值，每次采集二元语句均会对比已建立的全部键值对；

若出现相同的二元语句，则计入所述二元语句的键值对的值中，即值+1；

若未出现相同的二元语句，则建立新的键值对。

7.根据权利要求1所述的一种前端界面的动态语言反混淆特征提取方法，其特征在于；所述归一化处理包括二维矩阵中每行的坐标值求和，得到行和值，然后将本行中每个坐标值均除以行和值，得到一个小于1的坐标值，转换完成后，每一行坐标值的加和均为1；

或者，二维矩阵中每列的坐标值求和，得到列和值，然后将本列中每个坐标值均除以列和值，得到一个小于1的坐标值，转换完成后，每一列坐标值的加和均为1。

8.一种前端界面的动态语言反混淆特征提取系统，其特征在于，包括以下模块：

二元语句提取模块，用于逐个字符提取脚本信息中的二元语句，其连接标准编码信息数据库，从标准编码信息数据库中调取标准编码信息，将二元语句的字符转换为标准代码语言的编码字符，包括将二元语句的第一个字符的取值设为X轴坐标值，二元语句中第二个字符的取值设为Y轴坐标值，或者将二元语句的第一个字符的取值设为Y轴坐标值，二元语句中第二个字符的取值设为X轴坐标值；

频次采集模块，用于采集二元语句的出现频次，计算全部二元语句的出现频次总和，计算二元语句位于出现频次总和的占比，即计算二元语句的出现频率；