CN110191096A

CN110191096A - 一种基于语义分析的词向量网页入侵检测方法

Info

Publication number: CN110191096A
Application number: CN201910359359.0A
Authority: CN
Inventors: 王泽鑫; 吴宣够; 储昭斌; 王士帅
Original assignee: Anhui University of Technology AHUT
Current assignee: Anhui University of Technology AHUT
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2019-08-30
Anticipated expiration: 2039-04-30
Also published as: CN110191096B

Abstract

本发明提供的基于语义分析的词向量网页入侵检测方法，涉及网页攻击检测领域，包括1)爬取网站的URL对应的网页源码经筛选分类后作为训练集；2)提取训练集中所有网页源码的中文字符串进行分词处理；3)分别对分词处理的结果进行关键词筛选并构建关键词库；4)构建关键词的词向量，并进行归一化处理；5)结合归一化的TF‑IDF计算权重建立有权词向量空间；6)训练网页入侵检测模型；7)通过模型判断待检测网页是否受到入侵；本发明提出了利用模型判断网页是否受到词汇恶意入侵的网页入侵检测方法。

Description

一种基于语义分析的词向量网页入侵检测方法

技术领域

本发明涉及网页攻击检测领域，具体涉及一种基于语义分析的词向量网页入侵检测方法。

背景技术

随着互联网的飞速发展，网络安全逐渐成为一个潜在的巨大问题。网络安全性是一个涉及面很广泛的问题，其中也会涉及到是否构成犯罪行为的问题。在其最简单的形式中，它主要关心的是网站内容是否遭遇篡改。因此，网站攻击检测在生活中的需求越来越高。

目前，常见的网站攻击方法有sql注入，xss攻击，csrf攻击。sql注入是指用户在http请求中注入恶意sql命令的代码，导致服务器使用数据库sql命令时，导致恶意sql一起被执行。xss攻击，跨站点脚本攻击是指攻击者通过篡改网页，嵌入恶意脚本程序，在用户浏览网页时，控制用户浏览器进行恶意操作的一种攻击方式。csrf攻击，即跨站点请求伪造，指攻击者通过跨站请求，以合法的用户的身份进行非法操作。

目前存在的显式网站攻击检测系统主要有模式匹配和启发式规则两种技术。两种技术通常取决于特征的选择，而这些有识别力的特征通常来自于URL、主机标识、HTML和JavaScript代码。这种方法在选取代表性的特征后利用从样本集中获取的特征数据，结合数据挖掘技术建立判定模型。模式匹配技术利用特征码来对恶意软件进行检测，但是不能从语义层次识别异常代码；启发式规则指的是进行自主洞察的某种特性或者通过特定的技术来识别输入数据的方法，缺点在被检测的代码中出现多条规则中的任何一条，那么被检测代码就可能被判定为恶意代码。

发明内容

本发明目的在于提供一种基于语义分析的词向量网页入侵检测方法，提供联合自然语言处理和机器学习方法来实现隐含式网页入侵检测方法，输入以中文呈现的网页就能实现隐含式网页入侵的检测。

为达成上述目的，本发明提出如下技术方案：一种基于语义分析的词向量网页入侵检测方法，包括以下步骤：

(1)利用网络爬虫爬取若干网站的URL对应的网页源码，按照Google SafeBrowsing API公布的URL黑名单作为分类标准，分别对若干网页的网页源码进行筛选分类，经筛选分类后的网页源码作为训练集；

(2)分别提取训练集中所有网页源码的中文字符串，并分别对单个网页源码的中文字符串进行分词处理，分词处理的结果为获得该中文字符串切分组合最大概率的词序列；

(3)分别对训练集中单个网页源码的词序列中包含的词进行关键词筛选，去除停用词；

(4)构建单个词序列中包含所有关键词的词向量，并通过欧几里德范数对词向量进行归一化处理，归一化处理后的词向量有利于训练集中所有词向量的统一和进行机器学习算法；

(5)将训练集中所有词序列构建的包含所有关键词的词向量统一到一个词向量空间中，结合归一化的TF-IDF计算权重得到有权词向量空间；

(6)有权词向量空间采用机器学习算法训练网页入侵检测模型；

(7)将待检测网页预处理后输入网页入侵检测模型，以判断待检测网页是否受到入侵。

进一步的，所述步骤(2)中对中文字符串进行分词处理的具体过程为：首先，利用语料库生成Trie字典树，对训练集中任一网页源码提取的中文字符串根据Trie字典树生成对应的有向无环图；其次，结合有向无环图和隐马尔可夫模型对中文字符串进行分词；最后，得到该中文字符串切分组合后最大概率的词序列。

进一步的，所述步骤(3)中得到的分词结果，对训练集汇中所有网页源码得到的分词结果构建关键词库。

进一步的，所述步骤(4)中构建单个词序列中包含所有关键词的词向量具体过程为：根据条件随机场理论得到TF-IDF，TF用于统计各关键词在单个网页源码的文字符串中出现的频率IDF用于统计包含关键词的网页源码在所有网页源码中出现的频率，反映关键词的重要性；

即：

TF-IDF(x)＝TF(x)×IDF(x) (1-8)

其中，N表示单个网页源码的文字符串中关键词的总数，N(x)代表单个网页源码的文字符串中包含关键词x的总数。

进一步的，所述步骤(5)中得到的有权词向量空间记为S，

其中，M_x为关键词库的大小，M为训练集中的网页源码的总数，s表示第s个网页源码，t表示关键词库中第t个关键词，每个行向量的元素表示单个网页源码的词序列中包含所有关键词的词向量的TF-IDF值。

进一步的，所述步骤(6)中采用多项式贝叶斯算法训练网页入侵检测模型。由以上技术方案可知，本发明的技术方案提供的基于语义分析的词向量网页入侵检测方法，获得了如下有益效果：

本发明公开的基于语义分析的词向量网页入侵检测方法通过建立训练集，对训练集网页源码中的中文字符串进行分词处理，对分词处理的结果构建关键词的词向量，再结合归一化的TF-IDF计算权重得到有权词向量空间，有权词向量空间通过机器学习算法训练网页入侵检测模型，进而实现对待测网页的入侵检测；本发明相较于现有技术：首先无需寻找特征码；其次，不仅仅以关键词作为判断标准，还解决了只能遵循单一特征，增加了关键词之间的关联性，通过有权词向量空间结合机器学习算法训练网页入侵检测模型，对入侵网页的识别准确率高。

应当理解，前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。

结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见，或通过根据本发明教导的具体实施方式的实践中得知。

附图说明

附图不意在按比例绘制。在附图中，在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见，在每个图中，并非每个组成部分均被标记。现在，将通过例子并参考附图来描述本发明的各个方面的实施例，其中：

图1是本发明中分词流程图；

图2是本发明中系统流程图；

图3是本发明中网页入侵检测模型构建图。

具体实施方式

为了更了解本发明的技术内容，特举具体实施例并配合所附图式说明如下。

在本公开中参照附图来描述本发明的各方面，附图中示出了许多说明的实施例。本公开的实施例不定义包括本发明的所有方面。应当理解，上面介绍的多种构思和实施例，以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施，这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外，本发明公开的一些方面可以单独使用，或者与本发明公开的其他方面的任何适当组合来使用。

基于现有技术中，常用的模式匹配技术利用特征码来对恶意软件进行检测时不能从语义层次识别异常代码，在使用启发式规则技术对被检测代码进行检测时当被检测的代码中出现多条规则中的任何一条时，被检测代码就可能被判定为恶意代码，访问进而会被拦截，造成很多网页无法访问；本发明旨在提出一种基于语义分析的词向量网页入侵检测方法，无需寻找特征码，避免使用启发式规则阻拦安全网页，且对入侵网页的识别准确率高。

本发明公开的基于语义分析的词向量网页入侵检测方法，包括如下步骤：1)采用网络爬虫爬取若干网站的URL及对应的网页源码，以Google Safe Browsing API公布的URL黑名单作为标准，分别对若干网页的网页源码进行筛选分类，经筛选分类后得到的入侵网页和正常网页的网页源码作为训练集；2)分别提取训练集中所有网页源码的中文字符串，并分别对单个网页源码的中文字符串进行分词处理，分词处理的结果为获得该中文字符串切分组合最大概率的词序列；3)分别对训练集中单个网页源码的词序列中包含的词进行关键词筛选，去除停用词；4)构建单个词序列中包含所有关键词的词向量，并通过欧几里德范数对词向量进行归一化处理；5)对训练集中所有归一化处理后的词向量建立有权词向量空间；6)有权词向量空间采用机器学习算法训练网页入侵检测模型；7)将待检测网页预处理后输入网页入侵检测模型，以判断待检测网页是否受到入侵。

本发明通过对网页源码的中文字符串进行分词处理，利用分词结果建立关键词的有权词向量空间，结合机器学习相关算法进行训练，建立网页入侵检测模型，进而实现预处理后中文网页的入侵检测，即从语义层次识别异常代码。下面结合附图所示的实施例，对本发明的基于语义分析的词向量网页入侵检测方法，作进一步具体介绍。

结合图1至图3所示，实现本发明基于语义分析的词向量网页入侵检测方法，主要包括分词模块、构建有权词向量空间模块和网页入侵检测模块。其中，在步骤(1)中，网页筛选时类别记为y_k,y_k的取值为0或1，分别对应正常网页和入侵网页，对进行类别标记以后的网页记为筛选出用于训练网页入侵检测模型的训练集，训练集中的网页源码经过预处理后依次经过分词模块和构建有权词向量空间模块建立用于训练网页入侵检测模型的有权词向量空间，有权词向量空间经过机器学习算法训练出网页入侵检测模型，网页入侵检测模型实现对输入网页的入侵识别。

所述分词模块可简述为以下过程：利用语料库生成Trie字典树，提取网页源码中的中文字符串有向无环图，结合有向无环图和条件随机场对中文字符串进行分词。

语料库包含有2万多条词，包含了词条出现的次数和词性，因此可以利用语料库生成Trie字典树Tt；Tt是一种适合某些特定类型关键字快速查找的多叉树，它的每个节点中含有d个指针域，如果组成关键字的字符基数为n，则d＝n+1。Trie树存在两种节点：分支节点和叶子结点。d个指针域和1个整数域包含在分支结点中，其中整数域被用来指示该结点中非空指针域的个数，没有数据域。而叶子结点则包含完整的关键字和指向记录的指针域。如果在Tt的某段路径中所有的分支节点中均只有一个非空指针域，则此段路经上从这个分支结点开始都被压缩为一个叶子结点。

将训练集中所有网页源码提取的中文字符串分别根据Tt的节点所包含的词语生成对应的有向无环图(DAG)，每个词对应图中的一条有向边,并赋给相应的边长(即权值)，针对该切分图，在起点到终点的所有路径中，求出长度值按严格升序排列，且任何两个不同位置上的值一定不等，依次为第1,第2,…,第n的路径集合作为相应的粗分词结果集。对DAG中可能的切分方案Seg中的词语计算每个词语出现的频率，当发现中文字符串中出现字典树Tt中未出现的词，就把Tt中出现频率最小的那个词语的频率记为该第一次出现词的频率。

定义待切分字符串C＝z₁,z₂,…,z_r，其中z_f(f＝1,2,…,r)，z_r为字符串C中包含的任意一个汉字，r为字符串C的长度。建立一个节点数r+1的切分有向无环图DAG，各节点编号依次为Node₀，Node₁，...，Node_r。通过以下两种方法建立DAG所有可能的词边：(1)相邻节点Node_g-1，Node_g之间建立有向边＜Node_g-1，Node_g＞，边的长度值为L_g，边对应的汉字默认为z_g(g＝1，2，...，r)；(2)定义一个词序列W＝z_u，...，z_v，则节点Node_u，Node_v之间建立有向边＜Node_u，Node_v＞，边的长度值为L_W，边对应的词序列为W(0≤u≤v≤r)。这样，待分字串C中包含的所有词与切分有向无环图DAG中的边一一对应。

定义训练集中单个网页源码中提取的中文字符串为Cn，n≥0，n表示中文字符串Cn中包含的字符串的数量，对概率语言模型分词模型，其模型输入是单个网页源码中的中文字符串Cn，模型输出是词序列Wm，m表示词序列Wm中包含的汉字或词语的数量。已知对于一个特定的中文字符串，会有多个切分方案Seg对应，分词的任务就是在切分方案中找出符合语义的概率最大的一个切分方案，对属于DAG的词序列Wm，一般通过求得公式(1-1)的最大值即可得到概率语言模型分词模型输入字符串切分出最有可能的词序列：

其中，P(Cn)是字符串Cn在语料库中出现的概率值，是一个用来归一化的固定值。从词串恢复到字符串的概率只有唯一的方式，所以P(Cn||Wm)＝1，P(Wm)是切分方案Seg对应Wm出现的概率，因此(1-1)可以改写成

Seg(Cn)argmaxP(Wm||Cn)＝argmax P(Wm)×con

其中，为固定值，假设每个词之间的概率是上下文无关的，则：

其中，win为词序列Wm中包含的汉字或词语，1≤in≤m，P(win)表示汉字或词语win在Wm中出现的概率，问题即转化为计算每个汉字或词语出现的概率。为方便处理，令：

-ln(P(win))可以看做汉字或者词语win在DAG中做适当平滑处理后对应的边长，在大规模语料训练的基础上通过最大似然估计方法求得P(win)式(1-3)将式(1-1)的问题转化为求P*(Wm)的最小值。

根据条件随机场理论，以单个网页源码提取的中文字符串Co为例，首先要对中文字符串Co定义一个特征函数集合，特征函数集合中每个特征函数可表示为：

f_j(Ws，i，l_i，l_i-1)

其中，Ws表示Co经概率语言模型分词模型输出的可能的某一词序列，其中n≤s≤m，s为词序列Ws包含的切分汉字和词语个数，i用来表示词序列Ws中第i个汉字或词语，l表示词序列Ws中的任意汉字或词组，l_i表示词序列Ws第i个汉字或词组的词性，l_i-1表示词序列Ws第i-1个汉字或词语的词性。特征函数的输出值为0或1，0表示要评分的词序列Ws不符合该特征，1表示要评分的词序列Ws符合该特征。

定义完一组特征函数后，需要给特征函数集合中每个特征函数f_j赋予一个权重λ_j；例如在词序列Ws中对任意汉字或词语l进行标注，则用特征函数集合对l加权表示为：

其中，用于计算词序列Ws中每个位置的汉字或词语的特征函数的加权和，用于计算每一个特征函数f_j评分值加权λ_j后的和，其中com代表特征函数的总数。

对加权值score(Co|Ws)进行指数化和标准化，Co经概率语言模型分词模型输出的可能词序列Ws的概率p(Ws|Co)：

其中，Wo代表Co经概率语言模型分词模型输出的所有词序列，利用p(Ws|Co)得到词序列Ws在字符串Co中的出现概率，对所有词与进行可能词序列组合的概率统计，根据(1-3)计算得到Co的最大概率的切分组合。

所述构建有权词向量空间模块可简述为以下过程：利用TF-IDF对关键词加权赋值，构建有权词向量空间。对于单个网页源码分词得到的最有可能的词序列，首先需要采用停用词表将词序列中包含的词进行关键词筛选，去除停用词，如语气词、助词和虚词等，去除停用词后词序列剩下的词全部记为关键词，再将训练集中所有网页源码分词得到的词序列通过集合运算的并集运算构建的包含所有关键词的词库K_D，由训练集中所有网页源码的中文字符串中互不相同的关键词组成，对关键词的词库中关键词x_a进行排序存储，关键词库的大小记为M_x，对词库中任意关键词的词向量记为Va，Va的大小为M×1，其中1≤a≤M_x，M为训练集中的网页源码的总数。

根据词频-逆文本频率(TF-IDF)理论，TF用于统计各关键词在单个网页源码的文字符串中出现的频率，IDF用于统计包含关键词的网页源码在所有网页源码中出现的频率，反映关键词的重要性：

进一步修正仅仅用词频表示的词特征值，即：

TF-IDF(x)＝TF(x)×IDF(x) (1-8)

其中，N表示单个网页源码的文字符串中关键词的总数，N(x)代表单个网页源码的文字符串中关键词x出现的次数。

通过所有网页源码中包含关键词的TF-IDF值，对词向量中对应位置进行赋值，其他位置均为0。

随后通过欧几里德范数式对得到的TF-IDF加权以后的词向量Va进行归一化，归一化后的词向量Va记为则：

对词库中的词向量Va结合TF-IDF计算权重，进行归一化后统一到一个词向量空间中，进而得到有权词向量空间，记为S，S是M×M_x维矩阵：

其中，s表示第s个网页源码，t表示关键词库中第t个关键词，每个行向量的元素表示单个网页源码的词序列中包含所有关键词的词向量的TF-IDF值。

通过有权词向量空间模块得到的有权词向量空间S后，通过机器学习方法，即可训练出基于语义分析的词向量网页入侵检测方法模型，如图3所示，本发明利用多项式贝叶斯(MN)算法训练网页入侵检测方法模型，即贝叶斯模型。在MN算法中本发明计算：

其中，M是训练集中的网页总数，是类别为y_k的网页个数，是类别为y_k的网页包含关键词库K_D中第b个关键词x_b的网页总数，其中1≤b≤M_x。通过P(y_k)，P(x_b|y_k)计算P(y_k|x_b)，返回最大概率对应的类别y_k。

对于一个未知是否被入侵的网页，本发明首先利用基于语义分析的词向量网页入侵检测方法对待测网页提取中文字符串并进行分词处理，构建有权词向量空间作为网页入侵检测模型的输入，如果根据模型输出数值为1表示该网页受到入侵，则计算机发出入侵提示。本发明相较于现有技术中基于模式匹配的网页入侵检测系统无需寻找特征码，相较于现有技术中基于启发式规则的网页入侵检测系统，不仅仅以关键词作为判断标准，还解决了只能遵循单一特征，增加了关键词之间的关联性，通过有权词向量空间结合机器学习算法训练网页入侵检测模型，提高了对入侵网页的识别准确率。

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种基于语义分析的词向量网页入侵检测方法，其特征在于，包括如下步骤：

(1)利用网络爬虫爬取若干网站的URL对应的网页源码，以Google Safe Browsing API公布的URL黑名单作为标准，分别对若干网页的网页源码进行筛选分类，经筛选分类后的网页源码作为训练集；

(3)分别对训练集中单个网页源码的词序列中包含的词进行关键词筛选，去除停用词，构建关键词库；

(4)构建单个词序列中包含所有关键词的词向量，并通过欧几里德范数对词向量进行归一化处理；

(5)对训练集中所有归一化处理后的词向量建立有权词向量空间；

2.根据权利要求1所述的基于语义分析的词向量网页入侵检测方法，其特征在于，所述步骤(2)中对中文字符串进行分词处理的具体过程为：

首先，利用语料库生成Trie字典树，对训练集中任一网页源码提取的中文字符串根据Trie字典树生成对应的有向无环图；其次，结合有向无环图和隐马尔可夫模型对中文字符串进行分词；最后，得到该中文字符串切分组合后最大概率的词序列。

3.根据权利要求1所述的基于语义分析的词向量网页入侵检测方法，其特征在于，所述步骤(4)中构建单个词序列中包含所有关键词的词向量具体过程为：根据TF-IDF理论，TF用于统计各关键词在单个网页源码的文字符串中出现的频率，IDF用于统计包含关键词的网页源码在所有网页源码中出现的频率，反映关键词的重要性，即：

则：

TF-IDF(x)＝TF(x)×IDF(x) (1-8)

4.根据权利要求3所述的基于语义分析的词向量网页入侵检测方法，其特征在于，所述步骤(5)中得到的有权词向量空间记为S，

5.根据权利要求1所述的基于语义分析的词向量网页入侵检测方法，其特征在于，所述步骤(5)中有权词向量空间的建立过程为：将训练集中所有网页源码分词得到的词序列构建的包含所有关键词的词向量采用集合运算统一到一个词向量空间中，结合归一化的TF-IDF计算权重进而得到有权词向量空间。

6.根据权利要求1所述的基于语义分析的词向量网页入侵检测方法，其特征在于，所述步骤(6)中采用多项式贝叶斯算法训练网页入侵检测模型。