CN110191096A - 一种基于语义分析的词向量网页入侵检测方法 - Google Patents

一种基于语义分析的词向量网页入侵检测方法 Download PDF

Info

Publication number
CN110191096A
CN110191096A CN201910359359.0A CN201910359359A CN110191096A CN 110191096 A CN110191096 A CN 110191096A CN 201910359359 A CN201910359359 A CN 201910359359A CN 110191096 A CN110191096 A CN 110191096A
Authority
CN
China
Prior art keywords
term vector
webpage
source code
homepage
webpage source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910359359.0A
Other languages
English (en)
Other versions
CN110191096B (zh
Inventor
王泽鑫
吴宣够
储昭斌
王士帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University of Technology AHUT
Original Assignee
Anhui University of Technology AHUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University of Technology AHUT filed Critical Anhui University of Technology AHUT
Priority to CN201910359359.0A priority Critical patent/CN110191096B/zh
Publication of CN110191096A publication Critical patent/CN110191096A/zh
Application granted granted Critical
Publication of CN110191096B publication Critical patent/CN110191096B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明提供的基于语义分析的词向量网页入侵检测方法,涉及网页攻击检测领域,包括1)爬取网站的URL对应的网页源码经筛选分类后作为训练集;2)提取训练集中所有网页源码的中文字符串进行分词处理;3)分别对分词处理的结果进行关键词筛选并构建关键词库;4)构建关键词的词向量,并进行归一化处理;5)结合归一化的TF‑IDF计算权重建立有权词向量空间;6)训练网页入侵检测模型;7)通过模型判断待检测网页是否受到入侵;本发明提出了利用模型判断网页是否受到词汇恶意入侵的网页入侵检测方法。

Description

一种基于语义分析的词向量网页入侵检测方法
技术领域
本发明涉及网页攻击检测领域,具体涉及一种基于语义分析的词向量网页入侵检测方法。
背景技术
随着互联网的飞速发展,网络安全逐渐成为一个潜在的巨大问题。网络安全性是一个涉及面很广泛的问题,其中也会涉及到是否构成犯罪行为的问题。在其最简单的形式中,它主要关心的是网站内容是否遭遇篡改。因此,网站攻击检测在生活中的需求越来越高。
目前,常见的网站攻击方法有sql注入,xss攻击,csrf攻击。sql注入是指用户在http请求中注入恶意sql命令的代码,导致服务器使用数据库sql命令时,导致恶意sql一起被执行。xss攻击,跨站点脚本攻击是指攻击者通过篡改网页,嵌入恶意脚本程序,在用户浏览网页时,控制用户浏览器进行恶意操作的一种攻击方式。csrf攻击,即跨站点请求伪造,指攻击者通过跨站请求,以合法的用户的身份进行非法操作。
目前存在的显式网站攻击检测系统主要有模式匹配和启发式规则两种技术。两种技术通常取决于特征的选择,而这些有识别力的特征通常来自于URL、主机标识、HTML和JavaScript代码。这种方法在选取代表性的特征后利用从样本集中获取的特征数据,结合数据挖掘技术建立判定模型。模式匹配技术利用特征码来对恶意软件进行检测,但是不能从语义层次识别异常代码;启发式规则指的是进行自主洞察的某种特性或者通过特定的技术来识别输入数据的方法,缺点在被检测的代码中出现多条规则中的任何一条,那么被检测代码就可能被判定为恶意代码。
发明内容
本发明目的在于提供一种基于语义分析的词向量网页入侵检测方法,提供联合自然语言处理和机器学习方法来实现隐含式网页入侵检测方法,输入以中文呈现的网页就能实现隐含式网页入侵的检测。
为达成上述目的,本发明提出如下技术方案:一种基于语义分析的词向量网页入侵检测方法,包括以下步骤:
(1)利用网络爬虫爬取若干网站的URL对应的网页源码,按照Google SafeBrowsing API公布的URL黑名单作为分类标准,分别对若干网页的网页源码进行筛选分类,经筛选分类后的网页源码作为训练集;
(2)分别提取训练集中所有网页源码的中文字符串,并分别对单个网页源码的中文字符串进行分词处理,分词处理的结果为获得该中文字符串切分组合最大概率的词序列;
(3)分别对训练集中单个网页源码的词序列中包含的词进行关键词筛选,去除停用词;
(4)构建单个词序列中包含所有关键词的词向量,并通过欧几里德范数对词向量进行归一化处理,归一化处理后的词向量有利于训练集中所有词向量的统一和进行机器学习算法;
(5)将训练集中所有词序列构建的包含所有关键词的词向量统一到一个词向量空间中,结合归一化的TF-IDF计算权重得到有权词向量空间;
(6)有权词向量空间采用机器学习算法训练网页入侵检测模型;
(7)将待检测网页预处理后输入网页入侵检测模型,以判断待检测网页是否受到入侵。
进一步的,所述步骤(2)中对中文字符串进行分词处理的具体过程为:首先,利用语料库生成Trie字典树,对训练集中任一网页源码提取的中文字符串根据Trie字典树生成对应的有向无环图;其次,结合有向无环图和隐马尔可夫模型对中文字符串进行分词;最后,得到该中文字符串切分组合后最大概率的词序列。
进一步的,所述步骤(3)中得到的分词结果,对训练集汇中所有网页源码得到的分词结果构建关键词库。
进一步的,所述步骤(4)中构建单个词序列中包含所有关键词的词向量具体过程为:根据条件随机场理论得到TF-IDF,TF用于统计各关键词在单个网页源码的文字符串中出现的频率IDF用于统计包含关键词的网页源码在所有网页源码中出现的频率,反映关键词的重要性;
即:
TF-IDF(x)=TF(x)×IDF(x) (1-8)
其中,N表示单个网页源码的文字符串中关键词的总数,N(x)代表单个网页源码的文字符串中包含关键词x的总数。
进一步的,所述步骤(5)中得到的有权词向量空间记为S,
其中,Mx为关键词库的大小,M为训练集中的网页源码的总数,s表示第s个网页源码,t表示关键词库中第t个关键词,每个行向量的元素表示单个网页源码的词序列中包含所有关键词的词向量的TF-IDF值。
进一步的,所述步骤(6)中采用多项式贝叶斯算法训练网页入侵检测模型。由以上技术方案可知,本发明的技术方案提供的基于语义分析的词向量网页入侵检测方法,获得了如下有益效果:
本发明公开的基于语义分析的词向量网页入侵检测方法通过建立训练集,对训练集网页源码中的中文字符串进行分词处理,对分词处理的结果构建关键词的词向量,再结合归一化的TF-IDF计算权重得到有权词向量空间,有权词向量空间通过机器学习算法训练网页入侵检测模型,进而实现对待测网页的入侵检测;本发明相较于现有技术:首先无需寻找特征码;其次,不仅仅以关键词作为判断标准,还解决了只能遵循单一特征,增加了关键词之间的关联性,通过有权词向量空间结合机器学习算法训练网页入侵检测模型,对入侵网页的识别准确率高。
应当理解,前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。
结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见,或通过根据本发明教导的具体实施方式的实践中得知。
附图说明
附图不意在按比例绘制。在附图中,在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见,在每个图中,并非每个组成部分均被标记。现在,将通过例子并参考附图来描述本发明的各个方面的实施例,其中:
图1是本发明中分词流程图;
图2是本发明中系统流程图;
图3是本发明中网页入侵检测模型构建图。
具体实施方式
为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。
在本公开中参照附图来描述本发明的各方面,附图中示出了许多说明的实施例。本公开的实施例不定义包括本发明的所有方面。应当理解,上面介绍的多种构思和实施例,以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施,这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外,本发明公开的一些方面可以单独使用,或者与本发明公开的其他方面的任何适当组合来使用。
基于现有技术中,常用的模式匹配技术利用特征码来对恶意软件进行检测时不能从语义层次识别异常代码,在使用启发式规则技术对被检测代码进行检测时当被检测的代码中出现多条规则中的任何一条时,被检测代码就可能被判定为恶意代码,访问进而会被拦截,造成很多网页无法访问;本发明旨在提出一种基于语义分析的词向量网页入侵检测方法,无需寻找特征码,避免使用启发式规则阻拦安全网页,且对入侵网页的识别准确率高。
本发明公开的基于语义分析的词向量网页入侵检测方法,包括如下步骤:1)采用网络爬虫爬取若干网站的URL及对应的网页源码,以Google Safe Browsing API公布的URL黑名单作为标准,分别对若干网页的网页源码进行筛选分类,经筛选分类后得到的入侵网页和正常网页的网页源码作为训练集;2)分别提取训练集中所有网页源码的中文字符串,并分别对单个网页源码的中文字符串进行分词处理,分词处理的结果为获得该中文字符串切分组合最大概率的词序列;3)分别对训练集中单个网页源码的词序列中包含的词进行关键词筛选,去除停用词;4)构建单个词序列中包含所有关键词的词向量,并通过欧几里德范数对词向量进行归一化处理;5)对训练集中所有归一化处理后的词向量建立有权词向量空间;6)有权词向量空间采用机器学习算法训练网页入侵检测模型;7)将待检测网页预处理后输入网页入侵检测模型,以判断待检测网页是否受到入侵。
本发明通过对网页源码的中文字符串进行分词处理,利用分词结果建立关键词的有权词向量空间,结合机器学习相关算法进行训练,建立网页入侵检测模型,进而实现预处理后中文网页的入侵检测,即从语义层次识别异常代码。下面结合附图所示的实施例,对本发明的基于语义分析的词向量网页入侵检测方法,作进一步具体介绍。
结合图1至图3所示,实现本发明基于语义分析的词向量网页入侵检测方法,主要包括分词模块、构建有权词向量空间模块和网页入侵检测模块。其中,在步骤(1)中,网页筛选时类别记为yk,yk的取值为0或1,分别对应正常网页和入侵网页,对进行类别标记以后的网页记为筛选出用于训练网页入侵检测模型的训练集,训练集中的网页源码经过预处理后依次经过分词模块和构建有权词向量空间模块建立用于训练网页入侵检测模型的有权词向量空间,有权词向量空间经过机器学习算法训练出网页入侵检测模型,网页入侵检测模型实现对输入网页的入侵识别。
所述分词模块可简述为以下过程:利用语料库生成Trie字典树,提取网页源码中的中文字符串有向无环图,结合有向无环图和条件随机场对中文字符串进行分词。
语料库包含有2万多条词,包含了词条出现的次数和词性,因此可以利用语料库生成Trie字典树Tt;Tt是一种适合某些特定类型关键字快速查找的多叉树,它的每个节点中含有d个指针域,如果组成关键字的字符基数为n,则d=n+1。Trie树存在两种节点:分支节点和叶子结点。d个指针域和1个整数域包含在分支结点中,其中整数域被用来指示该结点中非空指针域的个数,没有数据域。而叶子结点则包含完整的关键字和指向记录的指针域。如果在Tt的某段路径中所有的分支节点中均只有一个非空指针域,则此段路经上从这个分支结点开始都被压缩为一个叶子结点。
将训练集中所有网页源码提取的中文字符串分别根据Tt的节点所包含的词语生成对应的有向无环图(DAG),每个词对应图中的一条有向边,并赋给相应的边长(即权值),针对该切分图,在起点到终点的所有路径中,求出长度值按严格升序排列,且任何两个不同位置上的值一定不等,依次为第1,第2,…,第n的路径集合作为相应的粗分词结果集。对DAG中可能的切分方案Seg中的词语计算每个词语出现的频率,当发现中文字符串中出现字典树Tt中未出现的词,就把Tt中出现频率最小的那个词语的频率记为该第一次出现词的频率。
定义待切分字符串C=z1,z2,…,zr,其中zf(f=1,2,…,r),zr为字符串C中包含的任意一个汉字,r为字符串C的长度。建立一个节点数r+1的切分有向无环图DAG,各节点编号依次为Node0,Node1,...,Noder。通过以下两种方法建立DAG所有可能的词边:(1)相邻节点Nodeg-1,Nodeg之间建立有向边<Nodeg-1,Nodeg>,边的长度值为Lg,边对应的汉字默认为zg(g=1,2,...,r);(2)定义一个词序列W=zu,...,zv,则节点Nodeu,Nodev之间建立有向边<Nodeu,Nodev>,边的长度值为LW,边对应的词序列为W(0≤u≤v≤r)。这样,待分字串C中包含的所有词与切分有向无环图DAG中的边一一对应。
定义训练集中单个网页源码中提取的中文字符串为Cn,n≥0,n表示中文字符串Cn中包含的字符串的数量,对概率语言模型分词模型,其模型输入是单个网页源码中的中文字符串Cn,模型输出是词序列Wm,m表示词序列Wm中包含的汉字或词语的数量。已知对于一个特定的中文字符串,会有多个切分方案Seg对应,分词的任务就是在切分方案中找出符合语义的概率最大的一个切分方案,对属于DAG的词序列Wm,一般通过求得公式(1-1)的最大值即可得到概率语言模型分词模型输入字符串切分出最有可能的词序列:
其中,P(Cn)是字符串Cn在语料库中出现的概率值,是一个用来归一化的固定值。从词串恢复到字符串的概率只有唯一的方式,所以P(Cn||Wm)=1,P(Wm)是切分方案Seg对应Wm出现的概率,因此(1-1)可以改写成
Seg(Cn)argmaxP(Wm||Cn)=argmax P(Wm)×con
其中,为固定值,假设每个词之间的概率是上下文无关的,则:
其中,win为词序列Wm中包含的汉字或词语,1≤in≤m,P(win)表示汉字或词语win在Wm中出现的概率,问题即转化为计算每个汉字或词语出现的概率。为方便处理,令:
-ln(P(win))可以看做汉字或者词语win在DAG中做适当平滑处理后对应的边长,在大规模语料训练的基础上通过最大似然估计方法求得P(win)式(1-3)将式(1-1)的问题转化为求P*(Wm)的最小值。
根据条件随机场理论,以单个网页源码提取的中文字符串Co为例,首先要对中文字符串Co定义一个特征函数集合,特征函数集合中每个特征函数可表示为:
fj(Ws,i,li,li-1)
其中,Ws表示Co经概率语言模型分词模型输出的可能的某一词序列,其中n≤s≤m,s为词序列Ws包含的切分汉字和词语个数,i用来表示词序列Ws中第i个汉字或词语,l表示词序列Ws中的任意汉字或词组,li表示词序列Ws第i个汉字或词组的词性,li-1表示词序列Ws第i-1个汉字或词语的词性。特征函数的输出值为0或1,0表示要评分的词序列Ws不符合该特征,1表示要评分的词序列Ws符合该特征。
定义完一组特征函数后,需要给特征函数集合中每个特征函数fj赋予一个权重λj;例如在词序列Ws中对任意汉字或词语l进行标注,则用特征函数集合对l加权表示为:
其中,用于计算词序列Ws中每个位置的汉字或词语的特征函数的加权和,用于计算每一个特征函数fj评分值加权λj后的和,其中com代表特征函数的总数。
对加权值score(Co|Ws)进行指数化和标准化,Co经概率语言模型分词模型输出的可能词序列Ws的概率p(Ws|Co):
其中,Wo代表Co经概率语言模型分词模型输出的所有词序列,利用p(Ws|Co)得到词序列Ws在字符串Co中的出现概率,对所有词与进行可能词序列组合的概率统计,根据(1-3)计算得到Co的最大概率的切分组合。
所述构建有权词向量空间模块可简述为以下过程:利用TF-IDF对关键词加权赋值,构建有权词向量空间。对于单个网页源码分词得到的最有可能的词序列,首先需要采用停用词表将词序列中包含的词进行关键词筛选,去除停用词,如语气词、助词和虚词等,去除停用词后词序列剩下的词全部记为关键词,再将训练集中所有网页源码分词得到的词序列通过集合运算的并集运算构建的包含所有关键词的词库K_D,由训练集中所有网页源码的中文字符串中互不相同的关键词组成,对关键词的词库中关键词xa进行排序存储,关键词库的大小记为Mx,对词库中任意关键词的词向量记为Va,Va的大小为M×1,其中1≤a≤Mx,M为训练集中的网页源码的总数。
根据词频-逆文本频率(TF-IDF)理论,TF用于统计各关键词在单个网页源码的文字符串中出现的频率,IDF用于统计包含关键词的网页源码在所有网页源码中出现的频率,反映关键词的重要性:
进一步修正仅仅用词频表示的词特征值,即:
TF-IDF(x)=TF(x)×IDF(x) (1-8)
其中,N表示单个网页源码的文字符串中关键词的总数,N(x)代表单个网页源码的文字符串中关键词x出现的次数。
通过所有网页源码中包含关键词的TF-IDF值,对词向量中对应位置进行赋值,其他位置均为0。
随后通过欧几里德范数式对得到的TF-IDF加权以后的词向量Va进行归一化,归一化后的词向量Va记为则:
对词库中的词向量Va结合TF-IDF计算权重,进行归一化后统一到一个词向量空间中,进而得到有权词向量空间,记为S,S是M×Mx维矩阵:
其中,s表示第s个网页源码,t表示关键词库中第t个关键词,每个行向量的元素表示单个网页源码的词序列中包含所有关键词的词向量的TF-IDF值。
通过有权词向量空间模块得到的有权词向量空间S后,通过机器学习方法,即可训练出基于语义分析的词向量网页入侵检测方法模型,如图3所示,本发明利用多项式贝叶斯(MN)算法训练网页入侵检测方法模型,即贝叶斯模型。在MN算法中本发明计算:
其中,M是训练集中的网页总数,是类别为yk的网页个数,是类别为yk的网页包含关键词库K_D中第b个关键词xb的网页总数,其中1≤b≤Mx。通过P(yk),P(xb|yk)计算P(yk|xb),返回最大概率对应的类别yk
对于一个未知是否被入侵的网页,本发明首先利用基于语义分析的词向量网页入侵检测方法对待测网页提取中文字符串并进行分词处理,构建有权词向量空间作为网页入侵检测模型的输入,如果根据模型输出数值为1表示该网页受到入侵,则计算机发出入侵提示。本发明相较于现有技术中基于模式匹配的网页入侵检测系统无需寻找特征码,相较于现有技术中基于启发式规则的网页入侵检测系统,不仅仅以关键词作为判断标准,还解决了只能遵循单一特征,增加了关键词之间的关联性,通过有权词向量空间结合机器学习算法训练网页入侵检测模型,提高了对入侵网页的识别准确率。
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。

Claims (6)

1.一种基于语义分析的词向量网页入侵检测方法,其特征在于,包括如下步骤:
(1)利用网络爬虫爬取若干网站的URL对应的网页源码,以Google Safe Browsing API公布的URL黑名单作为标准,分别对若干网页的网页源码进行筛选分类,经筛选分类后的网页源码作为训练集;
(2)分别提取训练集中所有网页源码的中文字符串,并分别对单个网页源码的中文字符串进行分词处理,分词处理的结果为获得该中文字符串切分组合最大概率的词序列;
(3)分别对训练集中单个网页源码的词序列中包含的词进行关键词筛选,去除停用词,构建关键词库;
(4)构建单个词序列中包含所有关键词的词向量,并通过欧几里德范数对词向量进行归一化处理;
(5)对训练集中所有归一化处理后的词向量建立有权词向量空间;
(6)有权词向量空间采用机器学习算法训练网页入侵检测模型;
(7)将待检测网页预处理后输入网页入侵检测模型,以判断待检测网页是否受到入侵。
2.根据权利要求1所述的基于语义分析的词向量网页入侵检测方法,其特征在于,所述步骤(2)中对中文字符串进行分词处理的具体过程为:
首先,利用语料库生成Trie字典树,对训练集中任一网页源码提取的中文字符串根据Trie字典树生成对应的有向无环图;其次,结合有向无环图和隐马尔可夫模型对中文字符串进行分词;最后,得到该中文字符串切分组合后最大概率的词序列。
3.根据权利要求1所述的基于语义分析的词向量网页入侵检测方法,其特征在于,所述步骤(4)中构建单个词序列中包含所有关键词的词向量具体过程为:根据TF-IDF理论,TF用于统计各关键词在单个网页源码的文字符串中出现的频率,IDF用于统计包含关键词的网页源码在所有网页源码中出现的频率,反映关键词的重要性,即:
则:
TF-IDF(x)=TF(x)×IDF(x) (1-8)
其中,N表示单个网页源码的文字符串中关键词的总数,N(x)代表单个网页源码的文字符串中关键词x出现的次数。
4.根据权利要求3所述的基于语义分析的词向量网页入侵检测方法,其特征在于,所述步骤(5)中得到的有权词向量空间记为S,
其中,Mx为关键词库的大小,M为训练集中的网页源码的总数,s表示第s个网页源码,t表示关键词库中第t个关键词,每个行向量的元素表示单个网页源码的词序列中包含所有关键词的词向量的TF-IDF值。
5.根据权利要求1所述的基于语义分析的词向量网页入侵检测方法,其特征在于,所述步骤(5)中有权词向量空间的建立过程为:将训练集中所有网页源码分词得到的词序列构建的包含所有关键词的词向量采用集合运算统一到一个词向量空间中,结合归一化的TF-IDF计算权重进而得到有权词向量空间。
6.根据权利要求1所述的基于语义分析的词向量网页入侵检测方法,其特征在于,所述步骤(6)中采用多项式贝叶斯算法训练网页入侵检测模型。
CN201910359359.0A 2019-04-30 2019-04-30 一种基于语义分析的词向量网页入侵检测方法 Active CN110191096B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910359359.0A CN110191096B (zh) 2019-04-30 2019-04-30 一种基于语义分析的词向量网页入侵检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910359359.0A CN110191096B (zh) 2019-04-30 2019-04-30 一种基于语义分析的词向量网页入侵检测方法

Publications (2)

Publication Number Publication Date
CN110191096A true CN110191096A (zh) 2019-08-30
CN110191096B CN110191096B (zh) 2023-05-09

Family

ID=67715429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910359359.0A Active CN110191096B (zh) 2019-04-30 2019-04-30 一种基于语义分析的词向量网页入侵检测方法

Country Status (1)

Country Link
CN (1) CN110191096B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674503A (zh) * 2019-09-24 2020-01-10 杭州云象网络技术有限公司 一种基于图卷积神经网络的智能合约死循环检测方法
CN111680220A (zh) * 2020-06-12 2020-09-18 国家计算机网络与信息安全管理中心浙江分中心 一种基于网站特征的贷款类诈骗网站的识别方法
CN111885000A (zh) * 2020-06-22 2020-11-03 网宿科技股份有限公司 一种基于图神经网络的网络攻击检测方法、系统及装置
CN113094703A (zh) * 2021-03-11 2021-07-09 北京六方云信息技术有限公司 针对web入侵检测的输出内容过滤方法及系统
CN113312622A (zh) * 2021-06-09 2021-08-27 中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室)) 一种检测url的方法及装置
CN113792608A (zh) * 2021-08-19 2021-12-14 广州云硕科技发展有限公司 一种智能语义分析方法及系统
CN116170241A (zh) * 2023-04-26 2023-05-26 国家工业信息安全发展研究中心 一种工业控制系统的入侵检测方法、系统及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102016013487A1 (de) * 2016-01-13 2017-07-13 Adobe Systems Incorporated Semantischer Vektorraum mit natürlicher Sprache
CN108111478A (zh) * 2017-11-07 2018-06-01 中国互联网络信息中心 一种基于语义理解的网络钓鱼识别方法和装置
CN108920544A (zh) * 2018-06-13 2018-11-30 桂林电子科技大学 一种基于知识图谱的个性化职位推荐方法
CN109062972A (zh) * 2018-06-29 2018-12-21 平安科技(深圳)有限公司 网页分类方法、装置及计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102016013487A1 (de) * 2016-01-13 2017-07-13 Adobe Systems Incorporated Semantischer Vektorraum mit natürlicher Sprache
CN108111478A (zh) * 2017-11-07 2018-06-01 中国互联网络信息中心 一种基于语义理解的网络钓鱼识别方法和装置
CN108920544A (zh) * 2018-06-13 2018-11-30 桂林电子科技大学 一种基于知识图谱的个性化职位推荐方法
CN109062972A (zh) * 2018-06-29 2018-12-21 平安科技(深圳)有限公司 网页分类方法、装置及计算机可读存储介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674503A (zh) * 2019-09-24 2020-01-10 杭州云象网络技术有限公司 一种基于图卷积神经网络的智能合约死循环检测方法
CN110674503B (zh) * 2019-09-24 2021-06-15 杭州云象网络技术有限公司 一种基于图卷积神经网络的智能合约死循环检测方法
CN111680220A (zh) * 2020-06-12 2020-09-18 国家计算机网络与信息安全管理中心浙江分中心 一种基于网站特征的贷款类诈骗网站的识别方法
CN111885000A (zh) * 2020-06-22 2020-11-03 网宿科技股份有限公司 一种基于图神经网络的网络攻击检测方法、系统及装置
CN113094703A (zh) * 2021-03-11 2021-07-09 北京六方云信息技术有限公司 针对web入侵检测的输出内容过滤方法及系统
CN113312622A (zh) * 2021-06-09 2021-08-27 中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室)) 一种检测url的方法及装置
CN113792608A (zh) * 2021-08-19 2021-12-14 广州云硕科技发展有限公司 一种智能语义分析方法及系统
CN113792608B (zh) * 2021-08-19 2022-05-10 广州云硕科技发展有限公司 一种智能语义分析方法及系统
CN116170241A (zh) * 2023-04-26 2023-05-26 国家工业信息安全发展研究中心 一种工业控制系统的入侵检测方法、系统及设备

Also Published As

Publication number Publication date
CN110191096B (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
CN110191096A (zh) 一种基于语义分析的词向量网页入侵检测方法
CN110414219B (zh) 基于门控循环单元与注意力机制的注入攻击检测方法
CN108965245B (zh) 基于自适应异构多分类模型的钓鱼网站检测方法和系统
CN110233849B (zh) 网络安全态势分析的方法及系统
CN104077396B (zh) 一种钓鱼网站检测方法及装置
Opara et al. HTMLPhish: Enabling phishing web page detection by applying deep learning techniques on HTML analysis
CN110808968A (zh) 网络攻击检测方法、装置、电子设备和可读存储介质
CN113596007B (zh) 一种基于深度学习的漏洞攻击检测方法和设备
CN102591965B (zh) 一种黑链检测的方法及装置
CN111460820A (zh) 一种基于预训练模型bert的网络空间安全领域命名实体识别方法和装置
CN104156490A (zh) 基于文字识别检测可疑钓鱼网页的方法及装置
CN103577755A (zh) 一种基于支持向量机的恶意脚本静态检测方法
CN108038173B (zh) 一种网页分类方法、系统及一种网页分类设备
CN112307473A (zh) 一种基于Bi-LSTM网络和注意力机制的恶意JavaScript代码检测模型
CN110727766A (zh) 敏感词的检测方法
CN111931935B (zh) 基于One-shot 学习的网络安全知识抽取方法和装置
CN107341399A (zh) 评估代码文件安全性的方法及装置
WO2021207368A1 (en) Unstructured text classification
CN102446255A (zh) 一种检测页面篡改的方法及装置
CN110572359A (zh) 基于机器学习的钓鱼网页检测方法
CN109492219A (zh) 一种基于特征分类和情感语义分析的诈骗网站识别方法
Nowroozi et al. An adversarial attack analysis on malicious advertisement url detection framework
CN113438209B (zh) 一种基于改进的Stacking策略的钓鱼网站检测方法
Wibowo et al. Detection of Fake News and Hoaxes on Information from Web Scraping using Classifier Methods
CN104036189A (zh) 页面篡改检测方法及黑链数据库生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant