CN107437038A - 一种网页篡改的检测方法及装置 - Google Patents

一种网页篡改的检测方法及装置 Download PDF

Info

Publication number
CN107437038A
CN107437038A CN201710668043.0A CN201710668043A CN107437038A CN 107437038 A CN107437038 A CN 107437038A CN 201710668043 A CN201710668043 A CN 201710668043A CN 107437038 A CN107437038 A CN 107437038A
Authority
CN
China
Prior art keywords
vocabulary
malice
target
context
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710668043.0A
Other languages
English (en)
Other versions
CN107437038B (zh
Inventor
马长春
王大伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN201710668043.0A priority Critical patent/CN107437038B/zh
Publication of CN107437038A publication Critical patent/CN107437038A/zh
Application granted granted Critical
Publication of CN107437038B publication Critical patent/CN107437038B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种网页篡改的检测方法及装置,用于提高网页篡改检测的准确率与效率。本发明实施例方法包括:获取待检测站点所属的文本的目标恶意词汇;检索所述待检测站点所属的文本中是否存在所述目标恶意词汇;若存在所述目标恶意词汇,则构造所述目标恶意词汇所在的上下文的词频向量;将所述上下文的词频向量输入预置的分类器模型中判断所述上下文是否是篡改,所述分类器模型为原始分类器模型根据实验文本训练生成的。

Description

一种网页篡改的检测方法及装置
技术领域
本发明涉及网络安全技术领域,尤其涉及一种网页篡改的检测方法及装置。
背景技术
网页篡改是指攻击者将已存在的网页部分或全部修改为恶意内容或在站点创建新的网页并写入恶意内容。网页篡改不仅影响了网站的正常运营,而且会向公众传播大量非法信息,危害巨大。
目前网页篡改的检测方法主要有黑名单关键词检测和网页数字指纹对比,黑名单关键词检测通过检查网页中是否含有黑名单中的关键词或白名单中的关键词来判定网页是否被篡改。这种方法可能会由于黑名单或白名单中包含的关键词不够全面而产生漏报或误报,例如政府公安部门发布的打击非法行为的公告中可能会包含黑名单中的词汇,而产生误报。
网页数字指纹对比,这种检测方法需要预先建立待检测站点的网页未篡改前的数字指纹,并建立数字指纹库,网页的每次正常更新或修改都需要重新建立数字指纹库,操作繁琐效率低。
发明内容
本发明实施例提供了一种网页篡改的检测方法及装置,用于提高网页篡改检测的准确率与效率。
本发明实施例第一方面提供了一种网页篡改的检测方法,可包括:
获取待检测站点所属的文本的目标恶意词汇;
检索所述待检测站点所属的文本中是否存在所述目标恶意词汇;
若存在所述目标恶意词汇,则构造所述目标恶意词汇所在的上下文的词频向量;
将所述上下文的词频向量输入预置的分类器模型中判断所述上下文是否存在篡改,所述分类器模型为原始分类器模型根据实验文本训练生成的。
结合第一方面,在第一方面的第一种可能的实施方式中,所述获取待检测站点所属的文本的目标恶意词汇,包括:
获取待检测站点的所属的文本的主题词汇;
从预置数据库中获取所述主题词汇对应的主题下的词汇频率超过预置阀值的高频词汇;
从预置恶意词汇列表中过滤掉所述高频词汇得到目标恶意词汇。
结合第一方面的第一种可能的实施方式,在第一方面的第二种可能的实施方式中,所述检索所述待检测站点所属的文本中是否存在所述目标恶意词汇,包括:
检索所述待检测站点所属的文本中是否存在所述目标恶意词汇的拆分形式、组合形式及原形。
结合第一方面,第一方面的第一种可能的实施方式,或第一方面的第二种可能的实施方式,在第一方面的第三种可能的实施方式中,所述构造所述目标恶意词汇所在的上下文的词频向量,包括:
对所述目标恶意词汇所在的上下文进行分词处理;
统计所述目标恶意词汇所在的上下文的每个分词的词频;
根据所述目标恶意词汇所在的上下文的每个分词的词频构造上下文的词频向量。
结合第一方面的第三种可能的实施方式,在第一方面的第四种可能的实施方式中,所述分类器模型的种类包括:
逻辑回归LR分类器、支持向量机SVM分类器或卷积神经网络CNN分类器。
结合第一方面的第四种可能的实施方式,在第一方面的第五种可能的实施方式中,所述方法还包括:
根据所述目标恶意词汇的语义关系扩展所述目标恶意词汇的数量。
本发明实施例第二方面提供了一种网页篡改的检测装置,可包括:
获取模块,用于获取待检测站点所属的文本的目标恶意词汇;
检索模块,用于检索所述待检测站点所属的文本中是否存在所述目标恶意词汇;
构造模块,用于构造所述目标恶意词汇所在的上下文的词频向量;
分类模块,用于将所述上下文的词频向量输入预置的分类器模型中判断所述上下文是否存在篡改,所述分类器模型为原始分类器模型根据实验文本训练生成的。
结合第二方面,在第二方面的第一种可能的实施方式中,所述获取模块,包括:
第一获取单元,用于获取待检测站点的所属的文本的主题词汇;
第二获取单元,用于从预置数据库中获取所述主题词汇对应的主题下的词汇频率超过预置阀值的高频词汇;
生成单元,用于从预置恶意词汇列表中过滤掉所述高频词汇得到目标恶意词汇。
结合第二方面的第一种可能的实施方式,在第二方面的第二种可能的实施方式中,所述检索模块包括:
检索单元,用于检索所述待检测站点所属的文本中是否存在所述目标恶意词汇的拆分形式、组合形式及原形。
结合第二方面,第二方面的第一种可能的实施方式,或第二方面的第二种可能的实施方式,在第二方面的第三种可能的实施方式中,所述构造模块,包括:
分词单元,用于对所述目标恶意词汇所在的上下文进行分词处理;
统计单元,用于统计所述目标恶意词汇所在的上下文的每个分词的词频;
构造单元,用于根据所述目标恶意词汇所在的上下文的每个分词的词频构造上下文的词频向量。
结合第二方面的第三种可能的实施方式,在第二方面的第四种可能的实施方式中,所述分类器模型的种类包括:
逻辑回归LR分类器、支持向量机SVM分类器或卷积神经网络CNN分类器。
结合第二方面的第四种可能的实施方式,在第二方面的第五种可能的实施方式中,所述装置还包括:
拓展模块,用于根据所述目标恶意词汇的语义关系扩展所述目标恶意词汇的数量。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明实施例中,在待检测站点所属的文本中检索到目标恶意词汇之后,构造目标恶意词汇的上下文的词频向量,并将该词频向量输入由原始分类器模型根据实验文本训练生成的预置分类器模型中判断该上下文是否存在篡改,由于该预置分类器模型经过大量的实验文本的不断训练和学习,可以有效的识别出特定的篡改文本,而不是直接根据黑名单词汇的有无判定上下文是否存在篡改,提高了检测的准确率,无需建立数字指纹库,提高了检测效率。
附图说明
图1为本发明实施例中一种网页篡改检测的方法的一个实施例示意图;
图2为图1中步骤100的细化步骤示意图;
图3为图1中步骤300的细化步骤示意图;
图4为本发明实施例中一种网页篡改检测的方法的另一个实施例示意图;
图5为本发明实施例中一种网页篡改检测系统的一个实施例示意图;
图6为本发明实施例中一种网页篡改检测系统的另一个实施例示意图;
图7为本发明实施例中获取模块501的细化功能模块示意图;
图8为本发明实施例中构造模块503的细化功能模块示意图。
具体实施方式
本发明实施例提供了一种网页篡改的检测方法及装置,用于提高网页篡改检测的准确率与效率。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于理解,下面对本发明实施例中的具体流程进行描述,请参阅图1,本发明实施例中种网页篡改的检测方法的一个实施例可包括:
100、获取待检测站点所属的文本的目标恶意词汇;
本实施例中,网页篡改检测系统可以获取待检测站点所属的文本的目标恶意词汇,目标恶意词汇是待检测站点所属的文本主题下带有恶意的词汇,例如“黄赌毒”等违法信息暗示的词汇,目标恶意词汇在待检测站点所属的文本中出现的概率往往比较小。
可以理解的是,本实施例中的文本不仅包括可以直接读取文本内容还可以包括可以采用OCR等技术转换为文本内容的非文本内容。
进一步的,请参阅图2,图2为图1中步骤100的细化步骤示意图。作为一种可能的实施方式,步骤100可包括:
101、获取待检测站点的所属的文本的主题词汇;
实际运用中,每个站点的文本都有不同的主题,在过滤掉预置的停用词之后,可以通过提取该文本的主题词汇来识别文本的主题。
具体的,网页篡改检测系统可以采用文件系统遍历技术或爬虫程序根据既定的目标,定时访问互联网上的网页与相关的链接并下载网页内容,其中,抓取目标可以为待检测站点上所有相关的网页,也可以根据需要大范围的抓取,具体可以根据管理人员的需求进行设置。
在获取到待检测站点所属的所有文本过滤掉预置的停用词之后,网页篡改检测系统可以采用TF-IDF(term frequency-inverse document frequency)技术来提取待检测站点的所属的文本的主题词汇,其原理为:一篇M个词的文章中目标词汇出现N次,则该汇词的词频计算参照TF公式:TF=N/M,逆向文本词频是用于衡量词汇权重的指数,可由公式:IDF=log(D/Dw)计算得到,其中D为待检测站点的文本总数,Dw为出现过目标词汇的文本数,Dw越大则目标词汇在越多的文档中出现,对应的目标词汇的权重越小,通过计算目标词汇的词频与逆向文本词频的乘积即可得到目标词汇的加权词频,将加权词频超过预置阀值或加权词频排名超过预置排名的目标词汇作为待检测站点所属的文本的主题词汇。
可以理解的是,本发明实施例中还可以采用其他的方式提取待检测站点所属的文本的主题词汇,例如采用Text Rank算法计算对应文本的主题词汇,还可以将相似站点的主题词汇进行简单的预处理之后,替代为待检测站点的主题词汇,例如不同地区的政府机关在其官网上公布相同的政策文本时,可以将该文本主题词汇中的行政地区名替换为发布该待检测站点的行政地区即可得到对应的主题词汇,具体的主题词汇提取方式此处不做限定。
102、从预置数据库中获取主题词汇对应的主题下的词汇频率超过预置阀值的高频词汇;
网页篡改检测系统可以预先从互联网中采集大量的文本,提取这些文本的主题,并计算相同主题的文本中各个词汇的概率,并将各个主题下出现的概率超过预置阀值的词汇作为该主题下对应的高频词汇。
具体的可以采用LDA(Latent Dirichlet Allocation)算法模型或其他主题算法模型从互联网的大数据中提取各种主题的文章中的各个词汇的概率,筛选出高频词汇。
103、从预置恶意词汇列表中过滤掉高频词汇得到目标恶意词汇。
在获取到待检测站点的所属的文本的主题对应的高频词汇之后,网页篡改检测系统可以从预置恶意词汇列表中过滤掉该高频词汇得到剩余的恶意词汇作为该文本对应的目标恶意词汇。
具体的,网页篡改检测系统可以预置恶意词汇库,该恶意词汇库可以包括以往被篡改过的文本中提取到的带有暗示性的恶意词汇,如“香港马会”、“心水”等暗示赌博的恶意词汇,恶意词汇库中的恶意词汇可能在不同主题的文本中并非带有恶意,需要对不同主题的文本的恶意词汇库中的恶意词汇进行筛选,网页篡改检测系统可以从预置恶意词汇列表中过滤掉该文本主题对应的高频词汇,从而得到剩余的恶意词汇作为该文本对应的目标恶意词汇。
可以理解的是,恶意词汇库中的恶意词汇可以根据互联网中出现的恶意词汇进行更新,具体的恶意词汇此处不做限定。
200、检索待检测站点所属的文本中是否存在目标恶意词汇;
在获取到对应的目标恶意词汇之后,网页篡改检测系统可以采用倒排索引、正则表达式、AC自动机等技术对待检测站点所属的文本进行检索,以确定对应的文本中是否存在目标恶意词汇,若存在目标恶意词汇,则对目标恶意词汇所在的上下文进行进一步的检测,若不存在目标恶意词汇,则可以执行用户设定的其他步骤。
进一步的,本实施例中检索待检测站点所属的文本中是否存在目标恶意词汇过程中,网页篡改检测系统可以检索待检测站点所属的文本中是否存在目标恶意词汇的拆分形式、组合形式及原形。实际运用中,恶意篡改者为逃避关键词的检测,往往会对恶意词汇进行拆分或组合,为高效识别恶意文本,网页篡改检测系统可以对目标恶意词汇的拆分形式、组合形式及原形进行检测。
300、构造目标恶意词汇所在的上下文的词频向量;
若待检测站点所属的文本中存在目标恶意词汇,网页篡改检测系统可以提取目标恶意词汇所在的上下文的词频向量,以进行进一步的检测。
进一步的,请参阅图3,图3为图1中步骤300的细化步骤示意图。作为一种可能的实施方式,步骤300可包括:
301、对目标恶意词汇所在的上下文进行分词处理;
网页篡改检测系统可以对目标恶意词汇所在的上下文进行分词处理,将上下文段落的文字转化为词语序列,记录该段落所有出现过的词语。
302、统计目标恶意词汇所在的上下文的每个分词的词频;
在对目标恶意词汇所在的上下文进行分词处理的过程中或后续过程中,网页篡改检测系统可以统计词典中每个词汇的词频,即每个词汇在该上下文中出现的次数。
303、根据每个分词的词频构造上下文的词频向量。
首先,利用预置的训练文本构造一个词语词典。
举例说明,有一段文本“小明在北京升旗台看国旗升起,小明流下激动的泪水”。
分词为:[“小明”,“在”,“北京”,“升旗台”,“看”,“国旗”,“升起”,“小明”,“流下”,“激动”,“的”,“泪水”]。
构造词典:{“小明”,“在”,“北京”,“升旗台”,“看”,“国旗”,“升起”,“流下”,“激动”,“的”,“泪水”}。
然后,网页篡改检测系统可以将词典中的每个词汇的词频作为对应词汇的向量参数,一起构成目标恶意词汇所在的上下文的每个分词的词频构造上下文的词频向量。
例如,上述文本“小明在北京升旗台看国旗升起,小明流下激动的泪水”。
分词为[“小明”,“在”,“北京”,“升旗台”,“看”,“国旗”,“升起”,“小明”,“流下”,“激动”,“的”,“泪水”]
构造词典:{“小明”,“在”,“北京”,“升旗台”,“看”,“国旗”,“升起”,“流下”,“激动”,“的”,“泪水”}
假设词典中还有其他词汇,最后的词典如下。记为词典Dic:
{“小明”,“在”,“北京”,“升旗台”,“看”,“国旗”,“升起”,“流下”,“激动”,“的”,“泪水”,“最近”,“中国”,“网络”}。
统计词频:{“小明”:2,“在”:1,“北京”:1,“升旗台”:1,“看”: 1,“国旗”:1,“升起”:1,“流下”:1,“激动”:1,“的”:1,“泪水”:1,“最近”:0,“中国”:0,“网络”:0}。
其中,词典用于记录所有出现过的词汇,用于描述词频向量的意义。在进行分类的过程中,词典的构造过程如下:遍历所有训练文本,将其中的词语去重之后保存起来,按照顺序编号各个词语,编号代表该词语在词频向量中是第几维。比如在前面的示例中,小明编号为1,表示向量的第一个维度是“小明”出现的次数。北京编号为3,表示向量的第三维度是“北京”出现的次数。所有的文本可以共用一个词典,这样可以保证各个向量相同维度的物理意义是一样的,都表示相应词语出现的次数。
于是最开始的文本“小明在北京升旗台看国旗升起,小明流下激动的泪水”转化为向量[2,1,1,1,1,1,1,1,1,1,1,0,0,0]。
400、将上下文的词频向量输入预置的分类器模型中判断上下文是否存在篡改。
分类器模型是根据以往被篡改过的文本的词频向量进行训练得到的,具体的,网页篡改检测系统可以从网络上收集大量的恶意关键词的上下文作为训练文本,人工对其分类,分为恶意和非恶意两大类。
具体的训练过程如下:
采用上述步骤300中类似的方法构造实验文本的词频向量,首先对语料进行分词,每段文字被转化为词语序列,然后记录所有出现过的词语,构成一个词语词典,对每段文本统计词典中各个词语的词频,最后将所有词频一起构成对应的词频向量;将实验文本向量化之后,词频向量记为X,人工分类的标签记为Y;
将向量X和标签Y输入到分类器模型中进行训练,例如将向量X和标签 Y输入到逻辑回归LR分类器模型中,LR模型会根据预置的算法计算将向量 X映射到标签Y的过程中所需的参数,最终得到预置模型lr。该模型可以将未知文本的词频向量集合X到标签集合Y的映射lr:x—>y,具体的LR分类器模型的算法原理为现有技术,此处不做赘述。
可以理解的是,本实施例中的分类器模型的种类可以为逻辑回归LR分类器也可以为支持向量机SVM分类器或卷积神经网络CNN分类器,具体此处不做限定。
本发明实施例中,在待检测站点所属的文本中检索到目标恶意词汇之后,构造目标恶意词汇的上下文的词频向量,并将该词频向量输入由原始分类器模型根据实验文本训练生成的预置分类器模型中判断该上下文是否存在篡改,由于该预置分类器模型经过大量的训练文本的不断训练和学习,可以有效的识别出特定恶意关键词相关的篡改文本,而不是直接根据黑名单词汇的有无判定上下文是否存在篡改,提高了检测的准确率,无需建立数字指纹库,提高了检测效率。
其次,本实施例中的预置LR分类器、SVM分类器或CNN分类器模型可以采用互联网上大量的篡改文本作为实验文本进行训练,提高了分类器的识别的准确率。
再次,本实施例中的恶意词汇库、不同文本主题对应的高频词汇均可以从互联网大数据中提取并实时更新,可以快速适应互联网上日新月异的网页篡改形式的变更,进一步的提高了检测的效率。
进一步的,请参阅图4,图4为本发明实施例中一种网页篡改的检测方法的另一个实施例示意图,在上述图1所示的实施例的基础上,在步骤100之后,该方法还包括:
500、根据目标恶意词汇的语义关系扩展目标恶意词汇的数量。
实际运用中,文本中的目标恶意词汇可以被直接或间接使用,对于目标恶意词汇间接的使用,网页篡改检测系统可以通过词汇间的语义关系进行识别,具体的,可以采用word2vec训练词向量模型算法,通过学习带有恶意词汇的实验样本学习词汇间的相互关系,进一步的扩展目标恶意词汇集合中词汇的数量。
本发明实施例中还提供了一种网页篡改检测系统,请参阅图5,本发明实施例中一种网页篡改检测系统的一个实施例可包括:
获取模块501,用于获取待检测站点所属的文本的目标恶意词汇;
检索模块502,用于检索所述待检测站点所属的文本中是否存在所述目标恶意词汇;
构造模块503,用于构造所述目标恶意词汇所在的上下文的词频向量;
分类模块504,用于将所述上下文的词频向量输入预置的分类器模型中判断所述上下文是否存在篡改,所述分类器模型为原始分类器模型根据实验文本训练生成的。
可选的,作为一种可能的实施方式,检索模块502进一步的可以包括:
检索单元5021,用于检索所述待检测站点所属的文本中是否存在所述目标恶意词汇的拆分形式、组合形式及原形。
可选的,在图5所示的实施例的基础上,请参阅图6,作为一种可能的实施方式,该系统还可以进一步包括:
拓展模块505,用于根据所述目标恶意词汇的语义关系扩展所述目标恶意词汇的数量。
本发明实施例中,在待检测站点所属的文本中检索到目标恶意词汇之后,构造目标恶意词汇的上下文的词频向量,并将该词频向量输入由原始分类器模型根据实验文本训练生成的预置分类器模型中判断该上下文是否存在篡改,由于该预置分类器模型经过大量的实验文本的不断训练和学习,可以有效的识别出特定的篡改文本,而不是直接根据黑名单词汇的有无判定上下文是否存在篡改,提高了检测的准确率,无需建立数字指纹库,提高了检测效率。
请参阅图7,图7为本发明实施例中获取模块501的细化功能模块示意图,作为一种可能的实施方式,获取模块501进一步的可以包括:
第一获取单元5011,用于获取待检测站点的所属的文本的主题词汇;
第二获取单元5012,用于从预置数据库中获取所述主题词汇对应的主题下的词汇频率超过预置阀值的高频词汇;
生成单元5013,用于从预置恶意词汇列表中过滤掉所述高频词汇得到目标恶意词汇。
请参阅图8,图8为本发明实施例中构造模块503的细化功能模块示意图,作为一种可能的实施方式,构造模块503进一步的可以包括:
分词单元5031,用于对所述目标恶意词汇所在的上下文进行分词处理;
统计单元5032,用于统计所述目标恶意词汇所在的上下文的每个分词的词频;
构造单元5033,用于根据所述目标恶意词汇所在的上下文的每个分词的词频构造上下文的词频向量。
可以理解的是,本实施例中分类器模型的种类可以包括:逻辑回归LR分类器、支持向量机SVM分类器或卷积神经网络CNN分类器。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (12)

1.一种网页篡改的检测方法,其特征在于,包括:
获取待检测站点所属的文本的目标恶意词汇;
检索所述待检测站点所属的文本中是否存在所述目标恶意词汇;
若存在所述目标恶意词汇,则构造所述目标恶意词汇所在的上下文的词频向量;
将所述上下文的词频向量输入预置的分类器模型中判断所述上下文是否是篡改,所述分类器模型为原始分类器模型根据实验文本训练生成的。
2.根据权利要求1所述的方法,其特征在于,所述获取待检测站点所属的文本的目标恶意词汇,包括:
获取待检测站点的所属的文本的主题词汇;
从预置数据库中获取所述主题词汇对应的主题下的词汇频率超过预置阀值的高频词汇;
从预置恶意词汇列表中过滤掉所述高频词汇得到目标恶意词汇。
3.根据权利要求2所述的方法,其特征在于,所述检索所述待检测站点所属的文本中是否存在所述目标恶意词汇,包括:
检索所述待检测站点所属的文本中是否存在所述目标恶意词汇的拆分形式、组合形式及原形。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述构造所述目标恶意词汇所在的上下文的词频向量,包括:
对所述目标恶意词汇所在的上下文进行分词处理;
统计所述目标恶意词汇所在的上下文的每个分词的词频;
根据所述目标恶意词汇所在的上下文的每个分词的词频构造上下文的词频向量。
5.根据权利要求4所述的方法,其特征在于,所述分类器模型的种类包括:
逻辑回归LR分类器、支持向量机SVM分类器或卷积神经网络CNN分类器。
6.根据权利要求5所述的方法,其特征在于,还包括:
根据所述目标恶意词汇的语义关系扩展所述目标恶意词汇的数量。
7.一种网页篡改的检测装置,其特征在于,包括:
获取模块,用于获取待检测站点所属的文本的目标恶意词汇;
检索模块,用于检索所述待检测站点所属的文本中是否存在所述目标恶意词汇;
构造模块,用于构造所述目标恶意词汇所在的上下文的词频向量;
分类模块,用于将所述上下文的词频向量输入预置的分类器模型中判断所述上下文是否是篡改,所述分类器模型为原始分类器模型根据实验文本训练生成的。
8.根据权利要求7所述的装置,其特征在于,所述获取模块,包括:
第一获取单元,用于获取待检测站点的所属的文本的主题词汇;
第二获取单元,用于从预置数据库中获取所述主题词汇对应的主题下的词汇频率超过预置阀值的高频词汇;
生成单元,用于从预置恶意词汇列表中过滤掉所述高频词汇得到目标恶意词汇。
9.根据权利要求8所述的装置,其特征在于,所述检索模块包括:
检索单元,用于检索所述待检测站点所属的文本中是否存在所述目标恶意词汇的拆分形式、组合形式及原形。
10.根据权利要求7至9中任一项所述的装置,其特征在于,所述构造模块,包括:
分词单元,用于对所述目标恶意词汇所在的上下文进行分词处理;
统计单元,用于统计所述目标恶意词汇所在的上下文的每个分词的词频;
构造单元,用于根据所述目标恶意词汇所在的上下文的每个分词的词频构造上下文的词频向量。
11.根据权利要求10所述的装置,其特征在于,所述分类器模型的种类包括:
逻辑回归LR分类器、支持向量机SVM分类器或卷积神经网络CNN分类器。
12.根据权利要求11所述的装置,其特征在于,还包括:
拓展模块,用于根据所述目标恶意词汇的语义关系扩展所述目标恶意词汇的数量。
CN201710668043.0A 2017-08-07 2017-08-07 一种网页篡改的检测方法及装置 Active CN107437038B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710668043.0A CN107437038B (zh) 2017-08-07 2017-08-07 一种网页篡改的检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710668043.0A CN107437038B (zh) 2017-08-07 2017-08-07 一种网页篡改的检测方法及装置

Publications (2)

Publication Number Publication Date
CN107437038A true CN107437038A (zh) 2017-12-05
CN107437038B CN107437038B (zh) 2021-07-06

Family

ID=60459873

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710668043.0A Active CN107437038B (zh) 2017-08-07 2017-08-07 一种网页篡改的检测方法及装置

Country Status (1)

Country Link
CN (1) CN107437038B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108427881A (zh) * 2018-03-16 2018-08-21 北京知道创宇信息技术有限公司 网页篡改监控方法、装置、监控设备及可读存储介质
CN108830108A (zh) * 2018-06-04 2018-11-16 成都知道创宇信息技术有限公司 一种基于朴素贝叶斯算法的网页内容篡改检测方法
CN109165529A (zh) * 2018-08-14 2019-01-08 杭州安恒信息技术股份有限公司 一种暗链篡改检测方法、装置和计算机可读存储介质
CN109922065A (zh) * 2019-03-10 2019-06-21 北京亚鸿世纪科技发展有限公司 恶意网站快速识别方法
CN110647895A (zh) * 2018-06-26 2020-01-03 深信服科技股份有限公司 一种基于登录框图像的钓鱼页面识别方法及相关设备
CN111090731A (zh) * 2019-12-20 2020-05-01 山大地纬软件股份有限公司 基于主题聚类的电力舆情摘要提取优化方法及系统
CN111488452A (zh) * 2019-01-25 2020-08-04 深信服科技股份有限公司 一种网页篡改检测方法、检测系统及相关设备
CN111488622A (zh) * 2019-01-25 2020-08-04 深信服科技股份有限公司 一种网页篡改行为的检测方法、装置及相关组件
CN111539028A (zh) * 2020-04-23 2020-08-14 周婷 档案存储方法、装置、存储介质及电子设备
CN111563276A (zh) * 2019-01-25 2020-08-21 深信服科技股份有限公司 一种网页篡改检测方法、检测系统及相关设备
CN112528190A (zh) * 2020-12-23 2021-03-19 中移(杭州)信息技术有限公司 基于片化结构与内容的网页篡改评判方法、装置及存储介质
CN113407885A (zh) * 2021-06-23 2021-09-17 中移(杭州)信息技术有限公司 XPath数据篡改告警方法、装置、设备及可读存储介质
CN113806732A (zh) * 2020-06-16 2021-12-17 深信服科技股份有限公司 一种网页篡改检测方法、装置、设备及存储介质
EP3933636A4 (en) * 2019-01-25 2023-01-18 Sangfor Technologies Inc. METHOD AND RELATED DEVICE FOR DETECTING WEBSITE MANIPULATION

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101516071A (zh) * 2008-02-18 2009-08-26 中国移动通信集团重庆有限公司 垃圾短消息的分类方法
CN102169533A (zh) * 2011-05-11 2011-08-31 华南理工大学 一种商用网页恶意篡改检测方法
CN103593462A (zh) * 2013-11-25 2014-02-19 中国科学院深圳先进技术研究院 面向微博数据的流感疫情监测分析方法及系统
CN103853720A (zh) * 2012-11-28 2014-06-11 苏州信颐系统集成有限公司 基于用户关注度的网络敏感信息监控系统及方法
CN104036010A (zh) * 2014-06-25 2014-09-10 华东师范大学 一种基于半监督cbow的用户搜索词主题分类的方法
US20150112682A1 (en) * 2008-12-10 2015-04-23 Agnitio Sl Method for verifying the identity of a speaker and related computer readable medium and computer
CN106685963A (zh) * 2016-12-29 2017-05-17 济南大学 一种恶意网络流量词库的建立方法及建立系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101516071A (zh) * 2008-02-18 2009-08-26 中国移动通信集团重庆有限公司 垃圾短消息的分类方法
US20150112682A1 (en) * 2008-12-10 2015-04-23 Agnitio Sl Method for verifying the identity of a speaker and related computer readable medium and computer
CN102169533A (zh) * 2011-05-11 2011-08-31 华南理工大学 一种商用网页恶意篡改检测方法
CN103853720A (zh) * 2012-11-28 2014-06-11 苏州信颐系统集成有限公司 基于用户关注度的网络敏感信息监控系统及方法
CN103593462A (zh) * 2013-11-25 2014-02-19 中国科学院深圳先进技术研究院 面向微博数据的流感疫情监测分析方法及系统
CN104036010A (zh) * 2014-06-25 2014-09-10 华东师范大学 一种基于半监督cbow的用户搜索词主题分类的方法
CN106685963A (zh) * 2016-12-29 2017-05-17 济南大学 一种恶意网络流量词库的建立方法及建立系统

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108427881A (zh) * 2018-03-16 2018-08-21 北京知道创宇信息技术有限公司 网页篡改监控方法、装置、监控设备及可读存储介质
CN108830108A (zh) * 2018-06-04 2018-11-16 成都知道创宇信息技术有限公司 一种基于朴素贝叶斯算法的网页内容篡改检测方法
CN110647895A (zh) * 2018-06-26 2020-01-03 深信服科技股份有限公司 一种基于登录框图像的钓鱼页面识别方法及相关设备
CN109165529A (zh) * 2018-08-14 2019-01-08 杭州安恒信息技术股份有限公司 一种暗链篡改检测方法、装置和计算机可读存储介质
EP3933636A4 (en) * 2019-01-25 2023-01-18 Sangfor Technologies Inc. METHOD AND RELATED DEVICE FOR DETECTING WEBSITE MANIPULATION
CN111488452A (zh) * 2019-01-25 2020-08-04 深信服科技股份有限公司 一种网页篡改检测方法、检测系统及相关设备
CN111488622A (zh) * 2019-01-25 2020-08-04 深信服科技股份有限公司 一种网页篡改行为的检测方法、装置及相关组件
CN111563276A (zh) * 2019-01-25 2020-08-21 深信服科技股份有限公司 一种网页篡改检测方法、检测系统及相关设备
CN111563276B (zh) * 2019-01-25 2024-04-09 深信服科技股份有限公司 一种网页篡改检测方法、检测系统及相关设备
CN109922065A (zh) * 2019-03-10 2019-06-21 北京亚鸿世纪科技发展有限公司 恶意网站快速识别方法
CN109922065B (zh) * 2019-03-10 2021-03-23 北京亚鸿世纪科技发展有限公司 恶意网站快速识别方法
CN111090731A (zh) * 2019-12-20 2020-05-01 山大地纬软件股份有限公司 基于主题聚类的电力舆情摘要提取优化方法及系统
CN111539028A (zh) * 2020-04-23 2020-08-14 周婷 档案存储方法、装置、存储介质及电子设备
CN111539028B (zh) * 2020-04-23 2023-05-12 国网浙江省电力有限公司物资分公司 档案存储方法、装置、存储介质及电子设备
CN113806732A (zh) * 2020-06-16 2021-12-17 深信服科技股份有限公司 一种网页篡改检测方法、装置、设备及存储介质
CN113806732B (zh) * 2020-06-16 2023-11-03 深信服科技股份有限公司 一种网页篡改检测方法、装置、设备及存储介质
CN112528190A (zh) * 2020-12-23 2021-03-19 中移(杭州)信息技术有限公司 基于片化结构与内容的网页篡改评判方法、装置及存储介质
CN113407885A (zh) * 2021-06-23 2021-09-17 中移(杭州)信息技术有限公司 XPath数据篡改告警方法、装置、设备及可读存储介质
CN113407885B (zh) * 2021-06-23 2024-04-12 中移(杭州)信息技术有限公司 XPath数据篡改告警方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN107437038B (zh) 2021-07-06

Similar Documents

Publication Publication Date Title
CN107437038A (zh) 一种网页篡改的检测方法及装置
CN103744981B (zh) 一种基于网站内容用于网站自动分类分析的系统
WO2019218514A1 (zh) 网页目标信息的提取方法、装置及存储介质
CN106095928B (zh) 一种事件类型识别方法及装置
CN104408093B (zh) 一种新闻事件要素抽取方法与装置
CN106960063A (zh) 一种针对招商引资领域的互联网情报抓取和推荐系统
CN104239485B (zh) 一种基于统计机器学习的互联网暗链检测方法
CN104899508B (zh) 一种多阶段钓鱼网站检测方法与系统
CN103810162B (zh) 推荐网络信息的方法和系统
CN106599155A (zh) 一种网页分类方法及系统
CN107291723A (zh) 网页文本分类的方法和装置,网页文本识别的方法和装置
CN109033200A (zh) 事件抽取的方法、装置、设备及计算机可读介质
CN103838798B (zh) 页面分类系统及页面分类方法
CN102332028A (zh) 一种面向网页的不良Web内容识别方法
CN110516074B (zh) 一种基于深度学习的网站主题分类方法及装置
CN109299271A (zh) 训练样本生成、文本数据、舆情事件分类方法及相关设备
CN110727766A (zh) 敏感词的检测方法
CN107341183A (zh) 一种基于暗网网站综合特征的网站分类方法
CN110737821B (zh) 相似事件查询的方法、装置、存储介质和终端设备
CN106095939B (zh) 账户权限的获取方法和装置
CN107679135A (zh) 面向网络文本大数据的话题检测与跟踪方法、装置
CN110990676A (zh) 一种社交媒体热点主题提取方法与系统
CN106960040A (zh) 一种url的类别确定方法及装置
CN107368526A (zh) 一种数据处理方法及装置
CN107888606A (zh) 一种域名信誉度评估方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant