CN111079042A - 一种基于文本主题的网页暗链检测方法和装置 - Google Patents

一种基于文本主题的网页暗链检测方法和装置 Download PDF

Info

Publication number
CN111079042A
CN111079042A CN201911224958.8A CN201911224958A CN111079042A CN 111079042 A CN111079042 A CN 111079042A CN 201911224958 A CN201911224958 A CN 201911224958A CN 111079042 A CN111079042 A CN 111079042A
Authority
CN
China
Prior art keywords
webpage
detected
text information
text
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911224958.8A
Other languages
English (en)
Other versions
CN111079042B (zh
Inventor
范如
范渊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DBAPPSecurity Co Ltd
Original Assignee
DBAPPSecurity Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DBAPPSecurity Co Ltd filed Critical DBAPPSecurity Co Ltd
Priority to CN201911224958.8A priority Critical patent/CN111079042B/zh
Publication of CN111079042A publication Critical patent/CN111079042A/zh
Application granted granted Critical
Publication of CN111079042B publication Critical patent/CN111079042B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明提供了一种基于文本主题的网页暗链检测方法和装置,涉及网络安全的技术领域,包括:获取待检测网页,并基于待检测网页的文本信息构建LDA文档,其中,LDA文档中包含待检测网页的文本信息经过分词处理之后得到的分词集合;基于LDA文档,构建目标矩阵,其中,目标矩阵为基于待检测网页的文本信息的分词合集和待检测网页的文本信息的主题构建的矩阵;基于目标矩阵,确定出待检测网页的文本信息的语义特征和待检测网页的文本信息的统计特征;将待检测网页的文本信息的统计特征和待检测网页的文本信息的语义特征输入分类器,以确定待检测网页中是否存在网页暗链,解决了现有技术中对网页中的网页暗链进行检测的检测准确率较低的技术问题。

Description

一种基于文本主题的网页暗链检测方法和装置
技术领域
本发明涉及网络安全技术领域,尤其是涉及一种基于文本主题的网页暗链检测方法和装置。
背景技术
随着技术的发展,近年来网页篡改的手段不断更新,植入暗链的方式愈加趋于隐藏化与多样化,被篡改的网页宣传各种危险信息造成用户的安全隐患。
网页内容被篡改往往是为了获得更多流量的搜索,被篡改的内容通常表现在少数的主题上,如涉黄,涉堵,涉毒,非法广告等。正常网页中通常被植入大量与该主题相关的关键词,以此来提升网页在主题上的查询相关度。但是,现有技术中对网页中的网页暗链进行检测的检测准确率较低。
针对上述问题,还未提出有效的解决方案。
发明内容
有鉴于此,本发明的目的在于提供一种基于文本主题的网页暗链检测方法和装置,以缓解了现有技术中对网页中的网页暗链进行检测的检测准确率较低的技术问题。
第一方面,本发明实施例提供了一种基于文本主题的网页暗链检测方法,包括:获取待检测网页,并基于所述待检测网页的文本信息构建LDA文档,其中,所述LDA文档中包含所述待检测网页的文本信息经过分词处理之后得到的分词集合;基于所述LDA文档,构建目标矩阵,其中,所述目标矩阵为基于所述待检测网页的文本信息的分词合集和所述待检测网页的文本信息的主题构建的矩阵;基于所述目标矩阵,确定出所述待检测网页的文本信息的语义特征和所述待检测网页的文本信息的统计特征;将所述待检测网页的文本信息的统计特征和所述待检测网页的文本信息的语义特征输入分类器,以确定所述待检测网页中是否存在网页暗链。
进一步地,所述统计特征包括以下至少之一:标题词汇数量,关键词原标签词汇数量,锚文本数量,网页压缩率,所述待检测网页中无标记文本的长度与所述待检测网页的文本信息的总长度之间的比值。
进一步地,基于所述待检测网页的文本信息构建LDA文档,包括:对所述待检测网页的文本信息进行编码,得到所述待检测网页的第一目标文本;删除所述待检测网页的第一目标文本中的目标字符,得到所述待检测网页的第二目标文本,其中,所述目标字符包含以下至少之一:预设停用词,标点符号;对所述待检测网页的第二目标文本进行分词处理,得到所述待检测网页的分词集合Mj,将所述分词集合Mj确定为所述LDA文档,其中,Mj={wi|i=1,2.....,n},wi为所述第二目标文本中的第i个分词,n为所述第二目标文本包含的分词的数量。
进一步地,所述语义特征包括以下至少之一:任意两个主题之间的语义相似度,主题词汇分布倾斜度;
基于所述目标矩阵,确定出所述待检测网页的文本信息的语义特征和所述待检测网页的文本信息的统计特征,包括:基于所述目标矩阵,确定出所述待检测网页的文本信息的主题分布集合Z(x),其中,Z(x)={x1,x2,...xk},k为所述待检测网页的文本信息的主题的数量;结合预设算法和所述主题分布集合Z(x),计算出所述待检测网页的文本信息中任意两个主题之间的语义相似度,其中,预设算法为
Figure BDA0002301205500000031
sim(xp,xq)为主题xp和主题xq之间的语义相似度,sim(wv,wu)为分词wv和分词wu之间的语义相似度,
Figure BDA0002301205500000032
表示主题xp包含的分词的数量,
Figure BDA0002301205500000033
主题xq包含的分词的数量,φ(wv|xp)表示分词wv为主题xq包含的分词的概率,φ(wu|xq)表示分词wu为主题xq包含的分词的概率;结合所述目标矩阵、所述主题分布集合Z(x)和KL散度算法,计算出所述待检测网页的文本信息的KL散度值,并将所述KL散度值确定为所述主题词汇分布倾斜度;基于所述目标矩阵确定出所述统计特征。
进一步地,基于所述LDA文档,构建目标矩阵,包括:将所述LDA文档输入文本主题模型,得到目标矩阵,其中,所述目标矩阵包括以下至少之一:所述LDA文档的主题矩阵,每个主题对应的分词构建的矩阵。
第二方面,本发明实施例还提供了一种基于文本主题的网页暗链检测装置,包括:获取单元,构建单元,第一确定单元和第二确定单元,其中,所述获取单元用于获取待检测网页,并基于所述待检测网页的文本信息构建LDA文档,其中,所述LDA文档中包含所述待检测网页的文本信息经过分词处理之后得到的分词集合;所述构建单元用于基于所述LDA文档,构建目标矩阵,其中,所述目标矩阵为基于所述待检测网页的文本信息的分词合集和所述待检测网页的文本信息的主题构建的矩阵;所述第一确定单元用于基于所述目标矩阵,确定出所述待检测网页的文本信息的语义特征和所述待检测网页的文本信息的统计特征;所述第二确定单元用于将所述待检测网页的文本信息的统计特征和所述待检测网页的文本信息的语义特征输入分类器,以确定所述待检测网页中是否存在网页暗链。
进一步地,所述统计特征包括以下至少之一:标题词汇数量,关键词原标签词汇数量,锚文本数量,网页压缩率,所述待检测网页中无标记文本的长度与所述待检测网页的文本信息的总长度之间的比值。
进一步地,所述获取单元用于:对所述待检测网页的文本信息进行编码,得到所述待检测网页的第一目标文本;删除所述待检测网页的第一目标文本中的目标字符,得到所述待检测网页的第二目标文本,其中,所述目标字符包含以下至少之一:预设停用词,标点符号;对所述待检测网页的第二目标文本进行分词处理,得到所述待检测网页的分词集合Mj,将所述分词集合Mj确定为所述LDA文档,其中,Mj={wi|i=1,2.....,n},wi为所述第二目标文本中的第i个分词,n为所述第二目标文本包含的分词的数量。
第三方面,本发明实施例还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行第一方面所述的基于文本主题的网页暗链检测方法。
第四方面,本发明实施例还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面中所述的基于文本主题的网页暗链检测方法。
在本发明实施例中,首先,获取待检测网页,并基于待检测网页的文本信息构建LDA文档,其中,LDA文档中包含待检测网页的文本信息经过分词处理之后得到的分词集合;接着,基于LDA文档,构建目标矩阵,其中,目标矩阵为基于待检测网页的文本信息的分词合集和待检测网页的文本信息的主题构建的矩阵;然后,基于目标矩阵,确定出待检测网页的文本信息的语义特征和待检测网页的文本信息的统计特征;最后,将待检测网页的文本信息的统计特征和待检测网页的文本信息的语义特征输入分类器,以确定待检测网页中是否存在网页暗链。
在本申请实施例中,由于网页内容篡改通常是在网页内容中植入大量与网页内容的主题相关的关键词,从而提升网页在主题上的查询相关度,因此,通过目标矩,通过待检测网页的文本信息的分词合集和待检测网页的文本信息的主题组成的目标矩阵,确定出文本信息的语义特征和统计特征,并根据语义特征和统计特征,确定出待检测网页中是否包含网页暗链,达到了提高网页暗链检测的准确性的目的,进而解决了现有技术中对网页中的网页暗链进行检测的检测准确率较低的技术问题,从而实现了提高网页暗链检测的准确性的技术效果。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于文本主题的网页暗链检测方法的流程图;
图2为本发明实施例提供的一种LDA文档的构建方法的流程图;
图3为本发明实施例提供的一种基于文本主题的网页暗链检测装置的示意图;
图4为本发明实施例提供的一种服务器的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
网页内容被篡改时,植入的非法内容不仅在词汇数量,词汇频率等统计特征上和正常网页时不同的,而且在文本主题特征上也和正常网页具有区别。被篡改的网页通常是“非法关键词”堆积,这些非法关键词数量上比较多使得网页在被用户搜索时在靠前的位置被检索到,而且语义相近。并且这些词大多都是非法词汇,与网页的内容本身没有关系。具体的,网页内容篡改有以下几种形式:
关键字堆砌:在网页标题,文本和锚文本中大量堆砌关键词,来增加关键词的相关度和密度。
元标签填充:用户在页面无法看到的网页内容中,如title,keywords,description等标签加入大量关键词,而搜索引擎通常会参考这些信息去改进排序结果。
由于搜索引擎运用的是TFIDF(term frequency–inverse document frequency)等基于网页内容的评分模型对网页进行排序的,因此网页篡改通常针对该模型的内容上进行篡改。
根据上述特征,本申请提出一种基于文本主题的网页暗链检测方法和装置,对待检测网页中是否包含网页暗链进行检测,并通过下述的实施例对上述的基于文本主题的网页暗链检测方法和装置进行详细说明
实施例一:
根据本发明实施例,提供了一种基于文本主题的网页暗链检测方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种基于文本主题的网页暗链检测方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取待检测网页,并基于所述待检测网页的文本信息构建LDA文档,其中,所述LDA文档中包含所述待检测网页的文本信息经过分词处理之后得到的分词集合;
步骤S104,基于所述LDA文档,构建目标矩阵,其中,所述目标矩阵为基于所述待检测网页的文本信息的分词合集和所述待检测网页的文本信息的主题构建的矩阵;
步骤S106,基于所述目标矩阵,确定出所述待检测网页的文本信息的语义特征和所述待检测网页的文本信息的统计特征;
步骤S108,将所述待检测网页的文本信息的统计特征和所述待检测网页的文本信息的语义特征输入分类器,以确定所述待检测网页中是否存在网页暗链。
在本申请实施例中,由于网页内容篡改通常是在网页内容中植入大量与网页内容的主题相关的关键词,从而提升网页在主题上的查询相关度,因此,通过目标矩,通过待检测网页的文本信息的分词合集和待检测网页的文本信息的主题组成的目标矩阵,确定出文本信息的语义特征和统计特征,并根据语义特征和统计特征,确定出待检测网页中是否包含网页暗链,达到了提高网页暗链检测的准确性的目的,进而解决了现有技术中对网页中的网页暗链进行检测的检测准确率较低的技术问题,从而实现了提高网页暗链检测的准确性的技术效果。
LDA(Latent dirichlet allocation)是有Blei于2003年提出的三层贝叶斯主题模型,通过无监督的学习方法发现文本中隐含的主题信息,目的是要以无指导学习的方法从文本中发现隐含的语义维度-即“Topic”或者“Concept”。隐性语义分析的实质是要利用文本中词项(term)的共现特征来发现文本的Topic结构,这种方法不需要任何关于文本的背景知识。文本的隐性语义表示可以对“一词多义”和“一义多词”的语言现象进行建模,这使得搜索引擎系统得到的搜索结果与用户的query在语义层次上match,而不是仅仅只是在词汇层次上出现交集
需要说明的是,上述的统计特征包括:标题词汇数量,关键词原标签词汇数量,锚文本数量,网页压缩率,待检测网页中无标记文本的长度与待检测网页的文本信息的总长度之间的比值等特征。
由于,标题是网页内容的概括,在信息检索中具有很高的权重,被篡改的网页经常在网页标题中添加大量检索关键词,以增加检索范围和权重,导致其标题关键词汇远高于正常网页。
关键词元标签关键词填充是一种常见的网页暗链植入手段,部分被篡改的网页在关键词元标签中添加了大量关键词,导致其词汇数量远高于正常网页。
搜索引擎中,锚文本可以同时提高所在网页与指向网页的排名。被篡改的网页之间通常互相链接,并大量使用锚文本来增加彼此的权重,因此,被篡改的网页中通常具有更多的锚文本。
因为搜索引擎给予网页中多次出现的关键词较高的权重,因此被篡改的网页添加了大量的重复关键词与重复内容,造成网页内容冗余,对此可以用压缩率来测试网页的冗余。压缩率为网页压缩后的大小除以网页压缩之前的大小,具有较高重复内容的篡改网页,其压缩率远远小于正常网页,本发明采用gzip压缩算法来进行网页压缩。
HTML中的一些文本并不会被浏览器全部翻译出来,如HTML源码中的meta标签、还有一些alt属性标签,通常这些标签会被黑客篡改植入关键词用来隐藏,因此计算网页中无标记内容占比为无标记文本长度除以网页文本总长度,正常网页的排版会注重文本的修饰和网页的布局,无标记文本较少,而被篡改的网页注重关键词的堆砌,无标记的文本较多。
因此,通过获取上述的统计特征,并根据上述的统计特征来判断待检测网页中是否包含网页暗链能够有效的提高检测准确率。
在本发明实施例中,如图2所示,步骤S102还包括如下步骤:
步骤S11,对所述待检测网页的文本信息进行编码,得到所述待检测网页的第一目标文本;
步骤S12,删除所述待检测网页的第一目标文本中的目标字符,得到所述待检测网页的第二目标文本,其中,所述目标字符包含以下至少之一:预设停用词,标点符号;
步骤S13,对所述待检测网页的第二目标文本进行分词处理,得到所述待检测网页的分词集合Mj,将所述分词集合Mj确定为所述LDA文档,其中,Mj={wi|i=1,2.....,n},wi为所述第二目标文本中的第i个分词,n为所述第二目标文本包含的分词的数量。
在本发明实施例中,由于待检测网页是以HTML源码的形式存储在服务器中的,因此,需要对待检测网页进行编码,并去除编码之后的待检测网页中的注释,html标签,css标签与JavaScript内容等,从而得到待检测网页中的可见文本内容(即,第一目标文本)。
然后,删除目标文本中的预设停用词和标点符号,得到第二目标文本,通过删除目标文本中的预设停用词和标点符号,能够有效的提高后续对第二目标文本进行分词处理时的分词效率。
最后,对第二目标文本进行分词处理,得到待检测网页的分词集合Mj,并将分词集合Mj确定为所述LDA文档,Mj={wi|i=1,2.....,n},wi为第二目标文本中的第i个分词,n为第二目标文本包含的分词的数量。
在本发明实施例中,由于语义特征包括以下至少之一:任意两个主题之间的语义相似度,主题词汇分布倾斜度,因此,步骤S106还包括如下步骤:
步骤S21,基于所述目标矩阵,确定出所述待检测网页的文本信息的主题分布集合Z(x),其中,Z(x)={x1,x2,...xk},k为所述待检测网页的文本信息的主题的数量;
步骤S22,结合预设算法和所述主题分布集合Z(x),计算出所述待检测网页的文本信息中任意两个主题之间的语义相似度,其中,预设算法为
Figure BDA0002301205500000101
sim(xp,xq)为主题xp和主题xq之间的语义相似度,sim(wv,wu)为分词wv和分词wu之间的语义相似度,
Figure BDA0002301205500000102
表示主题xp包含的分词的数量,
Figure BDA0002301205500000103
主题xq包含的分词的数量,φ(wv|xp)表示分词wv为主题xq包含的分词的概率,φ(wu|xq)表示分词wu为主题xq包含的分词的概率;
步骤S23,结合所述目标矩阵、所述主题分布集合Z(x)和KL散度算法,计算出所述待检测网页的文本信息的KL散度值,并将所述KL散度值确定为所述主题词汇分布倾斜度;
步骤S24,基于所述目标矩阵确定出所述统计特征。
在本发明实施例中,由于目标矩阵为基于待检测网页的文本信息的分词合集和待检测网页的文本信息的主题构建的矩阵,因此,通过目标矩阵能够提取出待检测网页的文本信息中的主题,并根据提取出的主题,构建出主题分布集合Z(x),Z(x)={x1,x2,...xk},k为所述待检测网页的文本信息的主题的数量。
然后,结合预设算法和主题分布集合Z(x),计算出待检测网页的文本信息中任意两个主题之间的语义相似度,其中,预设算法为
Figure BDA0002301205500000111
sim(xp,xq)为主题xp和主题xq之间的语义相似度,sim(wv,wu)为分词wv和分词wu之间的语义相似度,
Figure BDA0002301205500000112
表示主题xp包含的分词的数量,
Figure BDA0002301205500000113
主题xq包含的分词的数量,φ(wv|xp)表示分词wv为主题xq包含的分词的概率,φ(wu|xq)表示分词wu为主题xq包含的分词的概率。
需要说明的是,上述的预设算法为Word2Vec算法。
由于被篡改的网页因为存在主题堆积现象,各个主题内关键词的语义相关度会比较高,因此,通过计算出待检测网页的文本信息中的任意两个主题之间的语义相似度,并根据语义相似度确定待检测网页中是否包含网页暗链,能够有效的提高检测准确率。
接着,结合目标矩阵、主题分布集合Z(x)和KL散度算法,计算出待检测网页的文本信息的KL散度值,并将KL散度值确定为所述主题词汇分布倾斜度。
由于网页的主题词汇偏斜度反映了网页内容总体的关键词分布,计算结果越小说明网页上各个关键词出现次数越平均,而被篡改的网页只是简单的对主题相关的关键词进行简单的填充,不符合自然语言中少数关键词出现频率较高的特点,这样的网页很大概率是被篡改的网页,因此,通过计算出待检测网页的文本信息的主题词汇分布倾斜度,并根据主题词汇分布倾斜度确定待检测网页中是否包含网页暗链,能够有效的提高检测准确率。
最后,由于语义特征提取完毕后,每个待测网页都会被表示为一个由语义相关特征和统计特征构成的特征向量,因此,在提取出语义特征之后,根据目标矩阵能够确定出统计特征。
在本发明实施例中,步骤S104还包括如下步骤:
步骤S31,将所述LDA文档输入文本主题模型,得到目标矩阵,其中,所述目标矩阵包括以下至少之一:所述LDA文档的主题矩阵,每个主题对应的分词构建的矩阵。
在本发明实施例中,将LDA文档输入文本主题模型,得到目标矩阵,目标矩阵包括:LDA文档的主题矩阵,每个主题对应的分词构建的矩阵。
需要说明的是,将LDA文档输入文本主题模型之后,除了能够得到目标矩阵以外,还能得到用于每个主题所对应的分词所组成的词汇表。
另外,还需要说明的是,上述的文本主题模型为LDA文本主题模型。
在本发明实施例中,步骤S108,将所述待检测网页的文本信息的统计特征和所述待检测网页的文本信息的语义特征输入分类器,以确定所述待检测网页中是否存在网页暗链。
需要说明的是,上述的分类器采用的是决策树分类器,其使用的算法为C4.5算法。
分类器为中存储有统计特征和语义特征所对应的权重值,因此,为了确定待检测网页中是否包含网页暗链,分类器会计算出各个统计特征与其对应的权重值的乘积,以及计算出各个语义特征预期对应的权重值的乘积,并计算出上述的乘积的和值,如果该和值大于预设阈值,则可以确定出待检测网页中包含网页暗链,反之,待检测网页中不包含网页暗链。
实施例二:
本发明还提供了一种基于文本主题的网页暗链检测装置的实施例,该系统用于执行本发明实施例上述内容所提供的基于文本主题的网页暗链检测方法,以下是本发明实施例提供的基于文本主题的网页暗链检测装置的具体介绍。
如图3所示,上述的基于文本主题的网页暗链检测装置,包括:获取单元10,构建单元20,第一确定单元30和第二确定单元40。
所述获取单元10用于获取待检测网页,并基于所述待检测网页的文本信息构建LDA文档,其中,所述LDA文档中包含所述待检测网页的文本信息经过分词处理之后得到的分词集合;
所述构建单元20用于基于所述LDA文档,构建目标矩阵,其中,所述目标矩阵为基于所述待检测网页的文本信息的分词合集和所述待检测网页的文本信息的主题构建的矩阵;
所述第一确定单元30用于基于所述目标矩阵,确定出所述待检测网页的文本信息的语义特征和所述待检测网页的文本信息的统计特征;
所述第二确定单元40用于将所述待检测网页的文本信息的统计特征和所述待检测网页的文本信息的语义特征输入分类器,以确定所述待检测网页中是否存在网页暗链。
在本申请实施例中,由于网页内容篡改通常是在网页内容中植入大量与网页内容的主题相关的关键词,从而提升网页在主题上的查询相关度,因此,通过目标矩,通过待检测网页的文本信息的分词合集和待检测网页的文本信息的主题组成的目标矩阵,确定出文本信息的语义特征和统计特征,并根据语义特征和统计特征,确定出待检测网页中是否包含网页暗链,达到了提高网页暗链检测的准确性的目的,进而解决了现有技术中对网页中的网页暗链进行检测的检测准确率较低的技术问题,从而实现了提高网页暗链检测的准确性的技术效果。
优选地,所述统计特征包括以下至少之一:标题词汇数量,关键词原标签词汇数量,锚文本数量,网页压缩率,所述待检测网页中无标记文本的长度与所述待检测网页的文本信息的总长度之间的比值。
优选地,所述获取单元用于:对所述待检测网页的文本信息进行编码,得到所述待检测网页的第一目标文本;删除所述待检测网页的第一目标文本中的目标字符,得到所述待检测网页的第二目标文本,其中,所述目标字符包含以下至少之一:预设停用词,标点符号;对所述待检测网页的第二目标文本进行分词处理,得到所述待检测网页的分词集合Mj,将所述分词集合Mj确定为所述LDA文档,其中,Mj={wi|i=1,2.....,n},wi为所述第二目标文本中的第i个分词,n为所述第二目标文本包含的分词的数量。
优选地,所述语义特征包括以下至少之一:任意两个主题之间的语义相似度,主题词汇分布倾斜度;所述第一确定单元用于:基于所述目标矩阵,确定出所述待检测网页的文本信息的主题分布集合Z(x),其中,Z(x)={x1,x2,...xk},k为所述待检测网页的文本信息的主题的数量;结合预设算法和所述主题分布集合Z(x),计算出所述待检测网页的文本信息中任意两个主题之间的语义相似度,其中,预设算法为
Figure BDA0002301205500000141
sim(xp,xq)为主题xp和主题xq之间的语义相似度,sim(wv,wu)为分词wv和分词wu之间的语义相似度,
Figure BDA0002301205500000142
表示主题xp包含的分词的数量,
Figure BDA0002301205500000143
主题xq包含的分词的数量,φ(wv|xp)表示分词wv为主题xq包含的分词的概率,φ(wu|xq)表示分词wu为主题xq包含的分词的概率;结合所述目标矩阵、所述主题分布集合Z(x)和KL散度算法,计算出所述待检测网页的文本信息的KL散度值,并将所述KL散度值确定为所述主题词汇分布倾斜度;基于所述目标矩阵确定出所述统计特征。
优选地,所述构建单元用于:将所述LDA文档输入文本主题模型,得到所述目标矩阵,其中,所述目标矩阵包括以下至少之一:所述LDA文档的主题矩阵,每个主题对应的分词构建的矩阵。
本发明实施例提供的一种具有处理器可执行的非易失的程序代码的计算机可读介质,程序代码使处理器执行上述实施例一中的基于文本主题的网页暗链检测方法
实施例三:
本发明实施例提供的一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例一中的基于文本主题的网页暗链检测方法。
参见图4,本发明实施例还提供一种服务器100,包括:处理器60,存储器61,总线62和通信接口63,所述处理器60、通信接口63和存储器61通过总线62连接;处理器60用于执行存储器61中存储的可执行模块,例如计算机程序。
其中,存储器61可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口63(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线62可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器61用于存储程序,所述处理器60在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器60中,或者由处理器60实现。
处理器60可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器60中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器60可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器61,处理器60读取存储器61中的信息,结合其硬件完成上述方法的步骤。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种基于文本主题的网页暗链检测方法,其特征在于,包括:
获取待检测网页,并基于所述待检测网页的文本信息构建LDA文档,其中,所述LDA文档中包含所述待检测网页的文本信息经过分词处理之后得到的分词集合;
基于所述LDA文档,构建目标矩阵,其中,所述目标矩阵为基于所述待检测网页的文本信息的分词合集和所述待检测网页的文本信息的主题构建的矩阵;
基于所述目标矩阵,确定出所述待检测网页的文本信息的语义特征和所述待检测网页的文本信息的统计特征;
将所述待检测网页的文本信息的统计特征和所述待检测网页的文本信息的语义特征输入分类器,以确定所述待检测网页中是否存在网页暗链。
2.根据权利要求1所述的方法,其特征在于,所述统计特征包括以下至少之一:标题词汇数量,关键词原标签词汇数量,锚文本数量,网页压缩率,所述待检测网页中无标记文本的长度与所述待检测网页的文本信息的总长度之间的比值。
3.根据权利要求1所述的方法,其特征在于,基于所述待检测网页的文本信息构建LDA文档,包括:
对所述待检测网页的文本信息进行编码,得到所述待检测网页的第一目标文本;
删除所述待检测网页的第一目标文本中的目标字符,得到所述待检测网页的第二目标文本,其中,所述目标字符包含以下至少之一:预设停用词,标点符号;
对所述待检测网页的第二目标文本进行分词处理,得到所述待检测网页的分词集合Mj,将所述分词集合Mj确定为所述LDA文档,其中,Mj={wi|i=1,2.....,n},wi为所述第二目标文本中的第i个分词,n为所述第二目标文本包含的分词的数量。
4.根据权利要求3所述的方法,其特征在于,所述语义特征包括以下至少之一:任意两个主题之间的语义相似度,主题词汇分布倾斜度;
基于所述目标矩阵,确定出所述待检测网页的文本信息的语义特征和所述待检测网页的文本信息的统计特征,包括:
基于所述目标矩阵,确定出所述待检测网页的文本信息的主题分布集合Z(x),其中,Z(x)={x1,x2,...xk},k为所述待检测网页的文本信息的主题的数量;
结合预设算法和所述主题分布集合Z(x),计算出所述待检测网页的文本信息中任意两个主题之间的语义相似度,其中,预设算法为
Figure FDA0002301205490000021
sim(xp,xq)为主题xp和主题xq之间的语义相似度,sim(wv,wu)为分词wv和分词wu之间的语义相似度,
Figure FDA0002301205490000022
表示主题xp包含的分词的数量,
Figure FDA0002301205490000023
主题xq包含的分词的数量,φ(wv|xp)表示分词wv为主题xq包含的分词的概率,φ(wu|xq)表示分词wu为主题xq包含的分词的概率;
结合所述目标矩阵、所述主题分布集合Z(x)和KL散度算法,计算出所述待检测网页的文本信息的KL散度值,并将所述KL散度值确定为所述主题词汇分布倾斜度;
基于所述目标矩阵确定出所述统计特征。
5.根据权利要求1所述的方法,其特征在于,基于所述LDA文档,构建目标矩阵,包括:
将所述LDA文档输入文本主题模型,得到所述目标矩阵,其中,所述目标矩阵包括以下至少之一:所述LDA文档的主题矩阵,每个主题对应的分词构建的矩阵。
6.一种基于文本主题的网页暗链检测装置,其特征在于,包括:获取单元,构建单元,第一确定单元和第二确定单元,其中,
所述获取单元用于获取待检测网页,并基于所述待检测网页的文本信息构建LDA文档,其中,所述LDA文档中包含所述待检测网页的文本信息经过分词处理之后得到的分词集合;
所述构建单元用于基于所述LDA文档,构建目标矩阵,其中,所述目标矩阵为基于所述待检测网页的文本信息的分词合集和所述待检测网页的文本信息的主题构建的矩阵;
所述第一确定单元用于基于所述目标矩阵,确定出所述待检测网页的文本信息的语义特征和所述待检测网页的文本信息的统计特征;
所述第二确定单元用于将所述待检测网页的文本信息的统计特征和所述待检测网页的文本信息的语义特征输入分类器,以确定所述待检测网页中是否存在网页暗链。
7.根据权利要求6所述的装置,其特征在于,所述统计特征包括以下至少之一:标题词汇数量,关键词原标签词汇数量,锚文本数量,网页压缩率,所述待检测网页中无标记文本的长度与所述待检测网页的文本信息的总长度之间的比值。
8.根据权利要求6所述的装置,其特征在于,所述获取单元用于:
对所述待检测网页的文本信息进行编码,得到所述待检测网页的第一目标文本;
删除所述待检测网页的第一目标文本中的目标字符,得到所述待检测网页的第二目标文本,其中,所述目标字符包含以下至少之一:预设停用词,标点符号;
对所述待检测网页的第二目标文本进行分词处理,得到所述待检测网页的分词集合Mj,将所述分词集合Mj确定为所述LDA文档,其中,Mj={wi|i=1,2.....,n},wi为所述第二目标文本中的第i个分词,n为所述第二目标文本包含的分词的数量。
9.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行上述权利要求1至5中任一项所述的基于文本主题的网页暗链检测方法。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至5中任一项所述的基于文本主题的网页暗链检测方法。
CN201911224958.8A 2019-12-03 2019-12-03 一种基于文本主题的网页暗链检测方法和装置 Active CN111079042B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911224958.8A CN111079042B (zh) 2019-12-03 2019-12-03 一种基于文本主题的网页暗链检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911224958.8A CN111079042B (zh) 2019-12-03 2019-12-03 一种基于文本主题的网页暗链检测方法和装置

Publications (2)

Publication Number Publication Date
CN111079042A true CN111079042A (zh) 2020-04-28
CN111079042B CN111079042B (zh) 2023-08-15

Family

ID=70312687

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911224958.8A Active CN111079042B (zh) 2019-12-03 2019-12-03 一种基于文本主题的网页暗链检测方法和装置

Country Status (1)

Country Link
CN (1) CN111079042B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487321A (zh) * 2020-12-08 2021-03-12 北京天融信网络安全技术有限公司 一种检测方法、装置、存储介质及电子设备
CN113742785A (zh) * 2020-05-28 2021-12-03 深信服科技股份有限公司 一种网页分类方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102938042A (zh) * 2012-10-30 2013-02-20 北京神州绿盟信息安全科技股份有限公司 网页篡改检测方法及装置
CN104239485A (zh) * 2014-09-05 2014-12-24 中国科学院计算机网络信息中心 一种基于统计机器学习的互联网暗链检测方法
CN106055538A (zh) * 2016-05-26 2016-10-26 达而观信息科技(上海)有限公司 主题模型和语义分析相结合的文本标签自动抽取方法
US20180239825A1 (en) * 2017-02-23 2018-08-23 Innoplexus Ag Method and system for performing topic-based aggregation of web content
CN110442823A (zh) * 2019-08-06 2019-11-12 北京智游网安科技有限公司 网站分类方法、网站类型判断方法、存储介质及智能终端

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102938042A (zh) * 2012-10-30 2013-02-20 北京神州绿盟信息安全科技股份有限公司 网页篡改检测方法及装置
CN104239485A (zh) * 2014-09-05 2014-12-24 中国科学院计算机网络信息中心 一种基于统计机器学习的互联网暗链检测方法
CN106055538A (zh) * 2016-05-26 2016-10-26 达而观信息科技(上海)有限公司 主题模型和语义分析相结合的文本标签自动抽取方法
US20180239825A1 (en) * 2017-02-23 2018-08-23 Innoplexus Ag Method and system for performing topic-based aggregation of web content
CN110442823A (zh) * 2019-08-06 2019-11-12 北京智游网安科技有限公司 网站分类方法、网站类型判断方法、存储介质及智能终端

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孟雷: "《多域识别构建监督学习模型检测网页暗链》" *
魏文晗;邓一贵;: "基于局部变化性的网页篡改识别模型及方法" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113742785A (zh) * 2020-05-28 2021-12-03 深信服科技股份有限公司 一种网页分类方法、装置、电子设备及存储介质
CN112487321A (zh) * 2020-12-08 2021-03-12 北京天融信网络安全技术有限公司 一种检测方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN111079042B (zh) 2023-08-15

Similar Documents

Publication Publication Date Title
Sun et al. Dom based content extraction via text density
US8635061B2 (en) Language identification in multilingual text
US8630972B2 (en) Providing context for web articles
US8645391B1 (en) Attribute-value extraction from structured documents
US20130110839A1 (en) Constructing an analysis of a document
CN102436563B (zh) 一种检测页面篡改的方法及装置
US20170185680A1 (en) Chinese website classification method and system based on characteristic analysis of website homepage
US20120030200A1 (en) Topics in relevance ranking model for web search
CN111967063B (zh) 一种基于多维度分析的数据篡改监测和识别方法、装置、电子设备及其存储介质
US20200004792A1 (en) Automated website data collection method
CN105975459B (zh) 一种词项的权重标注方法和装置
US20140067784A1 (en) Webpage information detection method and system
US11907644B2 (en) Detecting compatible layouts for content-based native ads
CN102446255A (zh) 一种检测页面篡改的方法及装置
CN102591965A (zh) 一种黑链检测的方法及装置
CN111079042B (zh) 一种基于文本主题的网页暗链检测方法和装置
CN110569349A (zh) 基于大数据的患教文章推送方法、系统、设备及存储介质
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN104036190A (zh) 一种检测页面篡改的方法及装置
CN104036189A (zh) 页面篡改检测方法及黑链数据库生成方法
CN111737627A (zh) 一种页面敏感性检测方法、装置、电子设备和存储介质
CN104077353B (zh) 一种黑链检测的方法及装置
CN111985212A (zh) 文本关键字识别方法、装置、计算机设备及可读存储介质
CN116830099A (zh) 基于网页的统一资源定位符推断关于网页的信息
CN111563276B (zh) 一种网页篡改检测方法、检测系统及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant