CN114817808A - 非法网站识别方法、装置、电子装置和存储介质 - Google Patents

非法网站识别方法、装置、电子装置和存储介质 Download PDF

Info

Publication number
CN114817808A
CN114817808A CN202210457027.8A CN202210457027A CN114817808A CN 114817808 A CN114817808 A CN 114817808A CN 202210457027 A CN202210457027 A CN 202210457027A CN 114817808 A CN114817808 A CN 114817808A
Authority
CN
China
Prior art keywords
website
illegal
feature vector
identified
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210457027.8A
Other languages
English (en)
Inventor
陈兰兰
宓晨希
范渊
黄进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DBAPPSecurity Co Ltd
Original Assignee
DBAPPSecurity Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DBAPPSecurity Co Ltd filed Critical DBAPPSecurity Co Ltd
Priority to CN202210457027.8A priority Critical patent/CN114817808A/zh
Publication of CN114817808A publication Critical patent/CN114817808A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本申请涉及一种非法网站识别方法、装置、电子装置和存储介质,其中,该非法网站识别方法包括:获取待识别网站的第一特征向量,所述第一特征向量基于所述待识别网站的网页文本内容生成;将所述待识别网站的第一特征向量输入至预先训练得到的网站分类模型进行识别,以获得疑似非法网站;获取所述疑似非法网站的第二特征向量,所述第二特征向量基于所述疑似非法的网页要素生成;将所述疑似非法网站的第二特征向量输入至预先训练得到的集成算法模型进行识别,以获得所述非法网站。通过本申请,解决了现有技术中存在的网站识别效率低、准确率低的问题,实现了在海量网站中精确高效地识别非法网站的效果。

Description

非法网站识别方法、装置、电子装置和存储介质
技术领域
本申请涉及网络安全领域,特别是涉及一种非法网站识别方法、装置、电子装置和存储介质。
背景技术
随着互联网快速发展,各种类型的非法网站层出不穷,给群众带来了一定的受害风险。由于非法经营网站存在变化快、分布广等特点,且一些网页篡改网站与非法经营网站存在共性,容易导致判断失误,而网络安全维护人员需要快速取证并及时准确地封堵该类网站。因此需要一种快速准确的识别非法经营网站的方法,协助侦查人员精准发现、及时封堵,降低群众受害风险。
相关技术中存在着两种非法网站识别方法:
一是通过积累非法经营关键词,采用关键词匹配的网站识别方法;但是该方法识别准确率太低。
二是结合自然语义和图像处理模型的网站识别方法,先通过自然语义算法初步识别非法网站,再利用图像处理模型进一步识别出非法网站;但是该方法识别效率较低、性能要求较高,由于图像识别算法复杂度高,因此不利于识别海量数据。
针对相关技术中存在的网站识别效率低、准确率低的问题,目前还没有提出有效的解决方案。
发明内容
在本实施例中提供了一种非法网站识别方法、装置、电子装置和存储介质,以解决相关技术中存在的网站识别效率低、准确率低的问题。
第一个方面,在本实施例中提供了一种非法网站识别方法,包括如下步骤:
获取待识别网站的第一特征向量,所述第一特征向量基于所述待识别网站的网页文本内容生成;
将所述待识别网站的第一特征向量输入至预先训练得到的网站分类模型进行识别,以获得疑似非法网站;
获取所述疑似非法网站的第二特征向量,所述第二特征向量基于所述疑似非法的网页要素生成;
将所述疑似非法网站的第二特征向量输入至预先训练得到的集成算法模型进行识别,以获得所述非法网站。
在其中的一些实施例中,所述获取待识别网站的第一特征向量包括:
获取所述待识别网站的源码数据,并对所述待识别网站的源码数据进行预处理,以获得所述待识别网站的网页文本内容;
对所述待识别网站的网页文本内容按字粒度进行分割,得到所述待识别网站的第一特征;
对所述待识别网站的第一特征进行向量化处理,得到所述第一特征向量。
在其中的一些实施例中,所述获取所述疑似非法网站的第二特征向量包括:
获取所述疑似非法网站的源码数据,基于所述疑似非法网站的源码数据,提取所述疑似非法网站的网页要素作为所述第二特征;
对所述疑似非法网站的第二特征进行向量化处理,得到所述第二特征向量。
在其中的一些实施例中,所述网站分类模型为基于注意力机制的双向长短期记忆网络模型;
所述集成算法模型采用Boosting集成算法。
在其中的一些实施例中,所述网站分类模型的训练方法包括:
获取第一样本网站的源码数据,并对所述第一样本网站的源码数据进行预处理,以获得所述第一样本网站的网页文本内容,其中所述第一样本网站包括合法网站和非法网站;
对所述第一样本网站的网页文本内容按字粒度进行分割,得到所述第一样本网站的第一特征;
对所述第一样本网站的第一特征进行向量化处理,得到所述第一样本网站的第一特征向量;
将所述第一样本网站的第一特征向量输入至待训练的网站分类模型进行训练,以得到训练完备的网站分类模型。
在其中的一些实施例中,所述集成算法模型的训练方法包括:
获取第二样本网站的源码数据,基于所述第二样本网站的源码数据,提取所述第二样本网站的网页要素作为第二特征,其中所述第二样本网站包括网页篡改网站和非法网站;
将所述第二样本网站的第二特征进行向量化,得到所述第二样本网站的第二特征向量;
将所述第二样本网站的第二特征向量输入至待训练的集成算法模型进行训练,以得到训练完备的集成算法模型。
第二个方面,在本实施例中提供了一种非法网站识别装置,所述装置包括:第一获取模块、第一识别模块、第二获取模块和第二识别模块;
所述第一获取模块用于获取待识别网站的第一特征向量,所述第一特征向量基于所述待识别网站的网页文本内容生成;
所述第一识别模块用于将所述待识别网站的第一特征向量输入至预先训练得到的网站分类模型进行识别,以获得疑似非法网站;
所述第二获取模块用于获取所述疑似非法网站的第二特征向量,所述第二特征向量基于所述疑似非法的网页要素生成;
所述第二识别模块用于将所述疑似非法网站的第二特征向量输入至预先训练得到的集成算法模型进行识别,以获得所述非法网站。
在其中的一些实施例中,所述网站分类模型为基于注意力机制的双向长短期记忆网络模型;
所述集成算法模型采用Boosting集成算法。
第三个方面,在本实施例中提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一个方面所述的非法网站识别方法。
第四个方面,在本实施例中提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一个方面所述的非法网站识别方法。
与相关技术相比,在本实施例中提供的非法网站识别方法,通过提取待识别网站的网页文本内容,然后将网页文本内容转化为低维稠密向量,输入到网站分类模型中进行初步分类,筛选出疑似非法网站;再采用集成算法模型对疑似非法网站提取特征后进一步分类,识别出非法网站和网页篡改网站,解决了现有技术中存在的网站识别效率低、准确率低的问题,实现了在海量网站中精确高效地识别非法网站的效果。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本实施例的一种非法网站识别方法的终端的硬件结构框图。
图2是本实施例的一种非法网站识别方法的流程图。
图3是本实施例中一种网站分类模型的训练方法。
图4是本实施例中一种集成算法模型的训练方法。
图5是本优选实施例的一种非法网站识别方法的流程图。
图6是本实施例的一种非法网站识别装置的结构框图。
具体实施方式
为更清楚地理解本申请的目的、技术方案和优点,下面结合附图和实施例,对本申请进行了描述和说明。
除另作定义外,本申请所涉及的技术术语或者科学术语应具有本申请所属技术领域具备一般技能的人所理解的一般含义。在本申请中的“一”、“一个”、“一种”、“该”、“这些”等类似的词并不表示数量上的限制,它们可以是单数或者复数。在本申请中所涉及的术语“包括”、“包含”、“具有”及其任何变体,其目的是涵盖不排他的包含;例如,包含一系列步骤或模块(单元)的过程、方法和系统、产品或设备并未限定于列出的步骤或模块(单元),而可包括未列出的步骤或模块(单元),或者可包括这些过程、方法、产品或设备固有的其他步骤或模块(单元)。在本申请中所涉及的“连接”、“相连”、“耦接”等类似的词语并不限定于物理的或机械连接,而可以包括电气连接,无论是直接连接还是间接连接。在本申请中所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。通常情况下,字符“/”表示前后关联的对象是一种“或”的关系。在本申请中所涉及的术语“第一”、“第二”、“第三”等,只是对相似对象进行区分,并不代表针对对象的特定排序。
在本实施例中提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。比如在终端上运行,图1是本实施例的一种非法网站识别方法的终端的硬件结构框图。如图1所示,终端可以包括一个或多个(图1中仅示出一个)处理器102和用于存储数据的存储器104,其中,处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置。上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述终端的结构造成限制。例如,终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示出的不同配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如在本实施例中的非法网站识别方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络包括终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(NetworkInterface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种非法网站识别方法,图2是本实施例的一种非法网站识别方法的流程图,如图2所示,该流程包括如下步骤:
步骤S210,获取待识别网站的第一特征向量,所述第一特征向量基于所述待识别网站的网页文本内容生成。
具体的本步骤中,识别终端首先获取待识别网站,然后提取待识别网站中的第一特征向量,该第一特征向量用于初步判断待识别网站是否为非法网站。其中具体的,第一特征向量基于待识别网站的网页文本内容生成,因此该步骤中,在获取第一特征向量之前,还需要先获取待识别网站的网页文本内容。示例性地,获取网页文本内容的步骤为:获取待识别网站的源码数据,并对待识别网站的源码数据进行预处理,以获得待识别网站的网页文本内容;在该实施例中,识别终端从待识别网站的html源码数据中提取网页文本内容;然后对获取到的待识别网站的网页文本内容按字粒度进行分割,得到待识别网站的第一特征;最后对待识别网站的第一特征进行向量化处理,得到第一特征向量。其中具体的,采用自然语言处理词嵌入方法将第一特征转化为低维稠密向量,以实现第一特征的向量化操作。
步骤S220,将待识别网站的第一特征向量输入至预先训练得到的网站分类模型进行识别,以获得疑似非法网站。
具体的本步骤中,识别终端将待识别网站的第一特征向量输入至预先训练得到的网站分类模型中进行识别,从而实现本实施例中待识别网站的初步筛选,网站分类模型的结果输出即为疑似非法网站,疑似非法网站还需通过集成算法模型进一步的筛选识别。其中网站分类模型为一种神经网络模型。示例性地,网站分类模型可以为基于注意力机制的双向长短期记忆网络模型;该组合神经网络模型是在双向长短期记忆网络模型上加入注意力机制层。在双向长短期记忆网络模型中通常用最后一个时序的输出向量作为特征向量,然后进行softmax分类;而注意力机制则是先计算每个时序的权重,然后将所有时序的向量进行加权和作为特征向量,然后进行softmax分类,加入注意力机制层可以提升模型效果。
步骤S230,获取疑似非法网站的第二特征向量,第二特征向量基于疑似非法的网页要素生成。
具体的本步骤中,识别终端识别出疑似非法网站,其中疑似非法网站中可能包括网页篡改网站,这是由于部分网页篡改网站和非法网站具有一定共性造成的,因此疑似非法网站还需要进一步地识别筛分,筛分出疑似非法网站中可能存在的网页篡改网站。其中网页篡改网站是指被攻击后、被恶意篡改网页内容的合法网站,一般网页篡改的网站会被添加涉及非法暗链或文字内容来引流,因此网页篡改网站本质上属于合法网站,但是被恶意攻击篡改后具有一些非法元素,所以需要将网页篡改网站与非法网站作区分。基于此需要提取疑似非法网站的第二特征向量,该第二特征向量用于进一步识别疑似非法网站是否为非法网站。其中具体的,第二特征向量基于疑似非法网站的网页要素生成,因此该步骤中在获取第二特征向量之前,还需要先获取疑似非法网站的网页要素。示例性地,获取疑似非法网站的网页要素的步骤为:获取疑似非法网站的源码数据,基于疑似非法网站的源码数据,提取疑似非法网站的网页要素作为第二特征。在该实施例中,基于疑似非法网站的html源码数据,获取相应疑似非法网站的网页要素作为第二特征,其中网页要素包括ICP备案号、Javascript代码、内链、匹配的正规网站关键词以及其他网页要素等。其中非法网站一般不包含ICP备案号,而网页篡改网站一般是合法网站所以包含ICP备案号,所以可将疑似非法网站是否包含ICP备案号作为判断网站类型的因素之一;同时非法网站和网页篡改网站的Javascript代码函数数量、内链数量、匹配的正规网站关键词数量以及其他要素存在一定的统计规律,因此可将两者在网页要素统计规律上的差异作为判断网站类型的因素之一。最后将获取到的上述网页要素作为第二特征并进行向量化处理,最终得到疑似非法网站的第二特征向量。
步骤S240,将疑似非法网站的第二特征向量输入至预先训练得到的集成算法模型进行识别,以获得非法网站。
具体的本步骤中,识别终端将疑似非法网站的第二特征向量输入至预先训练得到的集成算法模型中进行识别,该集成算法模型可进一步的对疑似非法网站进行识别,最终准确的识别出非法网站。该集成算法模型主要用于筛分疑似非法网站中的网页篡改网站和非法网站,在现有技术中,由于部分网页篡改网站和非法网站具有共性,导致现有识别方法容易出现网站识别错误,即容易将网页篡改网站识别为非法网站,而网页篡改网站一般为合法网站。本实施例中采用集成算法模型对疑似非法网站进一步识别筛分,能够有效的区分网页篡改网站和非法网站,以解决现有技术中网页篡改网站和非法网站难以区别的问题。示例性地,该集成算法模型采用Boosting集成算法;Boosting集成算法是集成学习的重要分支,其核心思想就是通过弱分类器的不断集成,形成一个强分类器。具体地,每轮迭代产生的新分类器都是重点改进之前轮次没有处理好的地方,这样新产生的分类器与之前分类器的集成就能够产生一个更强的分类器,重复这一过程,直到达到任务目标。常用的Boosting算法有AdaBoost、XGBoost、GBDT等。
通过上述步骤,首先提取待识别网站的网页文本内容,然后结合自然语言处理词嵌入方法将网页文本内容转化为低维稠密向量,输入到基于注意力机制的双向长短期记忆网络模型进行初步分类,筛选出疑似非法网站;再采用Boosting集成算法模型对疑似非法网站提取特征后进一步分类,识别出非法网站和网页篡改网站。相比于现有技术,本发明采用的技术方案中融合深度学习和集成学习算法,实现在海量网站中精确高效地识别非法网站,解决了现有技术中存在的网站识别效率低、准确率低的问题。
图3是本实施例中一种网站分类模型的训练方法,如图3所示,在其中的一些实施例中,网站分类模型的训练方法包括:
步骤S310,获取第一样本网站的源码数据,并对第一样本网站的源码数据进行预处理,以获得第一样本网站的网页文本内容,其中第一样本网站包括合法网站和非法网站;
步骤S320,对第一样本网站的网页文本内容按字粒度进行分割,得到第一样本网站的第一特征;
步骤S330,对第一样本网站的第一特征进行向量化处理,得到第一样本网站的第一特征向量;
步骤S340,将第一样本网站的第一特征向量输入至待训练的网站分类模型进行训练,以得到训练完备的网站分类模型。
具体的本实施例中,网站分类模型的训练过程与网站的分类识别过程类似。首先需要获取第一样本网站的http源码数据,并基于该http源码数据获取相应样本网站的网页文本内容;其中第一样本网站的样本集中包含已标识为合法和非法的样本网站。然后对前述网页文本内容按字粒度进行分割,得到第一样本网站的第一特征,再通过自然语言处理词嵌入技术对第一特征进行向量化,从而得到第一样本网站的第一特征向量。最后将第一样本网站的第一特征向量输入至待训练的网站分类模型中,对相应的神经网络模型进行训练,最终获得训练完备的网站分类模型。该网站分类模型用于初步判断待识别网站是否为非法网站,以区分非法网站和疑似非法网站。
图4是本实施例中一种集成算法模型的训练方法,如图4所示,在其中的一些实施例中,集成算法模型的训练方法包括:
步骤S410,获取第二样本网站的源码数据,基于第二样本网站的源码数据,提取第二样本网站的网页要素作为第二特征,其中第二样本网站包括网页篡改网站和非法网站;
步骤S420,将第二样本网站的第二特征进行向量化,得到第二样本网站的第二特征向量;
步骤S430,将第二样本网站的第二特征向量输入至待训练的集成算法模型进行训练,以得到训练完备的集成算法模型。
具体的本实施例中,集成算法模型的训练过程与网站的分类识别过程类似。首先需要获取第二样本网站的http源码数据,并基于该http源码数据获取相应样本网站的网页要素作为第二特征,第二样本网站的第二特征包括ICP备案号、Javascript代码、内链、匹配的正规网站关键词以及其他网页要素等;其中第二样本网站的样本集包括已经标识为非法和网页篡改的样本网站。然后对获取到的第二特征进行向量化处理,从而得到第二样本网站的第二特征向量。最后将第二样本网站的第二特征向量输入至待训练的集成算法模型中,对相应的集成算法模型进行训练,最终获得训练完备的集成算法模型。该集成算法模型用于进一步地对网站分类模型输出的疑似非法网站进行识别筛分,主要为区分疑似非法网站中的网页篡改网站和非法网站,从而最终精准识别出非法网站。
下面通过优选实施例对本实施例进行描述和说明。
图5是本优选实施例的一种非法网站识别方法的流程图。如图5所示,该流程步骤包括:
步骤S510,获取待识别网站的html源码数据;具体的本步骤中,向识别终端中输入待识别网站,然后识别终端获取待识别网站的html源码数据。
步骤S520,获取待识别网站的网页文本内容特征;具体的本步骤中,基于上个步骤中获取的html源码数据,提取待识别网站的网页文本内容特征,并将网页文本内容特征以字粒度分割;
步骤S530,向量化待识别网站的网页文本内容特征;具体的本步骤中,采用自然语言处理词嵌入技术对分割后的网页文本内容特征进行处理,从而生成字向量;
步骤S540,将向量化的网页文本内容特征输入到已训练好的第一模型中,通过第一模型预测待识别网站是否为疑似非法经营网站;具体的本步骤中,第一模型网站为基于注意力机制的双向长短期记忆网络模型;若第一模型的输出结果为疑似非法经营网站,则继续下一步,否则直接结束。需要说明的是,基于注意力机制的双向长短期记忆网络可以用于文本分类。该组合模型是在BiLSTM模型上加入Attention层,在BiLSTM中通常用最后一个时序的输出向量作为特征向量,然后进行softmax分类,而Attention则是先计算每个时序的权重,然后将所有时序的向量进行加权和作为特征向量,然后进行softmax分类,加入Attention层可以提升模型效果。
步骤S550,基于疑似非法经营网站的html源码特征,提取疑似非法经营网站的网页要素特征;具体的本步骤中,识别终端提取ICP备案号、Javascript代码、内链、匹配的正规网站关键词以及其他网页要素作为特征,再对该网页要素特征进行向量化;
步骤S560,将向量化的网页要素特征输入到已训练好的第二模型中,通过第二模型预测疑似非法经营网站是否为非法经营网站;具体的本步骤中,第二模型为Boosting集成算法模型;通过第二模型进一步区分疑似非法经营网站中的网页篡改网站和非法经营网站。需要说明的是,Boosting集成算法是集成学习的重要分支,其核心思想就是通过弱分类器的不断集成,形成一个强分类器。具体地,每轮迭代产生的新分类器都是重点改进之前轮没有处理好的地方,这样新产生的分类器与之前分类器的集成就能够产生一个更强的分类器,重复这一过程,直到达到任务目标。这也是此类集成算法被称为Boosting的原因。常用的Boosting算法有AdaBoost、XGBoost、GBDT等。
本实施例中提供了一种优选的非法网站识别方法。非法网站识别原理是对采集的待识别网站提取网页文本内容,结合自然语言处理词嵌入方法将文本内容转化为低维稠密向量,输入到BiLSTM-Attention(基于注意力机制的双向长短期记忆网络)模型进行初步分类,筛选出疑似非法经营网站,再采用Boosting集成算法对标记对疑似非法经营的网站提取特征后进一步分类,识别出非法经营和网页篡改网站。关键点在于融合深度学习和集成学习算法,实现在海量网站中精确高效地识别非法经营网站。
在本优选实施例中还提供了一种基于注意力机制的双向长短期记忆网络模型的训练方法,该训练方法包括如下步骤:
标签样本收集:收集已标识为合法网站和疑似非法经营网站的html源码数据用于训练模型;
特征提取:对已标识为合法网站和疑似非法经营网站的html源码数据进行数据预处理,提取网页文本内容;
向量生成:对提取的网页文本内容按字粒度进行分割得到特征,通过自然语言处理词嵌入技术训练字向量,得到字向量模型;
模型训练:将特征向量数据输入基于注意力机制的双向长短期记忆网络模型进行训练,得到用于识别是否为疑似非法经营网站的分类模型。
具体的本实施例中,基于注意力机制的双向长短期记忆网络模型训练参数如下:
Figure BDA0003620776830000101
在本优选实施例中还提供了一种集成算法模型的训练方法,该训练方法包括如下步骤:
标签样本收集:收集已标识为网页篡改网站和非法经营网站的html源码数据用于训练模型;
特征提取:根据网页篡改和非法经营两类网站的特征,提取ICP备案号、Javascript代码、内链、匹配的正规网站关键词以及其他网页要素作为特征,再对特征进行量化;
模型训练:将特征向量数据输入集成算法模型进行训练,得到用于识别是否为非法经营网站的分类模型。
在本实施例中还提供了一种非法网站识别装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。以下所使用的术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图6是本实施例的一种非法网站识别装置的结构框图,如图6所示,该装置包括:第一获取模块610、第一识别模块620、第二获取模块630和第二识别模块640。
第一获取模块610用于获取待识别网站的第一特征向量,第一特征向量基于待识别网站的网页文本内容生成;具体的第一获取模块用于获取待识别网站的源码数据,并对待识别网站的源码数据进行预处理,以获得待识别网站的网页文本内容,对待识别网站的网页文本内容按字粒度进行分割,得到待识别网站的第一特征,对待识别网站的第一特征进行向量化处理,得到第一特征向量。
第一识别模块620用于将待识别网站的第一特征向量输入至预先训练得到的网站分类模型进行识别,以获得疑似非法网站;具体的,网站分类模型为基于注意力机制的双向长短期记忆网络模型。
第二获取模块630用于获取疑似非法网站的第二特征向量,第二特征向量基于疑似非法的网页要素生成;具体的,第二获取模块用于获取疑似非法网站的源码数据,基于疑似非法网站的源码数据,提取疑似非法网站的网页要素作为第二特征,对疑似非法网站的第二特征进行向量化处理,得到第二特征向量。
第二识别模块640用于将疑似非法网站的第二特征向量输入至预先训练得到的集成算法模型进行识别,以获得非法网站;具体的集成算法模型采用Boosting集成算法。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
在本实施例中还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
步骤S210,获取待识别网站的第一特征向量,第一特征向量基于待识别网站的网页文本内容生成。
步骤S220,将待识别网站的第一特征向量输入至预先训练得到的网站分类模型进行识别,以获得疑似非法网站。
步骤S230,获取疑似非法网站的第二特征向量,第二特征向量基于疑似非法的网页要素生成。
步骤S240,将疑似非法网站的第二特征向量输入至预先训练得到的集成算法模型进行识别,以获得非法网站。
需要说明的是,在本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,在本实施例中不再赘述。
此外,结合上述实施例中提供的非法网站识别方法,在本实施例中还可以提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种非法网站识别方法。
应该明白的是,这里描述的具体实施例只是用来解释这个应用,而不是用来对它进行限定。根据本申请提供的实施例,本领域普通技术人员在不进行创造性劳动的情况下得到的所有其它实施例,均属本申请保护范围。
显然,附图只是本申请的一些例子或实施例,对本领域的普通技术人员来说,也可以根据这些附图将本申请适用于其他类似情况,但无需付出创造性劳动。另外,可以理解的是,尽管在此开发过程中所做的工作可能是复杂和漫长的,但是,对于本领域的普通技术人员来说,根据本申请披露的技术内容进行的某些设计、制造或生产等更改仅是常规的技术手段,不应被视为本申请公开的内容不足。
“实施例”一词在本申请中指的是结合实施例描述的具体特征、结构或特性可以包括在本申请的至少一个实施例中。该短语出现在说明书中的各个位置并不一定意味着相同的实施例,也不意味着与其它实施例相互排斥而具有独立性或可供选择。本领域的普通技术人员能够清楚或隐含地理解的是,本申请中描述的实施例在没有冲突的情况下,可以与其它实施例结合。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对专利保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种非法网站识别方法,其特征在于,包括:
获取待识别网站的第一特征向量,所述第一特征向量基于所述待识别网站的网页文本内容生成;
将所述待识别网站的第一特征向量输入至预先训练得到的网站分类模型进行识别,以获得疑似非法网站;
获取所述疑似非法网站的第二特征向量,所述第二特征向量基于所述疑似非法的网页要素生成;
将所述疑似非法网站的第二特征向量输入至预先训练得到的集成算法模型进行识别,以获得所述非法网站。
2.根据权利要求1所述的非法网站识别方法,其特征在于,所述获取待识别网站的第一特征向量包括:
获取所述待识别网站的源码数据,并对所述待识别网站的源码数据进行预处理,以获得所述待识别网站的网页文本内容;
对所述待识别网站的网页文本内容按字粒度进行分割,得到所述待识别网站的第一特征;
对所述待识别网站的第一特征进行向量化处理,得到所述第一特征向量。
3.根据权利要求1所述的非法网站识别方法,其特征在于,所述获取所述疑似非法网站的第二特征向量包括:
获取所述疑似非法网站的源码数据,基于所述疑似非法网站的源码数据,提取所述疑似非法网站的网页要素作为所述第二特征;
对所述疑似非法网站的第二特征进行向量化处理,得到所述第二特征向量。
4.根据权利要求1所述的非法网站识别方法,其特征在于,所述网站分类模型为基于注意力机制的双向长短期记忆网络模型;
所述集成算法模型采用Boosting集成算法。
5.根据权利要求1-4任一项所述的非法网站识别方法,其特征在于,所述网站分类模型的训练方法包括:
获取第一样本网站的源码数据,并对所述第一样本网站的源码数据进行预处理,以获得所述第一样本网站的网页文本内容,其中所述第一样本网站包括合法网站和非法网站;
对所述第一样本网站的网页文本内容按字粒度进行分割,得到所述第一样本网站的第一特征;
对所述第一样本网站的第一特征进行向量化处理,得到所述第一样本网站的第一特征向量;
将所述第一样本网站的第一特征向量输入至待训练的神经网络模型进行训练,以得到训练完备的网站分类模型。
6.根据权利要求1-4任一项所述的非法网站识别方法,其特征在于,所述集成算法模型的训练方法包括:
获取第二样本网站的源码数据,基于所述第二样本网站的源码数据,提取所述第二样本网站的网页要素作为第二特征,其中所述第二样本网站包括网页篡改网站和非法网站;
将所述第二样本网站的第二特征进行向量化,得到所述第二样本网站的第二特征向量;
将所述第二样本网站的第二特征向量输入至待训练的集成算法模型进行训练,以得到训练完备的集成算法模型。
7.一种非法网站识别装置,其特征在于,所述装置包括:第一获取模块、第一识别模块、第二获取模块和第二识别模块;
所述第一获取模块用于获取待识别网站的第一特征向量,所述第一特征向量基于所述待识别网站的网页文本内容生成;
所述第一识别模块用于将所述待识别网站的第一特征向量输入至预先训练得到的网站分类模型进行识别,以获得疑似非法网站;
所述第二获取模块用于获取所述疑似非法网站的第二特征向量,所述第二特征向量基于所述疑似非法的网页要素生成;
所述第二识别模块用于将所述疑似非法网站的第二特征向量输入至预先训练得到的集成算法模型进行识别,以获得所述非法网站。
8.根据权利要求7所述的非法网站识别装置,其特征在于,所述网站分类模型为基于注意力机制的双向长短期记忆网络模型;
所述集成算法模型采用Boosting集成算法。
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至6中任一项所述的非法网站识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的非法网站识别方法的步骤。
CN202210457027.8A 2022-04-28 2022-04-28 非法网站识别方法、装置、电子装置和存储介质 Pending CN114817808A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210457027.8A CN114817808A (zh) 2022-04-28 2022-04-28 非法网站识别方法、装置、电子装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210457027.8A CN114817808A (zh) 2022-04-28 2022-04-28 非法网站识别方法、装置、电子装置和存储介质

Publications (1)

Publication Number Publication Date
CN114817808A true CN114817808A (zh) 2022-07-29

Family

ID=82509348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210457027.8A Pending CN114817808A (zh) 2022-04-28 2022-04-28 非法网站识别方法、装置、电子装置和存储介质

Country Status (1)

Country Link
CN (1) CN114817808A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117439821A (zh) * 2023-12-20 2024-01-23 成都无糖信息技术有限公司 一种基于数据融合及多因素决策法的网站判定方法及系统
CN117614749A (zh) * 2024-01-24 2024-02-27 杰创智能科技股份有限公司 风险网站识别方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117439821A (zh) * 2023-12-20 2024-01-23 成都无糖信息技术有限公司 一种基于数据融合及多因素决策法的网站判定方法及系统
CN117614749A (zh) * 2024-01-24 2024-02-27 杰创智能科技股份有限公司 风险网站识别方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN105426356B (zh) 一种目标信息识别方法和装置
CN109471938A (zh) 一种文本分类方法及终端
CN112347244B (zh) 基于混合特征分析的涉黄、涉赌网站检测方法
CN114817808A (zh) 非法网站识别方法、装置、电子装置和存储介质
CN109413028A (zh) 基于卷积神经网络算法的sql注入检测方法
CN101692639A (zh) 一种基于url的不良网页识别方法
CN103577755A (zh) 一种基于支持向量机的恶意脚本静态检测方法
CN113901376B (zh) 恶意网站检测方法、装置、电子设备和计算机存储介质
CN111177367B (zh) 案件分类方法、分类模型训练方法及相关产品
CN107862785A (zh) 票据鉴定方法及装置
CN106709370A (zh) 一种基于文本内容的长词识别方法及系统
CN112966072A (zh) 案件的预判方法、装置、电子装置和存储介质
CN112749280A (zh) 网络舆情的分类方法、装置、电子装置和存储介质
CN111818080A (zh) 注入攻击检测模型构建方法和装置
CN111538836A (zh) 一种识别文本类广告中金融广告的方法
CN111460803B (zh) 基于工业物联网设备Web管理页面的设备识别方法
CN110020161B (zh) 数据处理方法、日志处理方法和终端
CN115757991A (zh) 一种网页识别方法、装置、电子设备和存储介质
CN108229170A (zh) 利用大数据和神经网络的软件分析方法和装置
Assefa et al. Intelligent phishing website detection using deep learning
CN114915468A (zh) 基于知识图谱的网络犯罪智能分析检测方法
Tham et al. IoT based license plate recognition system using deep learning and OpenVINO
CN113449816A (zh) 网址分类模型训练、网址分类方法、装置、设备及介质
CN110704611B (zh) 基于特征解交织的非法文本识别方法及装置
CN105243327A (zh) 一种文件安全处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination