CN112187768A

CN112187768A - 不良信息网站的检测方法、装置、设备及可读存储介质

Info

Publication number: CN112187768A
Application number: CN202011009231.0A
Authority: CN
Inventors: 杜帅; 范渊
Original assignee: Hangzhou Dbappsecurity Technology Co Ltd
Current assignee: Hangzhou Dbappsecurity Technology Co Ltd
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2021-01-05
Anticipated expiration: 2040-09-23
Also published as: CN112187768B

Abstract

本申请公开了一种不良信息网站的检测方法，该方法基于统计学原理，首先利用非线性分类器根据网页数据对待检测网站进行初步分类，得到分类结果，以确定不良信息的信息类型；由于预先针对每种信息类型设置了对应的递归神经网络模型，因此，进一步利用与上述分类结果相对应的递归神经网络模型对待检测网站进行二次分类，得到最终的检测结果，从而实现在海量网页中快速查找并且精准定位违法和不良信息网站的目的，有效提升检测效率和检测准确度，为网络监管带来极大便利。此外，本申请还提供了一种不良信息网站的检测装置、设备及可读存储介质，其技术效果与上述方法的技术效果相对应。

Description

不良信息网站的检测方法、装置、设备及可读存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种不良信息网站的检测方法、装置、设备及可读存储介质。

背景技术

随着互联网技术的不断发展，搭建网站的成本越来越低、技术手段越来越简单，各种各样的网络服务不断涌出，不乏有博彩、色情、涉政、涉恐等违法和不良网络服务出现，导致网络监管压力逐年上升。

目前，网络监管治理对时效性和准确度要求越来越高，当前的检测方案无法及时有效的完成对违法和不良信息的查找和定位，并且覆盖面也不够。例如，目前针对违法和不良信息的检测方案大多都是基于网站文本的检测，检测到相关的文字描述或前后语句定位为违法和不良信息网站。这类检测都是基于文本分析或词库配合语义分析，明确网页内容。然而，基于关键字、词或者语义分析也有很高的误报率，通过内容匹配完成定位时，部分网站会被误报为违法和不良信息网站，比如官方指导文件、事件通报发文等，对实际的互联网治理造成了阻碍。

可见，针对违法和不良信息，当前的检测方案虽然能够做到部分检测，但是检测效率和检测准确度不能满足当下需求。因此，如何在海量网页中根据网页数据快读定位违法和不良信息网站，是亟待本领域技术人员解决的问题。

发明内容

本申请的目的是提供一种不良信息网站的检测方法、装置、设备及可读存储介质，用以解决当前的检测方案的检测效率和检测准确度较低的问题。其具体方案如下：

第一方面，本申请提供了一种不良信息网站的检测方法，包括：

利用非线性分类器，对待检测网站的网页数据进行分类，得到分类结果，所述分类结果用于描述不良信息的信息类型；

根据与所述分类结果相对应的特征模板，从所述网页数据中提取特征数据；

将所述特征数据输入与所述分类结果相对应的递归神经网络模型，得到所述待检测网站的检测结果。

优选的，所述利用非线性分类器，对待检测网站的网页数据进行分类，得到分类结果，包括：

对待检测网站的网页数据进行文本检测和语义分析，得到关键字内容和上下文语境；

利用非线性分类器，根据所述关键字内容和所述上下文语境，得到分类结果。

利用基于稀疏贝叶斯算法的非线性分类器，对待检测网站的网页数据进行分类，得到分类结果。

优选的，在所述利用非线性分类器，对待检测网站的网页数据进行分类，得到分类结果之前，还包括：

利用爬虫技术，获取待检测网站的网页数据。

优选的，还包括：

根据不良信息的各种信息类型，分别创建对应的数据库；

相应的，在所述利用非线性分类器，对待检测网站的网页数据进行分类，得到分类结果之后，还包括：

对所述网页数据进行结构化处理，为处理后的网页数据添加与所述分类结果相对应的类别标识，并存储至与所述分类结果相对应的数据库中。

优选的，在所述根据与所述分类结果相对应的特征模板，从所述网页数据中提取特征数据之前，还包括：

根据不良信息的各种信息类型，分别设置特征模板并创建递归神经网络模型；

根据所述特征模板，利用训练样本对所述递归神经网络模型进行训练，以调整特征权重。

优选的，所述根据与所述分类结果相对应的特征模板，从所述网页数据中提取特征数据，包括：

根据与所述分类结果相对应的特征模板，从所述网页数据中提取特征数据，所述特征模板包括以下任意一项或多项：关键词特征的可信度、不良文本的分布位置、链接组成特征、特殊可疑代码特征、网页链接归属地。

第二方面，本申请提供了一种不良信息网站的检测装置，包括：

初步分类模块：用于利用非线性分类器，对待检测网站的网页数据进行分类，得到分类结果，所述分类结果用于描述不良信息的信息类型；

特征提取模块：用于根据与所述分类结果相对应的特征模板，从所述网页数据中提取特征数据；

二次分类模块：用于将所述特征数据输入与所述分类结果相对应的递归神经网络模型，得到所述待检测网站的检测结果。

第三方面，本申请提供了一种不良信息网站的检测设备，包括：

存储器：用于存储计算机程序；

处理器：用于执行所述计算机程序，以实现如上所述的不良信息网站的检测方法。

第四方面，本申请提供了一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时用于实现如上所述的不良信息网站的检测方法。

本申请所提供的一种不良信息网站的检测方法，包括：利用非线性分类器，对待检测网站的网页数据进行分类，得到分类结果，分类结果用于描述不良信息的信息类型；根据与分类结果相对应的特征模板，从网页数据中提取特征数据；将特征数据输入与分类结果相对应的递归神经网络模型，得到待检测网站的检测结果。

可见，该方法基于统计学原理，首先利用非线性分类器根据网页数据对待检测网站进行初步分类，得到分类结果，以确定不良信息的信息类型；由于预先针对每种信息类型设置了对应的递归神经网络模型，因此，进一步利用与上述分类结果相对应的递归神经网络模型对待检测网站进行二次分类，得到最终的检测结果，从而实现在海量网页中快速查找并且精准定位违法和不良信息网站的目的，有效提升检测效率和检测准确度，为网络监管带来极大便利。

此外，本申请还提供了一种不良信息网站的检测装置、设备及可读存储介质，其技术效果与上述方法的技术效果相对应，这里不再赘述。

附图说明

为了更清楚的说明本申请实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请所提供的一种不良信息网站的检测方法实施例一的实现流程图；

图2为本申请所提供的一种不良信息网站的检测方法实施例二的实现过程示意图；

图3为本申请所提供的一种不良信息网站的检测装置实施例的功能框图；

图4为本申请所提供的一种不良信息网站的检测设备实施例的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

随着互联网的迅速发展，网络各种违法和不良信息内容也在井喷式的增长，给社会造成了很大的影响。但是目前的检测方案时效性慢，并且准确度也不高，在网络空间治理的时候会造成部分单位的业务中断。

在互联网网页内容检测场景下，针对目前存在的检测效率慢和检测准确度低的问题，本申请提供了一种不良信息网站的检测方法、装置、设备及可读存储介质，能够从海量的网站数据中快速查找并精准定位违法和不良信息网站，提升网络监管效率。

下面对本申请提供的一种不良信息网站的检测方法实施例一进行介绍，参见图1，实施例一包括：

S101、利用非线性分类器，对待检测网站的网页数据进行分类，得到分类结果，所述分类结果用于描述不良信息的信息类型；

S102、根据与所述分类结果相对应的特征模板，从网页数据中提取特征数据；

S103、将特征数据输入与所述分类结果相对应的递归神经网络模型，得到待检测网站的检测结果。

具体的，本实施例预先利用爬虫技术从互联网活业务系统中爬取海量的网页数据，包括但不限于违法和不良信息内容，然后基于统计学原理进行数据建模，得到上述线性分类器。

在区分正常网页和不良信息网页的时候，往往考虑网页关键字、上下文语义等诸多因素，因此在二维平面无法有效区分，需要借助高维空间进行分类。在高维空间，因素维度爆炸式增长，传统的函数、朴素贝叶斯、决策树、逻辑回归等算法都无法对具有多因素的原始数据完成快速准确分类。此时RVM(相关向量机)就有着非常明显的优势。

因此，可以选用RVM对待检测网站的网页数据进行分类。为了产生更稀疏的结果，提高分类速度，还可以进一步在RVM中引入稀疏贝叶斯算法。也就是说，选用基于稀疏贝叶斯算法的RVM模型，对网页数据进行初步分类。该模型在非线性及高维模式下有着众多的优势，可以解决复杂环境下的内容分类，对网页不良信息内容分类效率和准确度非常有效。

因此，上述S101具体包括：利用基于稀疏贝叶斯算法的非线性分类器，对待检测网站的网页数据进行分类，得到分类结果。

在此基础之上，实际应用中，上述S101具体包括：对待检测网站的网页数据进行文本检测和语义分析，得到关键字内容和上下文语境；利用非线性分类器，根据所述关键字内容和所述上下文语境，得到分类结果。

如前文所述，S101主要用于判断待检测网站是否包含不良信息，筛选出包含不良信息的网站，并进一步确定待检测网站中不良信息的信息类型，此处的信息类型可以为博彩、色情等。

针对每一种信息类型，本实施例创建了相应的数据库。在得到分类结果之后，还可以包括以下步骤：对所述网页数据进行结构化处理，为处理后的网页数据添加与所述分类结果相对应的类别标识，并存储至与所述分类结果相对应的数据库中。

此外，针对每一种信息类型，本实施例设置了对应的特征模板。在S103之前，还包括递归神经网络模型的创建和训练过程：根据特征模板创建递归神经网络模型，为模型中各项特征的权重设置初始值，然后通过训练对权重值进行调整优化。

作为一种优选的实施方式，上述特征模板包括以下任意一项或多项：关键词特征的可信度、不良文本的分布位置、链接组成特征、特殊可疑代码特征、网页链接归属地。

本实施例所提供一种不良信息网站的检测方法，基于统计学原理，先利用非线性分类器根据网页数据对待检测网站进行初步分类，然后利用与分类结果相对应的递归神经网络模型对待检测网站进行二次分类，从而对网页的违法和不良内容进行精准判定，实现在海量网页中快速查找并且精准定位违法和不良信息网站的目的，提升检测效率和检测准确度，为网络监管带来极大便利。

下面开始详细介绍本申请提供的一种不良信息网站的检测方法实施例二，参见图2，实施例二基于海量的网页数据，对网页内容进行分析。主要是基于内容进行数据建模，通过算法模型提高检测准确度，主要过程如下：

第一步，为提取网页基础的违法及不良信息内容，先以稀疏贝叶斯分类算法，完成对海量数据进行分类。基于云计算能力，将海量数据进行分析及存储。在大数据库中，完成对网页内容分析结果的结构化，并建立索引，完成初步归类。

具体选用基于稀疏贝叶斯分类算法的RVM模型进行分类，其中非线性分类器映射后的分类函数如下所示：

此处k为核函数，可以保证低维空间的计算结果和高空间中计算内积的结果相同。其中，a为拉格朗日乘子，定义拉格朗日函数；x和y是基础函数参数；b为常量。

在完成数据的初步分类后，根据分类的标识建立不同的数据库，完成博彩、色情等初步分类，建立索引。在不同的数据库中再使用分类算法做细分分类。

第二步，进行数据建模，本实施例选用递归神经网络。

递归神经网络与传统的神经网络不同，传统神经网络对当期的事件分类处理比较容易，但是没有记忆属性。因此在处理违法和不良信息内容时不能通过已有的问题网页来快速匹配识别新网页。本实施例利用递归神经网络，可以解决长时间的依赖关系。基于数据库索引信息，完成识别模型的渐次优化。

基于递归神经网络，依托对网页文本和语义的分析结果，进行数据建模。然后，通过关键词特征的可信度、不良文本的分布位置、各种链接组成特征、特殊可疑代码特征、网页链接归属地等基础信息点，设置模型各属性权重占比。随机选取数据库中的网页数据进行模型训练和测试，逐步调整模型识别权重。最终根据训练数据的增长，逐渐自优化参数，逐步提高结果准确度。

综上，本实施例的原理是基于关键字、上下文语义、统计学原理、稀疏贝叶斯分类算法、递归神经网络等技术，对互联网和业务系统中的海量网页服务内容进行爬取，通过初步判定及二次判定对网页的违法和不良内容进行精准判定。整体过程如下：

从待检测网页中提取关键字及其上下文，分析关键字内容及上下文语境；利用基于稀疏贝叶斯算法的RVM模型，根据关键字内容及上下文语境，对待检测网页进行初步分类；根据初步分类结果，利用相应的递归神经网络模型对待检测网页进行二次分类，得到最终的检测结果。

S203、依据统计学原理、贝叶斯算法、LSTM算法，对数据库内容进行建模，模型持续训练，持续提高检测准确度。

可见，本实施例提供的一种不良信息网站的检测方法，基于统计学原理和数据建模，对违法和不良信息内容进行分析和建模，极大降低文本检测对网站识别的误报率。特别的是，基于不良文本的分布内容、各种链接组成特征、特殊可疑代码特征、网页链接归属地等不同种类的特征进行建模，保证分类精准度。

最终，本实施例极大程度提升网络违法和不良信息的检测效率和准确度，能够快速定位问题网页，进而做到快速查处。极大促进了网络环境的健康化，避免了违法和不良信息对社会的危害。同时，可以结合IP地址、备案信息、云服务商等信息完成对犯罪分子的定位，从源头遏制。

下面对本申请实施例提供的一种不良信息网站的检测装置进行介绍，下文描述的一种不良信息网站的检测装置与上文描述的一种不良信息网站的检测方法可相互对应参照。

如图3所示，本实施例的不良信息网站的检测装置，包括：

初步分类模块301：用于利用非线性分类器，对待检测网站的网页数据进行分类，得到分类结果，所述分类结果用于描述不良信息的信息类型；

特征提取模块302：用于根据与所述分类结果相对应的特征模板，从所述网页数据中提取特征数据；

二次分类模块303：用于将所述特征数据输入与所述分类结果相对应的递归神经网络模型，得到所述待检测网站的检测结果。

本实施例的不良信息网站的检测装置用于实现前述的不良信息网站的检测方法，因此该装置中的具体实施方式可见前文中的不良信息网站的检测方法的实施例部分，例如，初步分类模块301、特征提取模块302、二次分类模块303，分别用于实现上述不良信息网站的检测方法中步骤S101，S102，S103。所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再展开介绍。

另外，由于本实施例的不良信息网站的检测装置用于实现前述的不良信息网站的检测方法，因此其作用与上述方法的作用相对应，这里不再赘述。

此外，本申请还提供了一种不良信息网站的检测设备，如图4所示，包括：

存储器100：用于存储计算机程序；

处理器200：用于执行所述计算机程序，以实现如上文所述的不良信息网站的检测方法。

最后，本申请提供了一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时用于实现如上文所述的不良信息网站的检测方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的方案进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种不良信息网站的检测方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述利用非线性分类器，对待检测网站的网页数据进行分类，得到分类结果，包括：

3.如权利要求2所述的方法，其特征在于，所述利用非线性分类器，对待检测网站的网页数据进行分类，得到分类结果，包括：

4.如权利要求3所述的方法，其特征在于，在所述利用非线性分类器，对待检测网站的网页数据进行分类，得到分类结果之前，还包括：

利用爬虫技术，获取待检测网站的网页数据。

5.如权利要求1所述的方法，其特征在于，还包括：

根据不良信息的各种信息类型，分别创建对应的数据库；

6.如权利要求1所述的方法，其特征在于，在所述根据与所述分类结果相对应的特征模板，从所述网页数据中提取特征数据之前，还包括：

7.如权利要求1-6任意一项所述的方法，其特征在于，所述根据与所述分类结果相对应的特征模板，从所述网页数据中提取特征数据，包括：

8.一种不良信息网站的检测装置，其特征在于，包括：

9.一种不良信息网站的检测设备，其特征在于，包括：

存储器：用于存储计算机程序；

处理器：用于执行所述计算机程序，以实现如权利要求1-7任意一项所述的不良信息网站的检测方法。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时用于实现如权利要求1-7任意一项所述的不良信息网站的检测方法。