CN112131352A

CN112131352A - 一种网页文本类不良信息的检测方法与检测系统

Info

Publication number: CN112131352A
Application number: CN202011081524.XA
Authority: CN
Inventors: 梁雪春; 苏天鸿
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2020-10-10
Filing date: 2020-10-10
Publication date: 2020-12-25

Abstract

本发明提供一种网页文本类不良信息的检测方法文本分类方法及装置，属于文本检测技术领域，同时涉及网络安全与舆情监控领域，针对常用的单纯通过规则与字典进行匹配的检测方式做出改进，提出额外的判断依据，能有效减少规则匹配时的误报情况，减少误报率，提高准确性。其中，所述方法包括：通过爬取的方式获取待检测网页数据和检测需求；对待检测网页数据进行文本提取，对提取出的文本进行预处理，包括文本纠错，去停用词，文本分割；通过字典树对提取的文本信息执行字符匹配步骤，得到匹配结果；将被标记为敏感词进行分类，记录敏感词词频、区域信息以及敏感词级别；通过深度学习模型从判断文本整体的情感极性，结合敏感词检测的结果输出文本整体属于不良信息的综合概率。本申请还提供一种网页文本类不良信息的检测系统、具有上述有益效果。

Description

一种网页文本类不良信息的检测方法与检测系统

技术领域

本申请属于文本检测技术领域，同时涉及网络安全与舆情监控领域，特别涉及一种网页中文文本不良信息的检测方法与检测系统。

背景技术

网页文本类不良信息是指网页中能够对浏览网页的人员产生负面影响的信息。这类信息是不允许出现在网页中，因此要对文本进行检测，以便筛选出并过滤文本中的不良信息。

目前对于不良信息的筛选大都停留在敏感词检测方面。对于敏感词的检测大多基于规则的检测方法，也有少部分采用机器学习的检测方法，这些方法的检测效率十分有限，并且检测的准确性不高，具有较高的误报率。

并且，仅由是否敏感词作为依据来判断文本是否属于不良信息，而不考虑文本整体的情感极性也会造成误报。例如，“打击”和“犯罪”都属于敏感词，但是“打击犯罪”不属于不良信息。

发明内容

本申请的目的是提供一种网页文本类不良信息的检测方法，针对解决不良信息中存在的检测准确率低，检测效率低，误检测率高的问题。

为解决上述技术问题，本申请提供一种网页文本类不良信息的检测方法，具体技术方案如下：

S101：获取网页中的数据，获取不良信息检测需求；

S102：对所述网页中的数据进行文本提取，并对文本进行预处理。

进一步的，对文本进行预处理操作包括：

对训练语料库中的文本进行中文分词操作和去停用词操作；其中，所述中文分词操作包括基于预设分词工具，将所述训练语料库中的文本拆分成若干个单词；

所述去停用词操作包括根据预设停用词表对所述训练语料库中的文本进行筛选，以去除所述文本中出现的在所述停用词表中的单词。

S103：对预处理后的信息执行字符匹配步骤，得到匹配结果。

可选的，在对文本进行字符匹配之前，还包括：

基于检测需求确定敏感词组，并生成用于执行字符匹配的字典树。

S104：利用基于深度学习模型的方法，对文本整体进行情感极性判断。

S105：将匹配结果和情感分析结果结合，最终输出文本信息是不良信息的概率。

本申请还提供一种网页文本类不良信息检测系统，包括：

信息获取模块，用于获取网页数据和检测需求；

文本提取模块，用于对所述网页数据进行文本提取；

检测模块，用于利用字典树，对提出的文本进行敏感词检测，得到敏感词检测结果，之后再对文本整体的情感极性进行分析，得到文本整体的情感极性，并为其赋予权重；

判断模块，用于将检测的结果进行综合，最终输出待检测文本被检测为不良信息的概率，并根据需要对其进行对应的处理。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本申请实施例所提供的一种网页文本类不良信息检测方法的流程图；

图2为本申请实施例所提供的执行匹配操作的字典树的结构示意图；

图3为本申请实施例所提供的用于判断情感极性的深度学习模型的结构示意图；

图4为注意力机制的流程图；

图5为LSTM模型示意图；

图6为HMM模型示意图；

图7为本申请实施例所提供的一种网页文本类不良信息检测系统的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参考图1，图1为本申请实施例所提供的一种网页文本类不良信息的检测方法的流程图，该方法包括：

S101：获取网页数据和检测需求；

本步骤旨在获取待检测的数据以及对应的检测需求。对于不同的数据来源，其需要检测的重点各不相同，对应的检测需求自然各不相同，因此需要根据检测的需求来确定合适的敏感词组并生成字典树。

字典树又称单词查找树，Trie树，是一种树形结构，是一种哈希树的变种。典型应用是用于统计，排序和保存大量的字符串，所以经常被搜索引擎系统用于文本词频统计。它的优点是：利用字符串的公共前缀来减少查询时间，最大限度地减少无谓的字符串比较，查询效率比哈希树高。

搜索字典项目的方法为：

步骤1：从根结点开始一次搜索；

步骤2：取得要查找关键词的第一个字母，并根据该字母选择对应的子树并转到该子树继续进行检索；

步骤3：在相应的子树上，取得要查找关键词的第二个字母，并进一步选择对应的子树进行检索；

步骤4：迭代，直至在某个结点处，关键词的所有字母已被取出，则读取附在该结点上的信息，即完成查找。

如图2所示，例如apple，appear，appxy，apzl这几个词在树中表示如下。

构建字典树使用的是确定有限自动机(DFA)。

DFA即Deterministic Finite Automaton，也就是确定有穷自动机，它是是通过event和当前的state得到下一个state，即event+state＝next state。

DFA算法的核心是建立了以敏感词为基础的许多敏感词树。它的基本思想是基于状态转移来检索敏感词，只需要扫描一次待检测文本，就能对所有敏感词进行检测。且DFA算法的时间复杂度基本上是与敏感词的个数无关的，只与文本长度有关。

S102：对所述网页数据进行文本提取，并进行预处理。

本步骤旨在进行文本提取，得到文本关键词，同时通过对于文本进行预处理，包括文本纠错，去停用词，分词，避免在通过规则匹配检测敏感词时的误报。

在此对于如何进行文本提取不作具体限定，本实施例在此提供一种效果较好的文本提取方法，即对网页数据进行文本分割，得到最短词语集合，再利用Textrank将最短词语集合作为节点构建网络，利用PageRank迭代计算网络中每个节点的rank值，对rank值排序得到文本关键词。

文本预处理包括文本纠错，去停用词，分词。停用词是指一些没有真正意义的词，如助词、副词、介词、语气词、标点符号等，这些词对于最终的分类无法提供类别信息，如果保留这些词，不仅会增加计算的维度，还会引入噪声特征，影响分类的效果。因此，在对特征进行特征选择之前，往往需要去停用词。常用去停用词的的方法则是根据停用词表进行筛选，过滤掉停用词表中的单词。

文本分割的作用就是将文本分成若干个单词，根据单词信息去完成特征选择和分类过程，分词的精确性与文本分类最后的效果息息相关。在此对于如何进行文本分割不作具体限定，可以利用基于深度学习模型的方法对数据进行文本分割，也可以基于HanLP、结巴分词工具等得到的词法分析器进行文本分割。本发明采用“结巴”分词工具进行文本分割。

文本分割的目的是得到最短词语集合，可以理解的是，同一个字最多存在于一个词语中。

S103：利用字典树进行敏感词匹配，得到匹配结果。

本步骤旨在初步确定待检测文本是否属于不良信息。将进行预处理后，分割好的文本与生成的字典树进行匹配，并将被标记为敏感词的文本进行分类，记录敏感词词频、区域信息以及敏感词级别。

S104：过滤误报结果，得到精确检测结果。

本步骤在得到敏感词检测结果之后，还可以根据文本关键词所属类别过滤敏感词检测结果中的误报结果，得到精确检测结果。即确定文本关键词后，为了防止分词存在分词失败或者错误分词，对敏感词检测结果进行误报过滤，进一步避免误报。

除此之外，通过分析判断文本本身具有的情感极性，对具有不同情感极性的文本信息赋予不同的权重，并结合之前的敏感词检测结果，综合判断该文本信息是不良信息的概率。

情感分析一类的任务比如商品评价正负面分析，敏感内容分析，用户感兴趣内容分析、甚至安全领域的异常访问日志分析等等实际上都可以被认为是文本分类问题，本质上来讲就是一个文本输出一个多个对应的标签。

对于情感分类任务，目前通常的做法是先对词或者短语进行表示，再通过某种组合方式把句子中词的表示组合成句子的表示。最后，利用句子的表示对句子进行情感分类。

本实施例对于如何进行情感分析并最终得到对应权重的方法不做限定，本实例再次提供一种基于BERT-BiLSTM-CRF融合模型的情感分析方法：

模型由BERT特征表示层、BiLSTM神经网络层、CRF筛选层三个部分构成。首先将字符序列输入到特征表示层，在对字符进行编码得到其对应的向量表示，之后利用BiLSTM层将向量序列进行双向编码，最后CRF筛选层中，从全局角度进行筛选，输出概率最大的标签序列，作为最终的预测标签。模型的整体结构图如图3所示。

BERT的核心是使用了Transformer模型取代了传统的基于RNN结构的模型，一举解决了RNN结构固有的长期依赖问题。Transformer模型使用了注意力机制(Attention)，注意力机制在解码阶段对输入中的信息赋予不同权重，来分配不同的注意力。具体流程如图4所示。

具体实现是将句中每一个词都和句中所有词做计算，表示出词之间的相互关系，并通过捕获句子之间的内部结构，在一定程度上反应出词语之间存在的关联性和重要性。

注意力机制的实现原理：

步骤1：将query(Q)和每个key(K)进行相似度计算得到权重，常用的相似度函数有点积，拼接，感知机等；

步骤2：对这些权重进行归一化，一般使用的是softmax函数；

步骤3：将权重和相应的键值value(V)进行加权求和得到最后的attention。

计算公式如下：

其中，Q，K，V为输入的字向量矩阵，d_k为输入向量的维度。QK^T表示计算输出字向量之间的关系。d_k经过进行缩小后在通过softmax归一化得到权重表示。

BERT运用了双向Transformer神经网络作为编码器，使得对于文本中每个字的预测都可以参考上下文的双方向文字信息，其中，每个单元主要由自注意力机制及前馈神经网络组成，解决了长期依赖的问题。

BiLSTM是双向的长短期记忆网络，长短时记忆网络(LSTM)通过引入了记忆单元和门限机制来控制信息的遗忘、更新和传递，从而能够学习到长距离的依赖关系，有效地解决传统循环神经网络(RNN)结构中出现的梯度消失或者爆炸现象。

LSTM模型是由t时刻的输入词X_t，细胞状态C_t，临时细胞状态

隐层状态h_t，遗忘门f_t，记忆门i_t，输出门o_t组成。LSTM的计算过程可以概括为，通过对细胞状态中信息遗忘和记忆新的信息使得对后续时刻计算有用的信息得以传递，而无用的信息被丢弃，并在每个时间步都会输出隐层状态，其中遗忘，记忆与输出由通过上个时刻的隐层状态和当前输入计算出来的遗忘门，记忆门，输出门来控制。模型结构如图5所示。

LSTM模型计算过程如下：

步骤1：计算遗忘门，选择要遗忘的信息。

此步骤中输入为前一时刻的隐层状态h_t-1，当前时刻的输入词X_t，输出为遗忘门的值f_t，计算公式如下：

f_t＝σ(W_f·[h_t-1，x_t]+b_f)

步骤2：计算记忆门，选择要记忆的信息。

此步骤中输入为前一时刻的隐层状态h_t-1，当前时刻的输入词X_t，输出为记忆门的值i_t，临时细胞状态

计算公式如下：

i_t＝σ(W_i·[h_t-1，x_t]+b_i)

步骤3：计算当前时刻细胞状态。

此步骤输入为记忆门的值i_t，遗忘门的值f_t，临时细胞状态

上一刻细胞状态C_t-1，输出为当前时刻细胞状态C_t，计算公式如下：

步骤4：计算输出门和当前时刻隐层状态。

此步骤输入为前一时刻的隐层状态h_t-1，当前时刻的输入词X_t，当前时刻细胞状态C_t，输出为输出门的值o_t，隐层状态h_t，计算公式如下：

o_t＝σ(W_o[h_t-1，x_t]+b_o)

h_t＝o_t*tanh(C_t)

最终得到与句子长度相同的隐层状态序列{h₀，h₁，...，h_n-1}。

BiLSTM由前向LSTM以及后向LSTM组成，对输入量进行分别计算，并合并输出。

对于给定输入的文本，例如输入“我爱中国”，前向LSTM前向的依次输入“我”，“爱”，“中国”得到三个向量

后向的依次输入“中国”，“爱”，“我”得到三个向量

最后将前向和后向的隐向量进行拼接得到

即{h₀，h₁，h₂}。

在本模型中，将由特征提取能力更强的BERT模型进行特征提取，将被提取出的特征输入进BiLSTM模型中，并为这些特征输出对应的标签。

CRF是条件随机场，负责捕获前后文标签之间的依赖关系，对前后文标签进行约束。

CRF是用来计算给定的随机变量序列X＝(X₁，X₂，...，X_n)的条件下，随机变量序列Y＝(Y₁，Y₂，...，Y_n)的条件概率分布，是一种无向概率图模型。

在本模型中，利用训练集通过最极大似然估计得到条件概率模型。在预测时，对于给定的观测序列，从整体性上对模型加以限制，利用维特比算法输出可得条件概率最大的标签序列Y。

本步骤将S103和S104得到的结果汇总，最终输出在得到了上述结果的条件下，文本信息为不良信息的概率。

本方法中采用隐马尔科夫模型模型来求解在给定的条件下，是不良信息的概率。本质上属于已知观测序列和模型，求模型下概率的问题。

隐马尔可夫模型(Hidden Markov Model，HMM)是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。

若随机过程{X(t)，t∈T}满足马尔可夫性，则称为马尔可夫过程。马尔科夫性亦称无后效性或无记忆性。设{X(t)，t∈T}为一随机过程，E为其状态空间，若对任意的t₁＜t₂＜...＜t_n＜t，任意的x₁，x₂，...，x_n，x，∈E，随机变量X(t)在已知变量X(t₁)＝x₁，...，X(t_n)＝x_n之下的条件分布函数只与X(t_n)＝x_n有关，而与X(t_n-1)＝x_n-1无关，即条件分布函数满足等式：

F(x，t|x_n，x_n-1，...，x₂，x₁，t_n，t_n-1，...，t₂，t₁)＝F(x，t|x_n，t_n)

即：

P{X(t)≤x|X(t_n)＝x_n，...，X(t₁)＝x₁}＝P{X(t)≤x|X(t_n)＝x_n}

则称该随机过程具有马尔可夫性。

若X(t)为离散型随机变量，则马尔可夫性亦满足等式：

P{X(t)＝x|X(t_n)＝x_n，...，X(t₁)＝x₁}＝P{X(t)＝x|X(t_n)＝x_n}

HMM模型如图6所示，以天气之间的对应状态转移概率关系为例。这个模型包含了一个底层隐藏的随时间改变的马尔科夫过程，通常是一阶的；以及一个与隐藏状态某种程度相关的可观察到的状态集合，对应就是天气如何影响苔藓，称为发射概率或者混淆概率。

HMM模型中具有基本概念五元组(S，K，π，A，B)，分别对应HMM中的5个重要概念，分别是：

S：隐藏状态的集合，N为隐状态个数；

K：输出状态或者说观测状态的集合，M为观测状态个数；

π：对应隐藏状态的初始化概率；

A：隐藏状态的状态转移概率；

B：隐藏状态到观测状态的混淆矩阵。

对于本方法，由匹配的得到的敏感词的词频，区域信息，程度，以及文本的整体情感极性可以看做是给定的观测序列O(o₁，o₂，...，o_T)。需要完成的是观测序列在模型u＝(π，A，B)下概率的求解。最直观的解决办法是遍历隐藏状态，将对应观测状态概率加和就是这个状态的可能性，即：

将上述公式变形，用已知状态下序列的概率，即：

以及任意隐藏序列的概率，即：

来表示所有可能隐状态序列下的概率之和，即完成问题的求解。对于本方法就是在获得了S103和S104的结果后，求出文本是不良信息的概率。

为了求解概率需要学习模型u的参数(π，A，B)。在此对于如何进行模型参数的学习不作具体限定，本实施例在此提供一种方法，爬取网络中文本类信息，并利用前述方法获得文本信息中敏感词词频，区域信息，级别，文本的情感极性，并结合已有的不良信息检测结果，对模型参数进行学习，即这个过程本质上是马尔科夫参数求解学习问题，可以采用EM算法，前后向算法来解决。

本申请还提供一种网页敏感词检测系统，如图7所示，包括：

信息获取模块，用于获取网页数据和检测需求；

文本提取模块，用于对所述网页数据进行文本提取；

检测模块，用于利用字典树，对提出的文本进行敏感词检测，得到敏感词检测结果，并统计敏感词的词频，区域信息，敏感词级别；同时，对文本整体的情感极性进行分析，得到文本整体的情感极性；

判断模块，用于将检测模块中的结果输出并赋予各自的权重，将这些结果进行综合，最终输出待检测文本被检测为不良信息的概率，并根据需要对其进行对应的处理。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言，由于其与实施例提供的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种网页文本类不良信息的检测方法与检测系统，其特征在于，所述方法包括：

S101：获取待检测网页数据和检测需求；

S102：对待检测网页数据进行文本提取和预处理，所述预处理包括文本纠错，去停用词，文本分割操作；

S103：利用字典树对提取的文本信息执行字符匹配步骤，得到文本中敏感词匹配结果；

S104：将被标记为敏感词进行分类，记录敏感词词频、区域信息以及敏感词级别；

S105：判断文本整体的情感极性；

S106：综合敏感词匹配与情感分析的结果，输出文本整体是不良信息的概率。

2.根据权利要求1所述，网页数据的网页文本类不良信息检测方法，其特征在于，对待检测信息进行不良信息检测之前，还包括：

3.根据权利要求1所述的网页文本类不良信息检测方法，其特征在于，对网页中进行文本提取，得到文本关键词包括：

对所述待检测网页数据进行文本分割，得到句段级别的文本集合。

4.根据权利要求1所述的网页文本类不良信息的检测方法，其特征在于，判断文本整体的情感极性，所述方法包括：

采用BERT-BiLSTM-CRF模型，判断并计算出文本整体的情感极性。

5.根据权利要求1所述的网页文本类不良信息的检测方法，其特征在于，综合敏感词匹配与情感分析的结果，输出文本整体是不良信息的概率，所述方法包括：

将通过由敏感词匹配得到的敏感词词频，区域信息，敏感词级别与文本整体的情感极性分别赋予不同的权重，将这些结果综合并输出最终该文本信息是不良信息的概率，进而过滤掉匹配结果中不属于不良信息的误报结果，得到精确的检测结果。

6.一种网页文本类不良信息的检测系统，其特征在于，包括：

信息获取模块，用于获取网页数据和检测需求；

文本提取模块，用于对所述网页数据进行文本提取；

检测模块，用于利用基于所述检测需求生成的字典树，对提出的文本进行敏感词检测，得到敏感词检测结果；同时对文本整体进行情感分析，得到情感极性的分析结果；

判断模块，用于对文本整体的情感极性进行分析，输出检测为不良信息的概率。