CN108984530A

CN108984530A - 一种网络敏感内容的检测方法及检测系统

Info

Publication number: CN108984530A
Application number: CN201810809775.1A
Authority: CN
Inventors: 徐雅斌; 孟旭阳
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Jiuweiwei'an Technology Co ltd
Priority date: 2018-07-23
Filing date: 2018-07-23
Publication date: 2018-12-11
Anticipated expiration: 2038-07-23
Also published as: CN108984530B

Abstract

本发明公开一种网络敏感内容的检测方法及检测系统。本发明将敏感词汇的变形词汇与敏感词汇的指纹值定义为一个，极大的考虑了变形词与原词的关联性，并且改进了语义指纹的确定方法，然后，采用改进的语义指纹技术判断待检测文本是否为已检测过的相同或相似敏感内容。若是则直接判为敏感内容；否则，通过提出的综合敏感内容和文本情感倾向的多任务卷积神经网络模型进行敏感内容检测，不仅可以避免传统方法需要训练两个模型的复杂过程，而且还可以有效的提高检测的准确性。本发明与现有方法和系统相比，不仅准确率有了较大的提升而且快速、能够保证实时性检测。

Description

一种网络敏感内容的检测方法及检测系统

技术领域

本发明涉及敏感内容检测领域，特别是涉及一种网络敏感内容的检测方法及检测系统。

背景技术

社交网络以其方便、灵活的信息发布和快速、高效的网络传播方式深受广大网民的喜爱，已经成为广大网民沟通交流的重要平台和获取信息的重要入口。

然而，社交网络的广泛应用同样给敏感内容的传播提供了网络空间。为了加强对网络内容的管理，营造一个风清气正的网络空间，培育积极健康、向上向善的网络文化，必须采用先进的技术手段对社交网络内容进行必要的检测和过滤。对社交网络中的敏感内容进行高效、准确的检测不仅可以确保网络用户远离有害信息侵扰、打击违法犯罪行为，对维护社会安定、呵护青少年身心健康等都具有十分重要的意义。

由于，敏感信息发布者常对敏感词进行各种变形来躲避检测，现有敏感内容检测方法在进行敏感词检测时只是将识别出的各种变形词加入敏感词库，按此与分词处理后的社交网络发布信息进行匹配检测，但忽略了变形词与原词之间的关联性，导致传统的基于关键词匹配的方法识别准确率并不理想，存在较多漏判、误判现象，准确率较低。

发明内容

本发明的目的是提供一种网络敏感内容的检测方法及检测系统，用来提高敏感内容检测的准确率。

为实现上述目的，本发明提供了如下方案：

一种网络敏感内容的检测方法，所述检测方法包括：

对待发布文本进行预处理，得到文档集合，所述文档集合包括多个分词结果，且所述分词结果之间以空格分隔；

根据变形识别算法对所述文档集合进行敏感词汇的变形词汇的识别；

根据哈希函数确定各所述分词结果的指纹值；其中，敏感词汇与其对应的变形词汇的指纹值是一样的；

根据各所述分词结果的指纹值以及每个分词结果出现的次数计算待发布文本的语义指纹；

计算所述语义指纹值与敏感文本语义指纹库中任一敏感文本语义指纹值的语义距离；

判断所述语义距离是否大于设定阈值，得到判断结果；

当所述判断结果表示所述语义距离小于等于设定阈值时，确定所述待发布文本为敏感内容；

当所述判断结果表示所述语义距离大于设定阈值时，构建基于多任务学习的卷积神经网络模型；其中，多任务包括：敏感内容检测和文本情感极性识别；

将各所述分词结果转化为词向量矩阵；

将所述词向量矩阵输入到所述基于多任务学习的卷积神经网络模型中，得到输出结果；

当输出结果的敏感内容检测大于0时，确定所述待发布文本为敏感内容；

当输出结果的敏感内容检测为0时，确定所述待发布文本为正常文本内容。

可选的，所述对待发布文本进行预处理，具体包括：

将特殊表示符号进行替换处理，提取规范内容；

对所述替换处理后的文本进行词语切分，去除停用词，得到以空格分隔词语的文档集合。

可选的，所述根据变形识别算法识别敏感词汇的变形词汇，具体包括：

去除夹杂的特殊符号、若出现繁体字则进行繁简转化；

若分词结果中出现连续3个及以上的单字，则将连续出现的单字转化为对应的拼音；若分词结果中出现拼音，则以此拼音为中心，将前后4个词汇均转为汉字对应的拼音；判断拼音序列顺序组合检测是否为敏感词汇所对应的拼音，若是，则判断为敏感词汇的变形词汇；

若分词结果中出现拼音首字母，则以此拼音首字母为中心，将前后4个词汇均转为汉字对应的拼音首字母，判断拼音首字母序列顺序组合检测是否为敏感词汇所对应的拼音首字母，若是，判断为敏感词汇的变形词汇。

可选的，根据各所述分词结果的指纹值以及每个分词结果出现的次数计算待发布文本的语义指纹，具体包括：

计算每个分词结果出现的频率，即词频；

根据每个分词结果的词频处理每个分词结果的指纹值，得到权重处理结果，所述指纹值为64位二进制值，若每位的二进制值为1时，则在该位加上词频，若每位的二进制值为0时，则在该位减去词频；

将各权重处理结果的相应位上的数字求和，得到求和结果，

将所述求和结果根据数字的符号转换位二进制数字，若符号为正，则转换为1，若符号为负，则转换为0。

可选的，所述语义距离的计算公式如下：

式中，函数NumberOf1用来求二进制数中1的个数，为异或运算，F_i与F_j为64位二进制数，表示语义指纹值。

可选的，构建基于多任务学习的卷积神经网络模型，具体包括：

对完成预处理以及分词后的训练集文本内容进行人工标注，每个训练文本包括敏感内容和情感极性两个标签；

将各所述训练文本转换为词向量矩阵；

将各所述词向量矩阵通过深度学习，得到基于多任务学习的卷积神经网络模型。

可选的，将敏感内容和情感极性两个任务通过一个优化器进行优化，实现联合训练。

可选的，将敏感内容和情感极性两个任务通过两个不同的优化器进行优化，实现交替训练。

可选的，敏感内容为二分类任务，有两个值0或1，0代表为正常文本内容，1代表为敏感内容；或者敏感内容为多分类任务，有多个取值，0代表正常文本内容，1代表第一类敏感内容，2代表第二类敏感内容……以此类推。

一种网络敏感内容的检测系统，所述检测系统包括：

预处理模块，用于对待发布文本进行预处理，得到文档集合，所述文档集合包括多个分词结果，且所述分词结果之间以空格分隔；

敏感词汇的变形词汇的识别模块，用于根据变形识别算法对所述文档集合进行敏感词汇的变形词汇的识别；

分词结果的指纹值的确定模块，用于根据哈希函数确定各所述分词结果的指纹值；其中，敏感词汇与其对应的变形词汇的指纹值是一样的；

待发布文本的语义指纹的计算模块，用于根据各所述分词结果的指纹值以及每个分词结果出现的次数计算待发布文本的语义指纹；

语义距离计算模块，用于计算所述语义指纹值与敏感文本语义指纹库中任一敏感文本语义指纹值的语义距离；

判断模块，用于判断所述语义距离是否大于设定阈值，得到判断结果；

第一敏感内容确定模块，用于当所述判断结果表示所述语义距离小于等于设定阈值时，确定所述待发布文本为敏感内容；

卷积神经网络模型构建模块，用于当所述判断结果表示所述语义距离大于设定阈值时，构建基于多任务学习的卷积神经网络模型；其中，多任务包括：敏感内容检测和文本情感极性识别；

词向量矩阵转换模块，用于将各所述分词结果转换为词向量矩阵；

输出结果确定模块，用于将所述词向量矩阵输入到所述基于多任务学习的卷积神经网络模型中，得到输出结果；

第二敏感内容确定模块，用于当输出结果的敏感内容检测大于0 时，则确定所述待发布文本为敏感内容；

正常文本内容确定模块，用于当输出结果的敏感内容检测为0 时，则确定所述待发布文本为正常文本内容。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明将敏感词汇的变形词汇与敏感词汇的指纹值定义为一个，极大的考虑了变形词与原词的关联性，并且改进了语义指纹的确定方法，然后，采用改进的语义指纹技术判断待检测文本是否为已检测过的相同或相似敏感内容。若是则直接判为敏感内容；否则，通过提出的综合敏感内容和文本情感倾向的多任务卷积神经网络模型进行敏感内容检测，不仅可以避免传统方法需要训练两个模型的复杂过程，而且还可以有效的提高检测的准确性。本发明与现有方法和系统相比，不仅准确率有了较大的提升而且快速、能够保证实时性检测。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明网络敏感内容的检测方法的流程图；

图2为本发明对待发布文本进行预处理的流程图；

图3为本发明计算待发布文本的语义指纹的流程图；

图4为本发明构建基于多任务学习的卷积神经网络模型的流程图；

图5为本发明网络敏感内容的检测系统的结构连接图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有敏感内容检测方法存在两个问题：1)在进行敏感词检测时只是将识别出的各种变形词加入敏感词库，按此与分词处理后的社交网络发布信息进行匹配检测，但忽略了变形词与原词之间的关联性。 2)在检测方法与模型上，现有方法并未充分考虑到语义特征和情感信息等，存在较多漏判、误判现象，准确率较低。而且有些方法需要训练两个模型，然后综合进行判定，从而严重影响检测效率。

针对以上问题，本发明将待检测文本进行预处理后，首先构建敏感指纹词库D_sw，采用提出的“敏感词指纹汇聚”方法将识别出的各种敏感变形词打上指纹并与原词进行关联。然后，采用改进的语义指纹技术判断待检测文本是否为已检测过的相同或相似敏感内容。若是则直接判为敏感内容；否则，通过提出的综合敏感内容和文本情感倾向的多任务卷积神经网络模型(MTL-CNN)进行敏感内容检测，不仅可以避免传统方法需要训练两个模型的复杂过程，而且还可以有效的提高检测的准确性。本发明与现有方法和系统相比，检测性能得到了明显提升。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明网络敏感内容的检测方法的流程图，如图1所示，所述检测方法包括：

步骤10：对待发布文本进行预处理，得到文档集合，所述文档集合包括多个分词结果，且所述分词结果之间以空格分隔。

图2为本发明对待发布文本进行预处理的流程图；如图2所示，具体包括：

步骤101：将特殊表示符号进行替换处理，提取规范内容。

对社交网络中的待发布文本进行预处理，对于微博内容来说，将其中的表情符号、链接、图片、以及@符号等特殊表示形式进行替换处理，从而从文本数据中提取较为规范的内容，剔除噪声信息。替换处理结果如下：

处理前：@用户名，处理后：[好友]；处理前：链接，处理后： URL；处理前：图片，处理后：img；处理前：表情符号，处理后：[表情名]。

步骤102：对所述替换处理后的文本进行词语切分，去除停用词，得到以空格分隔词语的文档集合。

调用分词工具对上述预处理后的文本进行词语切分，然后去除停用词，得到以空格分隔词语的文档集合；

步骤20：根据变形识别算法对所述文档集合进行敏感词汇的变形词汇的识别。

变形词识别算法如下：

(1)去除文本中夹杂的特殊符号、若出现繁体字则进行繁简转化。

(2)对于分词结果中若出现连续单字情况(即，连续3个及以上单个字成词)，则将连续单字转化为汉字对应的拼音。对此拼音序列顺序组合检测是否为敏感关键词所对应的拼音，若为，则成功识别。

(3)若文本中出现拼音，则以此拼音为中心，将前后4个词汇均转为汉字对应的拼音。对此拼音序列顺序组合检测是否为敏感关键词所对应的拼音，若为，则成功识别。

(4)若文本中出现拼音首字母，则一次拼音首字母为中心，将前后4个词汇均转为汉字对应的拼音首字母。对此拼音首字母序列顺序组合检测是否为敏感关键词所对应的拼音首字母，若为，则成功识别。

步骤30：根据哈希函数确定各所述分词结果的指纹值；其中，敏感词汇与其对应的变形词汇的指纹值是一样的。通过敏感词指纹汇聚方法，为敏感词汇、敏感词的变形词汇打上指纹，使原始敏感词汇与其变形词汇相关联。

使用Jenkins Hash哈希函数对分词结果进行哈希处理，得到的一个k位的哈希值即为该分词结果的指纹值。

其中，敏感词指纹定义：使用Jenkins Hash哈希函数对原始的敏感词w_i进行哈希处理，得到的一个k位的哈希值即为该敏感词的指纹值，每类敏感词的指纹具有唯一性。

注意，实际当中我们将采用64位的指纹。

敏感词指纹汇聚过程的原理及过程如下：

将敏感词的各种变体词汇均映射到原始敏感词的指纹上。这样无论多少的变体词汇，每个变体词汇均代表这个原始的敏感词。

步骤40：根据各所述分词结果的指纹值以及每个分词结果出现的次数计算待发布文本的语义指纹。

图3为本发明计算待发布文本的语义指纹的流程图；如图3所示，具体包括：

步骤401：计算每个分词结果出现的频率，即词频；

步骤402：根据每个分词结果的词频处理每个分词结果的指纹值，得到权重处理结果，所述指纹值为6个二进制值，若每位的二进制值为1时，则在该位加上词频，若每位的二进制值为0时，则在该位减去词频；

步骤403：将各权重处理结果的相应位上的数字求和，得到求和结果，

步骤404：将所述求和结果根据数字的符号转换位二进制数字，若符号为正，则转换为1，若符号为负，则转换为0。

虽然敏感词进行了变形伪装，但其语义与原始敏感词保持一致，为提高敏感文本相似度检测性能，本发明的语义指纹生成方法考虑敏感词的各种变形情况，引入敏感词指纹汇聚方法，具体过程如下：计算词频作为每个词项(其中敏感词和它的变形词是一个词项)的权值，同时通过普通的hash函数计算得到各元素的一个二进制哈希值(64 位)。由于敏感变形词与原词的关联关系，此时敏感变形词的出现相当于原词的再次出现，因此计算一个敏感词的词频，即文本中出现的原始敏感词与其敏感变形词的次数之和。然后将所有元素的哈希值加权累加，得到一个同样位数的向量V，最后根据V中各位的符号生成文本的语义指纹。

本发明的语义指纹生成方法融入了敏感变形词指纹汇聚过程，使得敏感变形词与原词采用相同的编码表示这组敏感词。避免了经典 Simhash语义指纹生成算法无法支持同义词、敏感词与敏感变形词之间的语义问题，从而提高了敏感文本相似度检测性能。

步骤50：计算所述语义指纹值与敏感文本语义指纹库中任一敏感文本语义指纹值的语义距离；所述语义距离的计算公式如下：

式中，函数NumberOf1用来求二进制数中1的个数，为异或运算，与为64位二进制数，表示语义指纹值，Dist_h(F_i,F_j)为求得的汉明距离，即语义距离。

步骤60：判断所述语义距离是否大于设定阈值，得到判断结果。

步骤70：当所述判断结果表示所述语义距离小于等于设定阈值时，确定所述待发布文本为敏感内容。

我们事先建立好一个敏感文本指纹库，将已知敏感文本的语义指纹入库，并不断更新敏感文本指纹库，这样相同的敏感文本下次将会被自动识别，由于算法过程仅是CPU运算和指纹查找，相对于其它采用机器学习模型进行检测的过程在检测速度上具有明显的优势。

步骤80：当所述判断结果表示所述语义距离大于设定阈值时，构建基于多任务学习的卷积神经网络模型；其中，多任务包括：敏感内容检测和文本情感极性识别。

图4为本发明构建基于多任务学习的卷积神经网络模型的流程图；如图4所示，构建基于多任务学习的卷积神经网络模型，具体包括：

步骤801：对完成预处理以及分词后的训练集文本内容进行人工标注，每个训练文本包括敏感内容和情感极性两个标签；

步骤802：将各所述训练文本转换为词向量矩阵；

步骤803：将各所述词向量矩阵通过深度学习，得到基于多任务学习的卷积神经网络模型。

对训练语料集分词好的数据合并生成词级别的训练语料，使用 gensim的word2vec工具词向量工具来训练一个词向量空间。

在词向量训练过程中，本文采用的训练参数配置如下：a)选用速度更快的CBOW(Continuous Bag-Of-Words)模型；b)上下文滑动窗口大小一般为[5,10]之间，此处我们取经验值8；c)单词向量维度取经验值300。对于未出现在词向量语料中的词汇，则进行随机初始化操作。

对完成预处理以及分词后的训练集文本内容，通过训练好的词向量模型顺序映射为词向量，将文本内容转化为词向量矩阵作为输入，使用Google开源深度学习框架TensorFlow训练得到一个基于多任务学习的敏感内容检测卷积神经网络模型。所述基于多任务学习的敏感内容检测卷积神经网络模型包括训练得到的参数和深度学习工具，两个任务分别为：敏感内容检测(Task1)、文本情感极性识别(Task2)。其中，Task1为我们的主任务，即最终关注的结果；Task2作为辅助任务，即在进行敏感内容检测的同时，可以充分利用文本情感倾向特征。在网络模型的训练过程中，由于Task1和Task2两个任务可以通过共享参数的方式获得两个任务之间的共享特征，因而对比两个单独的任务来说，可以获得更好的学习效果。

其中，训练集文本进行人工标注过程中，每条数据有两个标签， lable1：是否为敏感内容；lable2：情感极性。其中，Task2为二分类任务，lable2有两个值0或1，0代表情感极性为负，1代表情感极性为正；当数据中为一类敏感内容时，Task1为二分类任务，lable1有两个值0或1，0代表为正常文本内容，1代表为敏感内容；当数据中有多类敏感内容时，Task1为多分类任务，lable1有多个取值，0 代表正常文本内容，1代表第一类敏感内容，2代表第二类敏感内容……以此类推。

在网络模型中的可调参数设置如下：a)卷积核函数为 ReLu(RectifiedLinearUnits)函数，RELU的表达能力更强，ReLU由于非负区间的梯度为常数，因此不存在梯度消失问题，使得模型的收敛速度维持在一个稳定状态。b)过滤器滑动窗口大小h分为别3，4， 5。c)过滤器数量设为128，每种卷积核都能发现输入样本中不同的局部特征，充分考虑了各个词的上下文信息；d)优化器选择 AdagradOptimizer，可以自动变更学习速率。e)选用的块大小为100； f)丢弃率为0.1；g)训练的迭代次数为1000。

在训练过成中，预设两个方案如下：

方案1：联合训练，如公式(2)所示，得到模型的总损失，将两者联合在一起，通过一个优化器进行优化，即两个任务同时训练。

L_loss＝L_losstask1+λ*L_losstask2 (2)

其中，L_losstask1表示Task1的损失函数，L_losstask2表示Task2的损失函数，λ用来权衡这两个任务之间的相对重要程度。在损失函数的选择上，我们采用交叉熵损失(crossentropyloss)作为监督信息，并在此基础上又引入了L2正则化(Regularization)。

方案2：交替训练，每个任务的loss后面接一个优化器，即每一次的优化只针对于当前任务，也就是说另一个任务是完全不管的。

实验的实际效果表明方案1效果更好，因此选择最优的方案1作为我们的检测模型。

步骤90：将各所述分词结果转化为词向量矩阵。

步骤100：将所述词向量矩阵输入到所述基于多任务学习的卷积神经网络模型中，得到输出结果。

步骤110：当输出结果的敏感内容检测大于0时，确定所述待发布文本为敏感内容。如果敏感内容选择二分类任务，有两个值0或1， 0代表为正常文本内容，1代表为敏感内容。当输出结果的敏感内容检测为1时，则可以确定待发布文本为敏感内容。

如果敏感内容为多分类任务，有多个取值，0代表正常文本内容， 1代表第一类敏感内容，2代表第二类敏感内容……以此类推。则输出结果的敏感内容只要大于0，都可以确定待发布文本为敏感内容，而且还可以得到敏感内容的具体类别。

步骤120：当输出结果的敏感内容检测为0时，确定所述待发布文本为正常文本内容。无论敏感内容检测选择二分类还是多分类任务，当输出结果为0时，都可以确定待发布文本为正常文本内容。

例如：例2中的文本经过网络模型进行检测的输出结果为：Task1： 1；Task2：1。注意，我们最终关注Task1的分类结果，标签为1代表是敏感内容，标签为0代表是正常文本内容。

针对上述方法，本申请还提供了一种网络敏感内容的检测系统。图5为本发明网络敏感内容的检测系统的结构连接图。如图5所示，所述监测系统包括：

预处理模块1301，用于对待发布文本进行预处理，得到文档集合，所述文档集合包括多个分词结果，且所述分词结果之间以空格分隔；

敏感词汇的变形词汇的识别模块1302，用于根据变形识别算法对所述文档集合进行敏感词汇的变形词汇的识别；

分词结果的指纹值的确定模块1303，用于根据哈希函数确定各所述分词结果的指纹值；其中，敏感词汇与其对应的变形词汇的指纹值是一样的；

待发布文本的语义指纹的计算模块1304，用于根据各所述分词结果的指纹值以及每个分词结果出现的次数计算待发布文本的语义指纹；

语义距离计算模块1305，用于计算所述语义指纹值与敏感文本语义指纹库中任一敏感文本语义指纹值的语义距离；

判断模块1306，用于判断所述语义距离是否大于设定阈值，得到判断结果；

第一敏感内容确定模块1307，用于当所述判断结果表示所述语义距离小于等于设定阈值时，确定所述待发布文本为敏感内容；

卷积神经网络模型构建模块1308，用于当所述判断结果表示所述语义距离大于设定阈值时，构建基于多任务学习的卷积神经网络模型；其中，多任务包括：敏感内容检测和文本情感极性识别；

词向量矩阵转换模块1309，用于将各所述分词结果转换为词向量矩阵；

输出结果确定模块1310，用于将所述词向量矩阵输入到所述基于多任务学习的卷积神经网络模型中，得到输出结果；

第二敏感内容确定模块1311，用于当输出结果的敏感内容检测大于0时，则确定所述待发布文本为敏感内容；

正常文本内容确定模块1312，用于当输出结果的敏感内容检测为0时，则确定所述待发布文本为正常文本内容。

本发明提供的检测系统和检测方法相同，因此细节不再赘述，具体细节参照方法的描述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种网络敏感内容的检测方法，其特征在于，所述检测方法包括：

判断所述语义距离是否大于设定阈值，得到判断结果；

将各所述分词结果转化为词向量矩阵；

2.根据权利要求1所述的检测方法，其特征在于，所述对待发布文本进行预处理，具体包括：

将特殊表示符号进行替换处理，提取规范内容；

3.根据权利要求1所述的检测方法，其特征在于，所述根据变形识别算法识别敏感词汇的变形词汇，具体包括：

去除夹杂的特殊符号、若出现繁体字则进行繁简转化；

4.根据权利要求1所述的检测方法，其特征在于，根据各所述分词结果的指纹值以及每个分词结果出现的次数计算待发布文本的语义指纹，具体包括：

计算每个分词结果出现的频率，即词频；

将各权重处理结果的相应位上的数字求和，得到求和结果，

5.根据权利要求1所述的检测方法，其特征在于，所述语义距离的计算公式如下：

6.根据权利要求1所述的检测方法，其特征在于，构建基于多任务学习的卷积神经网络模型，具体包括：

将各所述训练文本转换为词向量矩阵；

7.根据权利要求6所述的检测方法，其特征在于，将敏感内容和情感极性两个任务通过一个优化器进行优化，实现联合训练。

8.根据权利要求6所述的检测方法，其特征在于，将敏感内容和情感极性两个任务通过两个不同的优化器进行优化，实现交替训练。

9.根据权利要求6所述的检测方法，其特征在于，敏感内容为二分类任务，有两个值0或1，0代表为正常文本内容，1代表为敏感内容；或者敏感内容为多分类任务，有多个取值，0代表正常文本内容，1代表第一类敏感内容，2代表第二类敏感内容……以此类推。

10.一种网络敏感内容的检测系统，其特征在于，所述检测系统包括：

第二敏感内容确定模块，用于当输出结果的敏感内容检测大于0时，则确定所述待发布文本为敏感内容；

正常文本内容确定模块，用于当输出结果的敏感内容检测为0时，则确定所述待发布文本为正常文本内容。