CN114139533A

CN114139533A - 一种面向中文小说领域的文本内容审核方法

Info

Publication number: CN114139533A
Application number: CN202111480639.0A
Authority: CN
Inventors: 张乐剑; 王为强; 徐童; 王玉龙; 赵海秀; 张少杰; 廖建新; 王晶
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-12-06
Filing date: 2021-12-06
Publication date: 2022-03-04

Abstract

一种面向中文小说领域的文本内容审核方法，包括：获取敏感词及所属类别，构建敏感词库；通过字符串匹配算法，检测待审核文本是否包含敏感词，如果是，则待审核文本是违规文本，且分类是敏感词所属类别，如果否，则继续下一步；设置多个违规分类标签，构建并训练小说文本内容审核模型，然后将待审核文本输入模型中，其工作流程如下：计算输入文本的语义特征向量和每个违规分类标签的信息特征向量，再计算输入文本和每个违规分类标签的相关语义特征向量，最后采用胶囊网络对相关语义特征向量聚类，根据顶层胶囊的每个违规分类标签的类别概率确定输入文本的分类。本发明属于信息技术领域，能实现中文小说文本内容自动审核，并提高审核准确率及效率。

Description

一种面向中文小说领域的文本内容审核方法

技术领域

本发明涉及一种面向中文小说领域的文本内容审核方法，属于信息技术领域。

背景技术

随着互联网技术的日趋成熟，依托于网络基础平台的网络小说作为新兴小说类型发展迅速。相较于传统文体，网络小说风格自由，题材不限，更近口语并充斥网络流行语，具有很强的时代性、娱乐性、广泛性和包容性。但与之相对的，高度自主性降低了网络小说作者的入行门槛，导致发布的文章良莠不齐，若不能对其进行有效筛选，很有可能造成错误的价值观和舆论导向。传统的人工审核需要耗费大量的时间和劳动成本，面对每天以成千上万数量更新的文章难免捉襟见肘。

因此，如何实现中文小说文本内容的自动审核，并有效提高审核准确度和审核效率，已成为现有技术中亟待解决的技术问题之一。

发明内容

有鉴于此，本发明的目的是提供一种面向中文小说的文本内容审核方法，能实现中文小说文本内容的自动审核，并有效提高审核准确率及审核效率。

为了达到上述目的，本发明提供了一种面向中文小说的文本内容审核方法，包括有：

步骤一、获取敏感词及所属类别，并构建敏感词库；

步骤二、通过字符串匹配算法，检测待审核的中文小说文本是否包含有敏感词库中的敏感词，如果是，则待审核的中文小说文本是违规文本，且其审核分类是所包含敏感词的所属类别，本流程结束；如果否，则继续下一步；

步骤三、设置多个违规分类标签，预先构建、并训练小说文本内容审核模型，然后将待审核的中文小说文本输入训练好的小说文本内容审核模型中，最后输出文本审核分类结果，小说文本内容审核模型的工作流程如下：首先通过神经网络编码得到输入的中文小说文本的语义特征向量和每个违规分类标签的信息特征向量，然后采用向量投影的计算方式，获得输入的中文小说文本和每个违规分类标签的相关语义特征向量，最后采用胶囊网络对输入的中文小说文本和所有违规分类标签的相关语义特征向量进行聚类，根据顶层胶囊计算得到的对应于每个违规分类标签的类别概率确定输入的中文小说文本的审核分类。

与现有技术相比，本发明的有益效果是：本发明在收集到的敏感词库基础上，进一步构建辅助判断的敏感拼音词库和敏感形近词库，首先通过AC自动机算法检测文本中是否包含敏感词，若是，则标记为违规文本，并根据敏感词所属类别进行分类；若否，则将文本继续输入至小说文本内容审核模型，从而获得模型输出的审核分类结果，能实现计算机自动完成小说文本内容的审核，在保证时效性的同时还能达到较为理想的审核准确率，并减少各类人力成本投入，对于缩减网络小说平台运营管理成本、维护良好的互联网阅读环境都具有不可忽视的意义。

附图说明

图1是本发明一种面向中文小说领域的文本内容审核方法的流程图。

图2是图1步骤一的具体流程图。

图3是图2步骤13中计算敏感字种子集合中的每个敏感字和候选字集合中的每个候选字之间的相似度的具体流程图。

图4是图1步骤三中的小说文本内容审核模型的具体工作流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

如图1所示，本发明一种面向中文小说领域的文本内容审核方法，包括有：

步骤一、获取敏感词及所属类别，并构建敏感词库，敏感词的所属类别可以包括有：色情涉黄、政治敏感、暴恐违禁、低俗辱骂等；

步骤二、通过字符串匹配算法(例如AC自动机算法)，检测待审核的中文小说文本是否包含有敏感词库中的敏感词，如果是，则表示待审核的中文小说文本是违规文本，且其审核分类是所包含敏感词的所属类别，本流程结束；如果否，则继续下一步；

步骤一中的敏感词库还可以包括有敏感拼音词库和敏感形近词库，这样，通过多种类型敏感词库的匹配，能有效提高敏感词检测召回率。如图2所示，图1步骤一可以进一步包括有：

步骤11、获取多个敏感词表，设置敏感词表中每个敏感词的所属类别，然后将敏感词表中的所有敏感词作为原始敏感词构成敏感词库；

步骤11可以收集多个开源敏感词表来构建初始的敏感词库；

步骤12、查询汉字拼音表，获取敏感词库中的每个原始敏感词的拼音，然后由所有原始敏感词的拼音构成敏感拼音词库；

步骤13、将敏感词库中的所有原始敏感词拆分成多个单独的字，并由拆分后的所有字构成敏感字种子集合，然后获取多个汉字作为候选字构成候选字集合，计算敏感字种子集合中的每个敏感字和候选字集合中的每个候选字之间的相似度，挑选出相似度大的候选字作为每个敏感字的形近字，由每个敏感字的所有形近字构成每个敏感字的形近字集合；

步骤13可以获取新华字典中的所有汉字作为候选字，并设置一个相似度阈值，然后挑选出相似度大于相似度阈值的候选字作为每个敏感字的形近字；

步骤14、根据敏感词库中的原始敏感词的汉字组成关系，从构成每个原始敏感词的敏感字的形近字集合中分别挑选一个形近字以组成一个新的敏感词，然后将新的敏感词写入敏感形近词库中，且新的敏感词的所属类别是其对应的原始敏感词的所属类别。

例如，对于由两个敏感字组成的原始敏感词，两个敏感字的形近字集合中各自包含有m和n个形近字，则最终可以组成m*n个新的敏感词，并写入敏感形近词库中，

步骤二中还包含有：

检测待审核的中文小说文本是否包含有敏感拼音词库和敏感形近词库中的敏感词。

如图3所示，步骤13中计算敏感字种子集合中的每个敏感字和候选字集合中的每个候选字之间的相似度，以敏感字A和候选字B为例，可以进一步包括有：

步骤131、采用编辑距离算法，计算敏感字A和候选字B的拼音相似度，计算公式如下：

其中，EditDis(A，B)为敏感字A和候选字B的拼音之间的最小编辑次数，统计的编辑方式包括删除一个字符、增加一个字符和修改一个字符，L_A、L_B分别是敏感字A、候选字B的拼音长度；

步骤132、设置笔形映射表，笔形映射表中包含有每个汉字笔形和其编码数字的映射关系，分别取敏感字A、候选字B的左上角、右上角、左下角、右下角以及右下角上方共五个位置的笔形，读取笔形映射表查询五个位置笔形各自对应的编码数字，组成敏感字A和候选字B的四角编码，然后计算敏感字A和候选字B的字形相似度：

其中，enc_A、enc_B分别是敏感字A、候选字B的四角编码，Count()函数表示逐位计算两个四角编码的异同，当其中一位相同则结果加1，不同则结果加0，该函数结果的取值范围为[0，5]；

步骤133、将汉字的所有结构类型分别编号，所述结构类型可以包括有：独体字、左右结构、上下结构、左中右结构、上中下结构、左上包围结构、右上包围结构、左下包围结构、上三包围结构、下三包围结构、左三包围结构、全包围结构、镶嵌结构、品字结构和田字结构，并获取敏感字A、候选字B的结构编号HA、HB，然后计算敏感字A和候选字B的结构相似度：

步骤134、计算敏感字A和候选字B的笔画相似度，其计算公式如下：

其中，N_A、N_B分别是敏感字A、候选字B的笔画总数；

步骤135、在大规模中文语料上训练Bert模型得到预训练语言模型，所述预训练语言模型的输入是字，输出是输入字对应的字向量，然后计算敏感字A和候选字B的语义相似度：

其中，E_A、E_B分别是敏感字A、候选字B的字向量，||E_A||和||E_B||分别是EA和EB的模，对于预训练语言模型中未出现过的生僻字，则其语义相似度默认置为0；

步骤136、计算敏感字A和候选字B的相似度：sim＝α₁sim₁+α₂sim₂+α₃sim₃+α₄sim₄+α₅sim₅，其中，α₁、α₂、α₃、α₄、α₅分别是拼音相似度、字形相似度、结构相似度、笔画相似度、语义相似度的权重参数，其值可以根据实际业务需要而设置。

本发明可以将中文小说按章节划分，并分别进行文本片段切分和乱码文本清除操作，从而得到处理后的多个中文小说文本，然后将所有中文小说文本加入新建的待审核区，并逐一对待审核区的每个中文小说文本进行审核，最后汇总所有中文小说文本的审核结果，从而生成整个小说章节的内容审核报告。

如图4所示，步骤三中的小说文本内容审核模型的工作流程可以进一步包括有：

步骤31、构建语义特征模型，语义特征模型由一个中断循环神经网络DRNN构成，并采用BiGRU(即Bidirection Gated Recurrent ∪nit，双向门控循环神经网络)作为DRNN的循环神经单元，分别计算前向和后向网络t个时刻的隐藏层输出，对于每一个时刻，将前向和后向的隐藏层输出向量进行求和从而获得该时刻的特征向量，最后输出的t个时刻的特征向量即是输入的中文小说文本的语义特征向量，t的值可以根据实际业务需要而设置；

DRNN通过设定每个循环神经单元的计算窗口大小为k，可以使当前词的语义只与当前词以及之前的k-1个词相关，同时保留局部位置特征和长距离依赖信息；

步骤32、从预训练好的Bert语言模型中查找每个违规分类标签中所包含词汇的词向量，若没有对应的词向量，则查找词汇拆分成字后的字向量，对所有字向量求和平均来表示词向量，然后将每个违规分类标签的词向量输入一个全连接神经网络，最后输出的向量即是每个违规分类标签的信息特征向量；

步骤33、计算输入的中文小说文本和每个违规分类标签的相关语义特征向量：

其中，x_j是输入的中文小说文本的第j个语义特征向量，j∈[1，t]，y_i是第i个违规分类标签的信息特征向量，Proj(x_j，y_i)是输入的中文小说文本的第j个语义特征向量和第i个违规分类标签的相关语义特征向量；

步骤33中，通过向量投影的方式计算输入的中文小说文本的语义特征向量与违规分类标签的信息特征向量的投影结果，可以抽取出输入的中文小说文本的语义特征向量中与分类结果强相关的语义特征；

步骤34、构建胶囊网络，所述胶囊网络包含一个卷积胶囊层和一个全连接胶囊层，胶囊网络的处理流程如下：输入的中文小说文本和每个违规分类标签的每一个相关语义特征向量都是卷积胶囊层的一个输入胶囊，卷积胶囊层的输出胶囊是全连接胶囊层的输入胶囊，每个全连接胶囊层的输出胶囊(称为顶层胶囊)对应一个分类类别，即每个顶层胶囊的模长对应一个违规分类标签的类别概率，每层胶囊网络从输入胶囊到输出胶囊的特征传递过程使用动态路由的方式进行计算，最后根据顶层胶囊对应的类别概率确定输入的中文小说文本的审核分类。

胶囊是向量化的特征表示，基于向量的特征表示能够在学习过程中对输入特征组之间的潜在相互依赖性进行编码，每个输出层胶囊的向量模长代表某一个特征模式的存在概率，向量方向决定现在这个模式的具体特征。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种面向中文小说领域的文本内容审核方法，其特征在于，包括有：

步骤一、获取敏感词及所属类别，并构建敏感词库；

2.根据权利要求1所述的方法，其特征在于，字符串匹配算法是AC自动机算法。

3.根据权利要求1所述的方法，其特征在于，敏感词库还包括有敏感拼音词库和敏感形近词库，步骤一进一步包括有：

步骤14、根据敏感词库中的原始敏感词的汉字组成关系，从构成每个原始敏感词的敏感字的形近字集合中分别挑选一个形近字以组成一个新的敏感词，然后将新的敏感词写入敏感形近词库中，且新的敏感词的所属类别是其对应的原始敏感词的所属类别，

这样，步骤二还包含有：

4.根据权利要求3所述的方法，其特征在于，步骤13中计算敏感字种子集合中的每个敏感字和候选字集合中的每个候选字之间的相似度，以敏感字A和候选字B为例，进一步包括有：

步骤133、将汉字的所有结构类型分别编号，所述结构类型包括有：独体字、左右结构、上下结构、左中右结构、上中下结构、左上包围结构、右上包围结构、左下包围结构、上三包围结构、下三包围结构、左三包围结构、全包围结构、镶嵌结构、品字结构和田字结构，并获取敏感字A、候选字B的结构编号H_A、H_B，然后计算敏感字A和候选字B的结构相似度：

其中，N_A、N_B分别是敏感字A、候选字B的笔画总数；

其中，E_A、E_B分别是敏感字A、候选字B的字向量，||E_A||和||E_B||分别是E_A和E_B的模，对于预训练语言模型中未出现过的生僻字，则其语义相似度默认置为0；

步骤136、计算敏感字A和候选字B的相似度：sim＝α₁sim₁+α₂sim₂+α₃sim₃+α₄sim₄+α₅sim₅，其中，α₁、α₂、α₃、α₄、α₅分别是拼音相似度、字形相似度、结构相似度、笔画相似度、语义相似度的权重参数。

5.根据权利要求1所述的方法，其特征在于，步骤三中的小说文本内容审核模型的工作流程进一步包括有：

步骤31、构建语义特征模型，语义特征模型由一个中断循环神经网络DRNN构成，并采用双向门控循环神经网络BiGRU作为DRNN的循环神经单元，分别计算前向和后向网络t个时刻的隐藏层输出，对于每一个时刻，将前向和后向的隐藏层输出向量进行求和从而获得该时刻的特征向量，最后输出的t个时刻的特征向量即是输入的中文小说文本的语义特征向量；

步骤34、构建胶囊网络，所述胶囊网络包含一个卷积胶囊层和一个全连接胶囊层，胶囊网络的处理流程如下：输入的中文小说文本和每个违规分类标签的每一个相关语义特征向量都是卷积胶囊层的一个输入胶囊，卷积胶囊层的输出胶囊是全连接胶囊层的输入胶囊，每个全连接胶囊层的输出胶囊对应一个分类类别，输出胶囊称为顶层胶囊，即每个顶层胶囊的模长对应一个违规分类标签的类别概率，每层胶囊网络从输入胶囊到输出胶囊的特征传递过程使用动态路由的方式进行计算，最后根据顶层胶囊对应的类别概率确定输入的中文小说文本的审核分类。