CN109902223B

CN109902223B - 一种基于多模态信息特征的不良内容过滤方法

Info

Publication number: CN109902223B
Application number: CN201910032064.2A
Authority: CN
Inventors: 黄龙涛; 马婷; 虎嵩林; 韩冀中
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2019-01-14
Filing date: 2019-01-14
Publication date: 2020-12-04
Anticipated expiration: 2039-01-14
Also published as: CN109902223A

Abstract

本发明提出了一种基于多模态信息特征的不良内容过滤方法，将文本集划分为训练集与测试集，将分词结果和关键词输入到分类算法，提取文本特征，训练分类器；将训练好的分类器用于预测测试集，得到文本分类结果；将文本集和关键词集转为图像数据，将数据图像集与文本集相对应，划分为对应的训练集与测试集，进行相似度计算，得到相似度最大值集合以及最大值对应的关键词集合，如果该关键词集合的关键词满足阈值约束，则匹配成功，则该关键词为相似度最大值对应的关键词，作为图像分类结果；对比文本分类结果与图像分类结果，根据判别条件得到最终的类别预测结果，以过滤该不良内容。

Description

一种基于多模态信息特征的不良内容过滤方法

技术领域

本发明属于计算机信息技术领域，具体涉及一种基于多模态信息特征的不良内容过滤方法。

背景技术

互联网行业的发展随之而来的就是不法分子利用互联网这个平台传播一些不良信息。在文本传播方面，不法分子为了逃避检测系统，会选择将易被传统检测系统识别出的不良信息进行变形处理，例如使用变形词替换文本中的关键词，这些做法会导致变形后的文本与原文本无直接联系，影响了检测系统对所传播信息内容的判断，降低了信息安全监管的强度，因此对含有变形词的文本内容进行过滤处理在信息安全领域有很重要的研究意义。

自然语言处理领域目前在文本过滤上的研究已经比较深入并且应用较为广泛，可以识别并处理很多情况。对于在不良信息中使用变形词逃避检测系统检测的行为，目前主要采用对比待检测文本信息与关键词词库中不良关键词信息的方法、模糊匹配查询方法以及机器学习的方法。以上解决混有变形词的文本过滤问题的诸多方法均是从文本角度考虑的，这也是传统过滤系统的出发点，观察到很多变形词和原始关键词并无语义上的联系，但具有视觉方面的相似性，即形近词，这对传统的过滤系统无疑是一个很大的挑战。

发明内容

针对以上存在的问题，本发明提出了一种基于多模态信息特征的不良内容过滤方法，同时基于文本特征与图像特征对不良内容进行过滤，提升过滤效果。

为解决上述技术问题，本发明采用的技术方案如下：

一种基于多模态信息特征的不良内容过滤方法，包括以下步骤：

对初始文本数据进行清洗，再进行人工类别标注和数据均衡处理，得到关键词集和文本集；

对文本集进行分词和去除停用词处理，再随机划分为训练集与测试集；

将训练集与测试集的分词结果和关键词输入到分类算法，提取文本特征，训练分类器；

将训练好的分类器用于预测测试集，得到文本分类结果；

将文本集和关键词集转为图像数据，得到对应的数据图像集和关键词图像集，并对数据图像集标注出对应的关键词；

将数据图像集与文本集相对应，划分为对应的训练集与测试集；

对数据图像集的训练集通过模板匹配方法进行相似度计算，得到所有数据图像对应的相似度最大值集合以及最大值对应的关键词集合；

对数据图像集的测试集进行如上所述的相似度计算，得到相似度最大值集合以及最大值对应的关键词集合，如果该关键词集合的关键词满足阈值约束，则匹配成功，则该关键词为相似度最大值对应的关键词，作为图像分类结果；

对比上述文本分类结果与图像分类结果，根据判别条件得到最终的类别预测结果，以过滤该不良内容。

进一步地，对初始文本数据进行清洗是指去掉无意义、缺失、冗余的数据。

进一步地，对文本集使用交叉验证随机划分为训练集与测试集。

进一步地，文本特征是指分量是词项TF-IDF值的向量。

进一步地，通过模板匹配方法进行相似度计算的方法为：

计算一数据图像被一关键词图像所覆盖部分的图像特征与该关键词图像的相似度；

移动该关键词图像至该数据图像上的下一个位置，再次计算相似度，如此直到移动到该关键词图像的右边缘与原数据图像的右边缘重合，统计全部的相似度；

从所统计的全部相似度中找出最大的相似度，作为该关键词图像对应的相似度；

更换关键词图像，重复上述步骤，得到该数据图像与关键词图像集中所有关键词图像的相似度；

从上述所有关键词图像的相似度中选取相似度最大值，并记录该最大值对应的关键词，作为匹配结果；

采用上述步骤，计算数据图像集中所有数据图像对应的相似度最大值，记录相似度最大值对应的关键词，得到所有数据图像对应的相似度最大值集合和最大值对应的匹配结果集合。

进一步地，图像特征是指取值为0～255的像素矩阵。

进一步地，关键词图像每次移动一个像素点。

进一步地，相似度计算方法包括标准平方差匹配计算、标准相关匹配计算。

进一步地，数据图像为一行文本，在对该数据图像进行相似度计算时，关键词图像从该数据图像的最左端开始，移动至最右端终止。

进一步地，根据数据图像集的训练集的相似度最大值集合、相似度最大值对应的关键词以及对数据图像集标注出的关键词，确定用于判断分类结果正确与否的阈值。

进一步地，如果关键词不满足阈值约束，则匹配不成功，则将数据图像的关键词进行标记。

一种基于多模态信息特征的不良内容过滤系统，包括存储器和处理器，该存储器存储计算机程序，该程序被配置为由该处理器执行，该程序包括用于执行上述方法中各步骤的指令。

本发明方法首先选取基于文本特征的内容过滤方法进行实验，即采用文本分类的方法，提取文本特征，训练分类器，输出分类结果。在此之后，使用基于图像特征的内容过滤方法进行实验，输入上述文本的测试集对应的图像，选取模板匹配方法进行匹配，输出匹配结果，比较图像匹配结果与文本分类结果，得到最终类别结果，对指定的类别集合进行过滤，达到不良信息过滤的目的。

考虑到文本中的变形词问题，倘若使用图像方法得到的匹配结果与分类结果不一致，则最终结果选取图像方法得到的匹配结果，否则选取分类结果最为最终结果。由于图像方法主要针对的是形近字词的变形情况，因此只要满足阈值条件的匹配结果，准确率会高于文本分类方法，另一方面，倘若不良信息中关键词未使用变形处理，而是同义替换或是使用别名，图像方法的匹配会由于阈值的限制，而不能得到匹配结果(可记为NoMatch)，这时采用文本分类的结果最为最终结果是非常合理的。

本方法的有益效果在于：针对文本数据内容中包含有变形处理的不良关键词的问题，引入了视觉特征，采取了将文本特征与图像特征相结合的基于多模态信息特征的过滤方法，在对特定垃圾信息进行过滤处理时，可以更加准确地识别垃圾内容，更加全面地解决不良文本过滤问题，提升过滤效果。

附图说明

图1为基于文本特征的内容过滤流程图；

图2为模板匹配流程图；

图3为模板匹配中原图像、模板图像与检索区域的示意图；

图4为基于文本特征与图像特征的内容过滤流程图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明如下。

本实施例提供一种基于多模态信息特征的不良内容过滤方法，针对基于多模态特征的内容过滤建模、基于文本特征的内容过滤、基于图像特征的内容过滤与基于多模态特征的内容过滤做进一步的说明。

基于多模态特征的内容过滤建模：

对包含变形词的文本内容进行过滤，即给定文本集D，关键词集K，使用算法A找到D中与K相关的文本集T，将文本集

进行过滤处理。其中：

文本集D：语料集，包含正常信息文本和不良信息文本，不良信息文本中有很大可能对敏感关键词进行了变形处理。

关键词集K：敏感词集合，例如K＝{炸弹,恐怖袭击,…}。

算法A：用来实现不良信息文本内容识别进而过滤的方法。

文本集T：包含不良信息文本，其中有可能包含变形词，也有可能包含未变形的敏感词。

特征提取方面，考虑提取多模态信息特征，多模态信息特征在本文中主要指文本特征与图像特征。其中：

文本特征：文本特征即文档的向量，也就是分量为词项TF-IDF值的向量。

图像特征：取值为0～255的图像的像素点矩阵是图像的原始特征。

在获取了文本特征与图像特征后，对特征建模，使用不同的算法进行后续分类训练或相似度计算等，进而实现过滤功能。其中：

1)文本方法采用文本分类算法对含有不良信息的文本进行过滤。

2)图像方法采用反向OCR(Optical Character Recognition，光学字符识别)技术进行实验，通过比较图像相似度来查找隐藏在文本中的不良信息，进而实现文本内容过滤，本方法采用了模板匹配来实现图像相似度的对比。

最终将两种方法进行结合。

基于文本特征的内容过滤：

基于文本特征的内容过滤主要采用文本分类的方法对包含有害变形词的文本过滤。

考虑到包含同一个关键词(原型或变形词皆可)的文本对应的文本语义分析结果相似，例如包含“炸弹”的文本和包含“火乍弓单”的文本内容相似，语义分析结果也相似，可使用文本分类方法进行分类，进而过滤处理。同时对于同义或别名替换情况，例如“谢尔顿”与“谢耳朵”，文本分类方法也可以解决，因此使用文本分类的方法对此进行实验。训练出针对某些关键词的分类器，使用该分类器对新的文本数据集进行分类，即使含有不良信息的文本中的关键词使用变形词进行了替换，也可识别出该文本，进行过滤处理。

基于文本特征的内容过滤流程如图1所示，步骤如下：

首先对初始文本数据进行清洗，去掉无意义、缺失、冗余的数据，得到准备用于实验的文本数据。对文本数据进行人工标注类别，例如“炸弹”、“恐怖袭击”类等等，用于后期的分类，标注的类别构成关键词集K，而对于正常文本则不予关注。将文本标注之后，需要对数据均衡处理，避免由于数据类别样本不均衡造成的分类结果不准确，得到文本集D。在处理好实验数据后，对文本集D数据进行分词，去除停用词，将数据使用交叉验证随机划分为训练集与测试集，并将训练集与测试集的分词结果和标注类别(关键词)作为分类算法的输入，提取文本特征，即表示出文档的向量，也就是分量为词项的TF-IDF值的向量。在此之后，训练分类器，将训练好的分类器用于预测测试数据的分类结果，分类器的选择影响着最后的过滤结果，可训练不同的分类器进行实验。对比分类器的分类结果和提前人工标注的类别结果，使用准确率(P)、召回率(R)与F值等指标对分类器分类结果进行度量，验证分类算法在实现不良信息过滤方面的有效性，以及针对此问题不同分类算法的优劣对比。

基于图像特征的内容过滤：

基于图像特征的内容过滤采用反向OCR技术进行实验，通过提取图像特征，比较图像特征相似度来查找隐藏在文本中的不良信息，进而实现内容过滤，本方法采用了模板匹配来实现图像特征相似度的对比。

反向OCR技术即输入文本信息，输出图像信息。在输出图像信息后，使用图像方法识别出不良信息，进而进行过滤。做法是提取图像特征后，通过对比待检测图像特征与标注为不良信息的关键词的图像特征之间的相似度，来达到不良信息识别的目的，对比图像特征相似度本质上是对比图像的像素点矩阵的相似度，图像的像素点矩阵是图像的原始特征，因此为了达到实验目的，首先需要提取出图像特征，即图像的像素点，对图像特征建立模型，使用图像算法计算不同图像特征之间的相似度，进而达到过滤目的。

其中对比相似度的方法为模板匹配法(Template Matching)。模板匹配是一项在一幅图像中寻找与另一幅模板图像最匹配(相似)部分的技术。且模板图像与原图像中的目标部分大小相同，最后会找出目标部分以及目标部分的位置信息和匹配程度(距离值)，模板匹配流程如图2所示。

首先，将关键词图像ImageKey(j)(图2中的“炸弹”)置于数据图像ImageDoc(i)左上角位置，提取关键词图像和数据图像的图像特征，即取值为0～255的像素矩阵。计算ImageKey(j)的图像特征与ImageKey(j)所覆盖部分(即像素块P)的图像特征的相似度，得到相似度Similarity1＝s1，然后向右移动关键词图像ImageKey(j)在数据图像ImageDoc(i)上的相对位置，移动一个单位，计算图像特征的相似度，得到Similarity2＝s2，按照相同的方式进行操作，得到Similarityk＝sk，最终得到数据图像ImageDoc(i)的图像特征与关键词图像ImageKey(j)的图像特征的相似度数值结果Similarity，相似度计算方式有标准平方差匹配、标准相关匹配等计算方式，不同的相似度计算方式，对特征矩阵的相似度度量方式不同，会得到不同的相似度度量结果。对相似度集合中的值进行筛选判断(最大值只说明该像素块与该关键词最相似，而不代表匹配成功，因为文本中有可能不包含该关键词或是该关键词相对应的变形词，因此需要设置阈值，进行筛选判断)，进而得出结论。

再者，为了说明方便，图2中文本图像ImageDoc(i)显示为多行多列，实际实验中，为了避免关键词或变形词恰好处于换行位置的情况，文本图像ImageDoc(i)只有一行文本，也就是关键词图像ImageKey(j)只需在文本图像ImageDoc(i)上横向移动，从最左端移至最右端，获取Similarity集合，而不需纵向移动。

原图像、模板图像与检索区域如图3所示，图中I(w)，I(h)表示原图像，即数据图像的大小(宽与高)，T(w)，T(h)表示模板图像，即关键词图像的大小(宽与高)，单位为像素点，标黑区域为1个像素点，模板图像在原图像上进行移动，移动单位为1个像素点，当模板图像底部、右侧与原图像底部、右侧重合时，移动结束，此时产生了如上图所示的标黑区域的移动区域，即检索区域。

基于图像特征的内容过滤步骤如下：

首先输入文本集D和关键词集K，分别转为图像集ImageDoc和ImageKey。

将数据图像集ImageDoc与文本集D对应，划分为训练集与测试集，训练集数据用于确定模板匹配方法的相似度阈值，测试集用于查看实验效果。

对训练集：

遍历数据图像集和关键词图像集，计算数据图像集中某一图像ImageDoc(i)中的像素块集合P(i)和某一关键词图像ImageKey(j)的像素块Q(j)之间的相似度，即计算某一数据图像被某一关键词图像所覆盖部分的像素矩阵与该关键词图像像素矩阵的相似度，在得到相似度度量结果矩阵R某一点的结果后，移动关键词图像，移动单位为一个像素点，用同样的方法计算对应的结果矩阵下一点的值，直到移动到关键词的右边缘与原图像右边缘重合，得到结果矩阵的最后一个值，这样就得到了整个结果矩阵R，进而得到了数据图像ImageDoc(i)与该关键词图像ImageKey(j)的相似度最大值，进行记录，相似度最大值为最相似的部分对应的相似度值，而非实验中结果矩阵R中的最大值。在此之后，更换关键词图像进行上述操作，得到数据图像ImageDoc(i)与关键词图像集合中所有关键词的相似度，选取相似度最大值，并记录该最大值对应的匹配结果(关键词)。在此之后，更换数据图像，使用同样的步骤求出该数据图像对应的相似度最大值，以及相似度最大值对应的关键词图像。最终得到集合中所有数据图像对应的相似度最大值集合，以及最大值对应的匹配结果集合(关键词集合)。即对于每个图像都有与关键词的相似度最大值、相似度最大值对应的关键词和人工标注的关键词三个属性。

根据上述步骤得到的相似度最大值集合，最大相似度值对应的关键词以及前期对数据图像集标注的类别(即关键词)，经过多次实验，确定分类结果正确与错误的相似度阈值q。

对测试集：

进行实验，重复上述匹配过程，对于测试集中的每张数据图像，在得到其与关键词的相似度最大值与相似度最大值对应的关键词(匹配结果)后，根据上述得到的阈值判断该相似度是否满足条件，即该匹配结果是否满足阈值约束，若满足阈值约束，则匹配成功，匹配类别为相似度最大值对应的关键词，即最终分类结果。倘若匹配结果不满足阈值约束，则将数据图像的分类结果标记为NoMatch。最终得到图像分类方法的分类结果集合。

基于多模态特征的内容过滤：

多模态特征在本方法中包括文本特征和图像特征，这也是本方法的核心内容，基于多模态特征的内容过滤主要在文本方法的基础上加入了视觉特征，采用反向OCR技术对文本中的关键词进行识别，如发现为有害信息，则进行过滤处理。

基于多模态特征的内容过滤流程如图4所示，具体步骤如下：

1)对初始文本数据进行清洗，去掉无意义、缺失、冗余的数据，得到准备用于实验的文本数据。对文本数据进行人工类别标注，例如“炸弹”、“恐怖袭击”类等等，得到标注类别，用于后期的分类，标注类别集合即关键词集合记为K。此外，对数据均衡处理，避免由于数据类别样本不均衡造成的分类结果不准确，得到最终的文本集D。

2)对文本集D进行分词操作，去除停用词(Stop Words)，将分词后的数据随机划分为训练集与测试集。

3)将训练集与测试集的分词结果和标注类别结果(关键词)作为分类算法的输入，提取文本特征，即分量为词项的TF-IDF值的向量，训练分类器。

4)将训练好的分类器用于预测测试数据的分类结果，得到分类结果集合DocResult。

5)将文本数据和关键词转为图像数据，即输入文本集D和关键词集K，分别转为数据图像集ImageDoc(文本集D对应的图像集合)和关键词图像集ImageKey(关键词集K对应的图像集合)，并对数据图像集ImageDoc标注对应的关键词，即对应的文本集D的标注类别(关键词)。

6)将数据图像集ImageDoc与文本集D对应，划分为训练集ImageDocTrain与测试集ImageDocTest，这里训练集数据用于确定模板匹配方法的相似度阈值，测试集用于查看实验效果。对于训练集ImageDocTrain进行以下步骤。

7)遍历数据图像集的训练集ImageDocTrain和关键词图像集ImageKey，提取图像的像素点信息，即取值为0～255的像素矩阵。计算数据图像集中某一图像ImageDoc(i)中的像素块集合P(i)和某一关键词图像ImageKey(j)的像素块Q(j)之间的相似度，即计算某一数据图像被某一关键词图像所覆盖部分的像素矩阵与该关键词图像像素矩阵的相似度结果矩阵，在得到结果矩阵某一点的结果后，移动关键词图像，移动单位为一个像素点，用同样的方法计算对应的结果矩阵下一点的值，直到移动到关键词的右边缘与原图像右边缘重合，得到结果矩阵的最后一个值，这样就得到了整个结果矩阵，从而得到了数据图像ImageDoc(i)与关键词图像ImageKey(j)的相似度最大值，进行记录，相似度最大值为最相似的部分对应的相似度值，而非实验中结果矩阵的最大值。在此之后，更换关键词图像进行上述操作，得到数据图像集ImageDoc(i)与关键词图像集合中所有关键词的相似度，选取相似度最大的值，并记录该最大值对应的匹配结果(关键词)。更换数据图像，使用同样的步骤求出对应的最相似的关键词图像。最终得到数据图像集合中所有数据图像对应的相似度最大值集合以及最大值对应的匹配结果。即对于每个图像都有与关键词的最大相似度值、最大相似度值对应的关键词和人工标注的关键词三个属性。

8)根据上述步骤得到的最大相似度值集合，最大相似度值对应的关键词以及前期步骤5)标注的图像集的类别关键词，经过多次实验，确定分类结果正确与错误的相似度阈值q。

9)对图像测试集ImageDocTest进行实验，重复步骤7)，对于测试集中的每张数据图像，在得到其与关键词的最大相似度值与最大相似度值对应的关键词后，根据上述得到的阈值判断该相似度是否满足条件，倘若上述匹配结果满足阈值约束，则匹配成功，匹配类别为最大相似度值对应的关键词，即最终分类结果。倘若匹配结果不满足阈值约束，则将数据图像的分类结果标记为NoMatch。最终得到图像分类方法的分类结果集合。

10)对比文本方法的分类结果集合与图像方法的分类结果集合，根据判别条件，得到最终的类别预测结果。

11)对比最终类别集合结果和提前人工标注的类别结果。统计匹配正确的个数。计算实验准确率、召回率与F值。

以上所述为本发明的一较佳实施例，用于对本发明的详细介绍，但应当指出的是，其并不用于对本发明保护范围的限制，本技术领域的普通技术人员在不脱离本方法构思的前提下，还可以做出若干改进和润饰，这些改进和润饰均应视为落入本发明的保护范围内，本发明的保护范围以权利要求所述为准。

Claims

1.一种基于多模态信息特征的不良内容过滤方法，包括以下步骤：

对文本集进行分词和去除停用词处理，再使用交叉验证随机划分为训练集与测试集；

将训练好的分类器用于预测测试集，得到文本分类结果；

2.如权利要求1所述的方法，其特征在于，对初始文本数据进行清洗是指去掉无意义、缺失、冗余的数据。

3.如权利要求1所述的方法，其特征在于，文本特征是指分量是词项TF-IDF值的向量，图像特征是指取值为0～255的像素矩阵。

4.如权利要求1所述的方法，其特征在于，通过模板匹配方法进行相似度计算的方法为：

5.如权利要求4所述的方法，其特征在于，关键词图像每次移动一个像素点。

6.如权利要求4所述的方法，其特征在于，相似度计算方法包括标准平方差匹配计算、标准相关匹配计算。

7.如权利要求4所述的方法，其特征在于，数据图像为一行文本，在对该数据图像进行相似度计算时，关键词图像从该数据图像的最左端开始，移动至最右端终止。

8.如权利要求1所述的方法，其特征在于，根据数据图像集的训练集的相似度最大值集合、相似度最大值对应的关键词以及对数据图像集标注出的关键词，确定用于判断分类结果正确与否的阈值。

9.如权利要求1所述的方法，其特征在于，如果关键词不满足阈值约束，则匹配不成功，则将数据图像的关键词进行标记。

10.一种基于多模态信息特征的不良内容过滤系统，包括存储器和处理器，该存储器存储计算机程序，该程序被配置为由该处理器执行，该程序包括用于执行上述权利要求1至9任一所述的方法中各步骤的指令。