CN108595422A

CN108595422A - 一种过滤不良彩信的方法

Info

Publication number: CN108595422A
Application number: CN201810330519.4A
Authority: CN
Inventors: 王征宇; 张晓明; 王思纬; 刘潇阳; 王世伟; 刘军芳; 邹开举; 张庆南; 闫璐; 蒋文婷; 马亚楠
Original assignee: Aspire Information Technologies Beijing Ltd
Current assignee: Aspire Information Technologies Beijing Ltd
Priority date: 2018-04-13
Filing date: 2018-04-13
Publication date: 2018-09-28
Anticipated expiration: 2038-04-13
Also published as: CN108595422B

Abstract

本发明公开一种过滤不良彩信的方法。所述方法包括：将彩信分解成文本文件、图像文件、视频文件和音频文件，分别计算文本文件、图像文件、视频文件和音频文件的敏感度得分，对上述各敏感度得分进行综合得到彩信的敏感度得分，根据彩信的敏感度得分是否大于设定的阈值判断彩信是否为不良彩信，并对不良彩信进行过滤。本发明实现了对不良彩信的自动识别和过滤，提高了识别和过滤不良彩信的速度，解决了现有技术采用人工审核存在时间长延误久、容易出现误操作等问题。

Description

一种过滤不良彩信的方法

技术领域

本发明属于信息处理技术领域，具体涉及一种过滤不良彩信的方法。

背景技术

随着现代移动通信技术快速发展，移动多媒体信息业务日渐广泛的深入人们的日常生活中。而伴随着移动通信网络与互联网络的不断融合，原先在互联网上的不良(色情、暴力、恐怖等)信息泛滥的问题也己经出现在移动通信领域。

目前，彩信内容经过企业用户在CMS(Content Management System，内容管理系统)编辑后，采用人工二级审核的方式对彩信内容进行审核，主要审核彩信的内容是否合乎规定。只有经过审核的彩信才能将彩信的地址发送给用户手机端。用户在打开彩信的时候，从RSServer(增强型彩信下载服务器)下载具体的彩信内容。但人工审核存在很多弊端，比如时间长延误久、容易出现误操作，一旦业务量增加，人工审核压力将会很大。基于此，急需采用对内容合乎规定性进行自动检测的技术，提高内容审查的自动化，增强平台安全管理能力，提高平台的效率，提升用户使用体验。

发明内容

为了解决现有技术中存在的上述问题，本发明提出一种过滤不良彩信的方法。

为实现上述目的，本发明采用如下技术方案：

一种过滤不良彩信的方法，包括以下步骤：

步骤1，提取彩信包，从彩信包中分解出文本文件、图像文件、视频文件和音频文件；

步骤2，将文本文件中的文本分解为词语，通过将每个词语与敏感信息关键词库中的关键词进行匹配比对确定敏感词语，计算敏感词语的敏感度得分的平均值，得到文本文件的敏感度得分；

步骤3，将图像文件中的图像拆分成多个区域，通过将每个区域与敏感图像模板库中的模板图像进行匹配比对确定敏感区域，将每个敏感区域划分为主体和背景，计算每个主体的敏感度得分，求最大值后得到图像文件的敏感度得分；

步骤4，将视频文件中的视频图像分割成镜头，在每个镜头内提取关键帧图像，计算关键帧图像的敏感度得分，求关键帧图像的敏感度得分的最大值得到视频文件的敏感度得分；

步骤5，从音频文件中提取包含人声的音频片段，将所述音频片段转换为文本文件，通过计算所述文本文件的敏感度得分，得到音频文件的敏感度得分；

步骤6，对所述文本文件、图像文件、视频文件和音频文件的敏感度得分进行综合，计算所述彩信的敏感度得分；

步骤7，比较彩信的敏感度得分与设定的阈值的大小，敏感度得分超过阈值的彩信为不良彩信；对不良彩信进行过滤。

进一步地，所述步骤1具体包括：

提取彩信包，读取彩信包中的格式描述文件，根据格式描述文件中标签的内容，从彩信包的资源文件中分解出文本文件、图像文件、视频文件和音频文件。

进一步地，所述步骤2具体包括：

步骤2.1，从文本文件的文本中提取词语，方法如下：

根据标点符号将文本拆分成句子；

对每个句子中的文字进行顺序组合，并对每个组合进行自然语义分析，从而判定每个组合是否为词语；

将判定为词语的组合与其上下文进行扩展组合，通过对扩展后的每个组合进行自然语义分析判断扩展后的每个组合是否为词语。

步骤2.2，将提取的词语与敏感信息关键词库中的关键词进行比对，与关键词匹配的词语为敏感词语；

步骤2.3，计算文本文件的敏感度得分，方法如下：

提取敏感词语对应的关键词的敏感度基础得分、标准权值和类型，作为敏感词语的敏感度基础得分、标准权值和类型，所述类型包括色情类、暴力类和广告类；

根据本次过滤关注的敏感词语的类型调整标准权值，调整后的值作为敏感词语的权值；

根据每个敏感词语的敏感度基础得分及其权值，计算敏感词语的敏感度得分的平均值，得到文本文件的敏感度得分，计算公式如下：

式中，A为文本文件的敏感度得分，a_i、k_i分别为第i个敏感词语的敏感度基础得分及权值，n为敏感词语的个数。

进一步地，所述步骤3具体包括：

步骤3.1，将图像文件的图像拆分成多个区域，并确定敏感区域，方法如下：

根据图像颜色变化和轮廓的连续性，将图像文件中的图像拆分成多个区域；

消除每个区域中的模糊图像，使每个区域中的图像清晰；

对每个区域进行旋转、放大或缩小变换，计算变换后的区域与敏感图像模板库中的模板图像的相似度，相似度最高的模板图像为匹配图像，与匹配图像的相似度大于设定的阈值的区域为敏感区域。

步骤3.2，将敏感区域划分为主体与背景：敏感区域中与匹配图像相似度大于设定的阈值的部分为主体，其余部分为背景；

步骤3.3，确定主体的类型，方法如下：

利用DPM(Deformable Part Model，可变部件模型)目标检测技术，计算主体和敏感图像模板库中的模板图像的响应值，响应值大于设定的阈值的模板图像为匹配图像，匹配图像的类型即为所述主体的类型。所述类型色情类、暴力类和广告类。

步骤3.4，计算所述图像文件的敏感度得分，方法如下：

提取主体的匹配图像的敏感度基础得分，作为主体的敏感度基础得分；

根据主体的敏感度基础得分及本次过滤关注的类型，调整敏感度得分，调整后的得分作为主体的敏感度得分，求所有主体的敏感度得分的最高值，得到所述图像文件的敏感度得分。

与现有技术相比，本发明具有以下有益效果：

本发明通过将彩信分解成文本文件、图像文件、视频文件和音频文件，分别计算文本文件、图像文件、视频文件和音频文件的敏感度得分，对上述各敏感度得分进行综合得到彩信的敏感度得分，根据彩信的敏感度得分是否大于设定的阈值判断彩信是否为不良彩信，并对不良彩信进行过滤，实现了对不良彩信的自动识别和过滤，提高了识别和过滤不良彩信的速度，解决了现有技术采用人工审核存在时间长延误久、容易出现误操作等问题。

附图说明

图1为本发明实施例一种过滤不良彩信的方法的流程图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

本发明实施例一种过滤不良彩信的方法的流程图如图1所示，所述方法包括以下步骤：

步骤101，提取彩信包，从彩信包中分解出文本文件、图像文件、视频文件和音频文件；

在本步骤中，首先提取彩信包，然后对彩信包进行分解，提取文本文件、图像文件、视频文件和音频文件。将彩信包分解成文本文件、图像文件、视频文件和音频文件的目的是对上述文件分别进行处理，以计算各种文件的敏感度得分。

步骤102，将文本文件中的文本分解为词语，通过将每个词语与敏感信息关键词库中的关键词进行匹配比对确定敏感词语，计算敏感词语的敏感度得分的平均值，得到文本文件的敏感度得分；

本步骤计算文本文件的敏感度得分。首先将文本分解为词语，然后通过与敏感信息关键词库中的关键词进行匹配比对确定敏感词语，最后计算敏感词语的敏感度得分并求和得到文本文件的敏感度得分。可以通过批量导入、增量导入、系统自动学习和积累将关键词导入敏感信息关键词库中。

步骤103，将图像文件中的图像拆分成多个区域，通过将每个区域与敏感图像模板库中的模板图像进行匹配比对确定敏感区域，将每个敏感区域划分为主体和背景，计算每个主体的敏感度得分，求最大值后得到图像文件的敏感度得分；

本步骤计算图像文件的敏感度得分。图像文件即各种格式的图片。由于整个图像太大不容易进行判断，因此在处理时将一个(帧)图像拆分成多个区域，对每个区域分别处理后再进行汇总。图像一般包含主体(或前景)和背景，为了消除背景部分对判断结果的影响，需要从每个区域的图像中区分出主体和背景，只对每个区域的主体进行处理，从而计算每个主体的敏感度得分，求最大值后得到图像文件的敏感度得分。

步骤104，将视频文件中的视频图像分割成镜头，在每个镜头内提取关键帧图像，计算关键帧图像的敏感度得分，求关键帧图像的敏感度得分的最大值得到视频文件的敏感度得分；

本步骤计算视频文件的敏感度得分。一个视频文件一般包含一个视频序列或一个视频片段。一个视频序列由若干个场景组成，每个场景包含一个或多个镜头。镜头是摄像机一次连续拍摄的一段视频，每个镜头包含若干连续的图像帧，帧是视频的最小单位，是一幅静态的图像，关键帧是物体运动或变化中的关键动作所处的那一帧。本步骤首先将视频文件中的视频图像分割成镜头，然后在每个镜头内提取关键帧图像(一个镜头内可包含一个或一个以上的关键帧)，再采用步骤103的方法分别计算每个关键帧图像的敏感度得分，关键帧图像的敏感度得分的最大值即为视频文件的敏感度得分。

步骤105，从音频文件中提取包含人声的音频片段，将所述音频片段转为文本文件，通过计算所述文本文件的敏感度得分，得到音频文件的敏感度得分；

本步骤计算音频文件的敏感度得分。由于不良彩信中的音频主要是针对人的声音，因此本步骤首先从音频文件中提取包含人声的音频片段，然后对该音频片段进行处理。这样可以大大减小处理量，提高处理速度。音频或语音识别技术近二十年来取得了显著进步，本步骤采用语音识别技术将所述音频片段转为文本文件，再采用步骤102的方法，通过计算所述文本文件的敏感度得分得到音频文件的敏感度得分。

步骤106，对所述文本文件、图像文件、视频文件和音频文件的敏感度得分进行综合，计算所述彩信的敏感度得分；

本步骤通过对文本文件、图像文件、视频文件和音频文件的敏感度得分进行综合，计算彩信的敏感度得分。最简单的综合方法是将4种文件的敏感度得分直接相加，也可以根据关注程度的不同分别赋予每种文件的敏感度得分不同的权值，加权求和后得到彩信的敏感度得分。

步骤107，比较彩信的敏感度得分与设定的阈值的大小，敏感度得分超过所述阈值的彩信为不良彩信；对不良彩信进行过滤。

本步骤根据彩信的敏感度得分对彩信进行识别和过滤。不良彩信的识别方法是用彩信的敏感度得分与设置的阈值进行比较，如果彩信的敏感度得分大于阈值，该彩信为不良彩信。拦截不良彩信，使彩信接收者收不到不良彩信，一般还要通过短信通知不良彩信的发送人其彩信中包含的不良信息，并提出警告等。所述阈值的大小一般根据经验或通过反复实验确定。

值得说明的是，本实施例虽然给出的是包含文本文件、图像文件、视频文件和音频文件的彩信的识别与过滤方法，但并不限定彩信刚好包含这4种文件，在此基础上对文件形式的增加或减少都属于本实施例的范畴。

作为一种可选实施例，所述步骤101具体包括：

作为一种可选实施例，所述步骤102具体包括：

步骤1021，从文本文件的文本中提取词语，方法如下：

根据标点符号将文本拆分成句子；

将判定为词语的组合与其上下文进行扩展组合，通过对扩展后的每个组合进行自然语义分析判断扩展后的每个组合是否为词语。例如：“赤裸”这个词的下文可能是“赤裸裸体”，也可能是“赤裸裸的欺骗”。通过对新的组合进行自然语义分析，确定“赤裸裸体”不是词语，“赤裸裸的欺骗”是词语。

步骤1022，将提取的词语与敏感信息关键词库中的关键词进行比对，与关键词匹配的词语为敏感词语；

步骤1023，计算文本文件的敏感度得分，方法如下：

提取敏感词语对应的关键词的敏感度基础得分、标准权值和类型，作为敏感词语的敏感度基础得分、标准权值和类型。敏感信息关键词库中的每个关键词都对应一个敏感度基础得分和一个标准权值。所述类型包括色情类、暴力类和广告类；

根据本次过滤关注的敏感词语的类型调整标准权值，调整后的值作为敏感词语的权值。比如，本次过滤的关注的是色情类，将色情类敏感词语的标准权值上调一定量值后作为其权值，而对于不关注的广告类敏感词语，则下调一定量值后作为其权值；

作为一种可选实施例，所述步骤103具体包括：

步骤1031，将图像文件的图像拆分成多个区域，并确定敏感区域，方法如下：

消除每个区域中的模糊图像，使每个区域中的图像清晰；

步骤1032，将敏感区域划分为主体与背景：敏感区域中与匹配图像相似度大于设定的阈值的部分为主体，其余部分为背景；

步骤1033，确定主体的类型，方法如下：

利用DPM目标检测技术，计算主体和敏感图像模板库中的模板图像的响应值，响应值大于设定的阈值的模板图像为匹配图像，匹配图像的类型即为所述主体的类型。所述类型包括色情类、暴力类和广告类。如枪支、弹药、刀剑等属于暴力类。

DPM目标检测技术是成熟的现有技术，这里只简单介绍一下利用DPM目标检测技术，计算主体和敏感图像模板库中的模板图像的响应值的方法：

首先提取主体的DPM特征图T1，然后对敏感图像模板库中的模板图像进行高斯金字塔上采样，并提取其DPM特征图T2。对T2和训练好的Root filter做卷积操作，从而得到Root filter的响应图。对2倍T1和训练好的Part filter做卷积操作，从而得到Partfilter的响应图。然后对其精细高斯金字塔的下采样操作。这样Root filter的响应图和Part filter的响应图就具有相同的分辨率了。最后将其进行加权平均，得到最终的响应图。响应图根据亮度标识响应值，图亮度越大表示响应值越大。

步骤1034，计算图像文件的敏感度得分，方法如下：

提取主体的匹配图像的敏感度基础得分，作为主体的敏感度基础得分。敏感图像模板库中的每个模板图像都对应一个敏感度基础得分；

根据主体的敏感度基础得分及本次过滤关注的类型，调整敏感度得分，调整后的得分作为主体的敏感度得分。比如，如果本次过滤关注的是暴力类，则将枪支、弹药、刀剑等暴力类主体的敏感度基础得分上调一定量值后作为其敏感度得分。求所有主体的敏感度得分的最高值，得到所述图像文件的敏感度得分。

上述仅对本发明中的几种具体实施例加以说明，但并不能作为本发明的保护范围，凡是依据本发明中的设计精神所做出的等效变化或修饰或等比例放大或缩小等，均应认为落入本发明的保护范围。

Claims

1.一种过滤不良彩信的方法，其特征在于，包括以下步骤：

步骤5，从音频文件中提取包含人声的音频片段，将所述音频片段转换为文本文件，通过计算文本文件的敏感度得分，得到音频文件的敏感度得分；

2.根据权利要求1所述的过滤不良彩信的方法，其特征在于，所述步骤1具体包括：

3.根据权利要求1所述的过滤不良彩信的方法，其特征在于，所述步骤2具体包括：

步骤2.1，从文本文件的文本中提取词语，方法如下：

根据标点符号将文本拆分成句子；

将判定为词语的组合与其上下文进行扩展组合，通过对扩展后的每个组合进行自然语义分析判断扩展后的每个组合是否为词语；

步骤2.3，计算文本文件的敏感度得分，方法如下：

4.根据权利要求1所述的过滤不良彩信的方法，其特征在于，所述步骤3具体包括：

消除每个区域中的模糊图像，使每个区域中的图像清晰；

对每个区域进行旋转、放大或缩小变换，计算变换后的区域与敏感图像模板库中的模板图像的相似度，相似度最高的模板图像为匹配图像，与匹配图像的相似度大于设定的阈值的区域为敏感区域；

步骤3.3，确定主体的类型，方法如下：

利用DPM目标检测技术，计算主体和敏感图像模板库中的模板图像的响应值，响应值大于设定的阈值的模板图像为匹配图像，匹配图像的类型即为所述主体的类型；所述类型色情类、暴力类和广告类；

步骤3.4，计算所述图像文件的敏感度得分，方法如下：