CN101719924A

CN101719924A - 基于群件理解的不良彩信过滤方法

Info

Publication number: CN101719924A
Application number: CN 200910311664
Authority: CN
Inventors: 刘功申; 李建华; 朱剑; 李翔; 王士林
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2009-12-17
Filing date: 2009-12-17
Publication date: 2010-06-02
Anticipated expiration: 2029-12-17
Also published as: CN101719924B

Abstract

一种信息技术领域的基于群件理解的不良彩信过滤方法，包括如下步骤：将每个处理组件分为四组样本，对每个处理组件分别训练形成四个分类器，得到处理组件的离线训练用样本库和决策树训练样本集，进而生成决策树；把彩信拆分成若干个单一媒体文件；进行基于内容理解的过滤处理，得到每个处理组件的反动概率、色情概率、恐怖概率和垃圾概率；将得到的概率组织成一个输入向量，输入到训练所得的决策树，得到彩信的过滤结果。本发明通过把彩信拆分成不同单一媒体文件，有效解决了彩信无法进行内容过滤的困难，提高了不良彩信过滤的实时性和客观性，过滤的效率和准确性明显提高。

Description

基于群件理解的不良彩信过滤方法

技术领域

本发明涉及的是一种信息处理技术领域的方法，具体是一种基于群件理解的不良彩信过滤方法。

背景技术

随着现代移动通信技术快速发展，移动多媒体信息业务日渐广泛的深入人们的日常生活中。而伴随着移动通信网络与互联网络的不断融合，原先在互联网上的不良(反动、色情、恐怖、垃圾等)信息泛滥的问题也已经出现在移动通信领域。面对海量多媒体信息，如何主动，实时地识别并过滤其中的特定信息成了该领域的热点。在不良信息过滤方面，目前广泛采用的技术集中在黑名单、白名单、是否群发、发送频率统计、抽样检查、关键词过滤、人工辅助过滤等方面。尽管这些技术的应用有效果，但仍然需要基于内容理解技术去过滤短信和彩信。

经对现有技术文献的检索发现，中国专利公开号：CN101137085A，名称：垃圾短信彩信封堵方法，申请人：中国移动通信集团江苏有限公司，该技术提出了一种垃圾短信彩信封堵方法，包括以下步骤：首先，垃圾彩信服务器监控出单位时间发送量超标的号码及内容；其次，BOSS获得超标号码文件及内容；再次，将号码与白名单对照，判断该号码是否在白名单内，若是，则流程结束；若否，则进行人工判定，即将该号码和内容呈现到客服操作员界面，由人工判别内容是否是垃圾短信彩信，若否，则流程结束；若是，则进入下一步；最后，对该号码向HLR发送停短信彩信功能指令，同时加入客服知识库，以供被停号码发起投诉时客服人员解释。由此可知，该技术主要是一个针对发送频率及黑白名单等外部特征的管理流程，对于彩信内容则完全依赖人工离线的理解和判断。尽管人的智慧很高，但在面对海量的彩信需要在线判断时，该方法即不能达到实时性要求，也不具有客观性，效率非常差。

发明内容

本发明的目的在于克服现有技术存在的上述不足，提供一种基于群件理解的不良彩信过滤方法。本发明首先将彩信拆分成单媒体，并通过合适组件进行理解，最后再根据各个组件的独立结果综合成彩信的单一过滤结果，进一步提高了彩信过滤的实时性和客观性，真正实现了不良彩信的在线过滤和控制。

本发明是通过以下技术方案实现的，包括以下步骤：

第一步，将每个处理组件分为四组样本，对每个处理组件分别训练形成四个分类器，得到处理组件的离线训练用样本库，并运用决策树训练样本的组织方式得到决策树训练样本集，进而生成决策树。

所述的处理组件是第一组件、第二组件、第三组件和第四组件中的一种，其中：文本文件选用第一组件过滤处理，图像文件和图形文件选用第二组件过滤处理，音频文件选用第三组件过滤处理，视频文件和动画文件选用第四组件过滤处理。

所述的第一组件是基于自然语言理解方法的文本文件过滤处理组件。

所述的第二组件是基于SVM(Support Vector Machine，支持向量机)分类方法的图形图像过滤处理组件。

所述的第三组件是基于SVM分类方法的音频过滤处理组件。

所述的第四组件是基于关键帧判别方法的过滤处理组件。

所述的四组样本是：反动-正常样本、色情-正常样本、恐怖-正常样本和垃圾-正常样本。

所述的四个分类器是：反动-正常分类器、色情-正常分类器、恐怖-正常分类器和垃圾正常分类器。

所述的离线训练用样本库包括：反动样本库、色情样本库、恐怖样本库、垃圾样本库和正常样本库。

所述的决策树训练样本的格式是：彩信的序号、第一组件判断单一媒体文件为反动类别的概率、第二组件判断单一媒体文件为反动类别的概率、第三组件判断单一媒体文件为反动类别的概率、第四组件判断单一媒体文件为反动类别的概率、第一组件判断单一媒体文件为色情类别的概率、第二组件判断单一媒体文件为色情类别的概率、第三组件判断单一媒体文件为色情类别的概率、第四组件判断单一媒体文件为色情类别的概率、第一组件判断单一媒体文件为恐怖类别的概率、第二组件判断单一媒体文件为恐怖类别的概率、第三组件判断单一媒体文件为恐怖类别的概率、第四组件判断单一媒体文件为恐怖类别的概率、第一组件判断单一媒体文件为垃圾类别的概率、第二组件判断单一媒体文件为垃圾类别的概率、第三组件判断单一媒体文件为垃圾类别的概率、第四组件判断单一媒体文件为垃圾的概率、人工判断结果。

所述的人工判断结果是反动、色情、恐怖、垃圾和正常中的一种。

第二步，根据MIME(Multipurpose Internet Mail Extensions，RFC2045，多用途互联网邮件扩展)规范把彩信拆分成若干个单一媒体文件。

所述的单一媒体是文本、图形、图像、动画、音频和视频中的一种。

第三步，将得到的每个单一媒体文件用处理组件的四个分类器进行基于内容理解的过滤处理，得到每个单一媒体文件分别为反动文件、色情文件、恐怖文件和垃圾文件的概率，分别选取每个处理组件得到的反动文件最大概率、色情文件最大概率、恐怖文件最大概率和垃圾文件最大概率作为处理组件的反动概率、色情概率、恐怖概率和垃圾概率。

所述的基于内容的过滤处理是：

1)利用处理组件的反动-正常分类器得到单一媒体文件是反动文件的概率，当反动文件的概率大于设置阈值时，将该单一媒体文件是色情文件、恐怖文件和垃圾文件的概率都设为0；当反动文件的概率小于设置阈值时，执行2)；

2)利用处理组件的色情-正常分类器得到单一媒体文件是色情文件的概率，当色情文件的概率大于设置阈值时，将该单一媒体文件是恐怖文件和垃圾文件的概率都设为0；当色情文件的概率小于设置阈值时，执行3)；

3)利用处理组件的恐怖-正常分类器得到单一媒体文件是恐怖文件的概率，当恐怖文件的概率大于设置阈值时，将该单一媒体文件是垃圾文件的概率设为0；当恐怖文件的概率小于设置阈值时，执行4)；

4)利用处理组件的垃圾-正常分类器得到单一媒体文件是垃圾文件的概率。

第四步，将得到的每个处理组件的反动概率、色情概率、恐怖概率和垃圾概率组织成一个输入向量，输入到训练所得的决策树，通过决策树方法得到该彩信的过滤结果。

所述的输入向量形式为：第一组件的反动概率，第二组件的反动概率，第三组件的反动概率，第四组件的反动概率，第一组件的色情概率，第二组件的色情概率，第三组件的色情概率，第四组件的色情概率，第一组件的恐怖概率，第二组件的恐怖概率，第三组件的恐怖概率，第四组件的恐怖概率，第一组件的垃圾概率，第二组件的垃圾概率，第三组件的垃圾概率，第四组件的垃圾概率。

与现有技术相比，本发明具有如下有益效果：除了离线的训练需要人工构造训练样本库外，其余判断过程都是自动化处理的，不需要任何人工干预，通过把彩信拆分成不同单一媒体文件，有效解决了彩信无法进行内容过滤的困难，提高了不良彩信过滤的实时性和客观性，过滤的效率和准确性明显提高。

附图说明

图1是本实施例的流程示意图。

具体实施方式

下面结合附图对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例

如图1所示，本实施例包括以下步骤：

第一步，将每个处理组件分为反动-正常样本、色情-正常样本、恐怖-正常样本和垃圾正常样本这四组样本，对每个处理组件分别训练形成反动-正常分类器、色情-正常分类器、恐怖-正常分类器和垃圾-正常分类器这四个分类器，得到处理组件的反动样本库、色情样本库、恐怖样本库、垃圾样本库和正常样本库，并运用决策树训练样本的组织方式得到决策树训练样本集，进而生成决策树。

所述的第一组件是基于自然语言理解方法的文本文件过滤处理组件。本实施例在对文本进行分类时，经过了如下步骤：经过自动分词方法，把文本拆分成独立的词；采用TFIDF方法计算词的权重；经过停用词过滤步骤后，把文本文件表示成向量；采用贝叶斯方法，对文本向量进行学习或分类。

所述的第二组件是基于SVM分类方法的图形图像过滤处理组件。在本实施例中，分类的特征采用皮肤区域分隔、或特征区域识别、或面部识别方法获取；把图形或图像特征表示成向量；采用SVM学习方法，对该向量进行处理实现学习或分类。

所述的第三组件是基于SVM分类方法的音频过滤处理组件。在本实施例中，音频特征采用频域特征、或频率倒谱系数、或小波域特征表示；把音频文件表示成由上述特征组成的向量；采用SVM学习方法，对该向量进行处理，实现学习或分类。

所述的第四组件是基于关键帧判别方法的过滤处理组件。在本实施例中，首先把视频或动画拆分成关键帧；针对每个关键帧采用第二组件所述的图像分类方法进行分类；对分类结果进行统计，以各类结果中数量最多者为该视频或动画的最终类别。

所述的决策树训练样本的格式是：样本序号、第一组件判断单一媒体文件为反动类别的概率、第二组件判断单一媒体文件为反动类别的概率、第三组件判断单一媒体文件为反动类别的概率、第四组件判断单一媒体文件为反动类别的概率、第一组件判断单一媒体文件为色情类别的概率、第二组件判断单一媒体文件为色情类别的概率、第三组件判断单一媒体文件为色情类别的概率、第四组件判断单一媒体文件为色情类别的概率、第一组件判断单一媒体文件为恐怖类别的概率、第二组件判断单一媒体文件为恐怖类别的概率、第三组件判断单一媒体文件为恐怖类别的概率、第四组件判断单一媒体文件为恐怖类别的概率、第一组件判断单一媒体文件为垃圾类别的概率、第二组件判断单一媒体文件为垃圾类别的概率、第三组件判断单一媒体文件为垃圾类别的概率、第四组件判断单一媒体文件为垃圾的概率、人工判断结果。

本实施例得到的决策树训练样本集的示例，如表1所示。

表1

第二步，根据MIME规范把彩信拆分成若干个单一媒体文件。

第三步，将得到的每个单一媒体文件用处理组件进行基于内容理解的过滤处理，得到每个单一媒体文件分别为反动文件、色情文件、恐怖文件和垃圾文件的概率，分别选取每个处理组件得到的反动文件最大概率、色情文件最大概率、恐怖文件最大概率和垃圾文件最大概率作为处理组件的反动概率、色情概率、恐怖概率和垃圾概率。

所述的基于内容的过滤处理是：

以文本文件为例，本实施例共得到三个文本文件，把每个文本文件依次输入第一组件的四个分类器得到每个文本文件分别为反动文件、色情文件、恐怖文件和垃圾文件的概率，分别选取第一组件得到的反动文件最大概率、色情文件最大概率、恐怖文件最大概率和垃圾文件最大概率作为第一组件的反动概率、色情概率、恐怖概率和垃圾概率，具体见表2所示。

表2

	反动概率/％	色情概率/％	恐怖概率/％	垃圾概率/％
	反动概率/％	色情概率/％	恐怖概率/％	垃圾概率/％	第一文本文件	90	85	0	0
第二文本文件	10	99	0	0	第一文本文件	90	85	0	0
第二文本文件	10	99	0	0	第三文本文件	70	60	50	80
第一组件	90	99	50	80	第三文本文件	70	60	50	80

第四步，将上步得到的每个处理组件的反动概率、色情概率、恐怖概率和垃圾概率组织成一个输入向量，输入到训练所得的决策树，通过决策树方法得到该彩信的过滤结果。

本实施例采用了C5.0决策树方法进行决策，该方法是一个成熟的现有技术，将第三步得到的每个处理组件的反动概率、色情概率、恐怖概率和垃圾概率组织成一个输入向量输入到决策树中，决策树就会输出一个类别值，其中：反动、色情、恐怖和垃圾这四种类别为不良彩信，应该被过滤，而正常类别的彩信则被放行。

本实施例的优点：除了离线的训练需要人工构造训练样本库外，其余判断过程都是自动化处理的，不需要任何人工干预，通过把彩信拆分成不同单一媒体文件，有效解决了彩信无法进行内容过滤的困难，提高了不良彩信过滤的实时性和客观性，过滤的效率和准确性明显提高。

Claims

1.一种基于群件理解的不良彩信过滤方法，其特征在于，包括以下步骤：

第一步，将每个处理组件分为四组样本，对每个处理组件分别训练形成四个分类器，得到处理组件的离线训练用样本库，并运用决策树训练样本的组织方式得到决策树训练样本集，进而生成决策树；

第二步，根据多用途互联网邮件扩展规范把彩信拆分成若干个单一媒体文件；

第三步，将得到的每个单一媒体文件用处理组件的四个分类器进行基于内容理解的过滤处理，得到每个单一媒体文件分别为反动文件、色情文件、恐怖文件和垃圾文件的概率，分别选取每个处理组件得到的反动文件最大概率、色情文件最大概率、恐怖文件最大概率和垃圾文件最大概率作为处理组件的反动概率、色情概率、恐怖概率和垃圾概率；

2.根据权利要求1所述的基于群件理解的不良彩信过滤方法，其特征是，第一步中所述的处理组件是第一组件、第二组件、第三组件和第四组件中的一种，其中：文本文件选用第一组件过滤处理，图像文件和图形文件选用第二组件过滤处理，音频文件选用第三组件过滤处理，视频文件和动画文件选用第四组件过滤处理。

3.根据权利要求1所述的基于群件理解的不良彩信过滤方法，其特征是，第一步中所述的四个分类器是：反动正常分类器、色情正常分类器、恐怖正常分类器和垃圾正常分类器；

4.根据权利要求1所述的基于群件理解的不良彩信过滤方法，其特征是，第一步中所述的决策树训练样本的格式是：彩信的序号、第一组件判断单一媒体文件为反动类别的概率、第二组件判断单一媒体文件为反动类别的概率、第三组件判断单一媒体文件为反动类别的概率、第四组件判断单一媒体文件为反动类别的概率、第一组件判断单一媒体文件为色情类别的概率、第二组件判断单一媒体文件为色情类别的概率、第三组件判断单一媒体文件为色情类别的概率、第四组件判断单一媒体文件为色情类别的概率、第一组件判断单一媒体文件为恐怖类别的概率、第二组件判断单一媒体文件为恐怖类别的概率、第三组件判断单一媒体文件为恐怖类别的概率、第四组件判断单一媒体文件为恐怖类别的概率、第一组件判断单一媒体文件为垃圾类别的概率、第二组件判断单一媒体文件为垃圾类别的概率、第三组件判断单一媒体文件为垃圾类别的概率、第四组件判断单一媒体文件为垃圾的概率、人工判断结果；

5.根据权利要求1所述的基于群件理解的不良彩信过滤方法，其特征是，第三步中所述的基于内容的过滤处理是：

1)利用处理组件的反动正常分类器得到单一媒体文件是反动文件的概率，当反动文件的概率大于设置阈值时，将该单一媒体文件是色情文件、恐怖文件和垃圾文件的概率都设为0；当反动文件的概率小于设置阈值时，执行2)；

2)利用处理组件的色情正常分类器得到单一媒体文件是色情文件的概率，当色情文件的概率大于设置阈值时，将该单一媒体文件是恐怖文件和垃圾文件的概率都设为0；当色情文件的概率小于设置阈值时，执行3)；

3)利用处理组件的恐怖正常分类器得到单一媒体文件是恐怖文件的概率，当恐怖文件的概率大于设置阈值时，将该单一媒体文件是垃圾文件的概率设为0；当恐怖文件的概率小于设置阈值时，执行4)；

4)利用处理组件的垃圾正常分类器得到单一媒体文件是垃圾文件的概率。

6.根据权利要求1所述的基于群件理解的不良彩信过滤方法，其特征是，第四步中所述的输入向量形式为：第一组件的反动概率，第二组件的反动概率，第三组件的反动概率，第四组件的反动概率，第一组件的色情概率，第二组件的色情概率，第三组件的色情概率，第四组件的色情概率，第一组件的恐怖概率，第二组件的恐怖概率，第三组件的恐怖概率，第四组件的恐怖概率，第一组件的垃圾概率，第二组件的垃圾概率，第三组件的垃圾概率，第四组件的垃圾概率。