CN103116647A

CN103116647A - 基于移动互联网有害信息的数据挖掘系统及其方法

Info

Publication number: CN103116647A
Application number: CN2013100611320A
Authority: CN
Inventors: 陈翟翟; 舒张磊; 黄峰
Original assignee: HONGXU INFORMATION TECHNOLOGY Co Ltd WUHAN
Current assignee: HONGXU INFORMATION TECHNOLOGY Co Ltd WUHAN
Priority date: 2013-02-27
Filing date: 2013-02-27
Publication date: 2013-05-22

Abstract

本发明公开了一种基于移动互联网有害信息的数据挖掘系统及其方法，涉及移动互联网领域。本发明根据移动互联网有害信息的独有特征，建立有针对性的模型，专门针对移动互联网有害信息进行过滤，因此针对性好，识别率高，效果较传统判断方法更加科学；本发明采取数据挖掘、机器学习、信息论等领域算法，综合改进了移动互联网有害信息的过滤算法，将模型推向了高维空间进行分类判断；同时采用了较好的结构模块，使得过滤系统准确性的提升有较大的灵活性和可扩展性。

Description

基于移动互联网有害信息的数据挖掘系统及其方法

技术领域

本发明涉及移动互联网领域，尤其涉及一种基于移动互联网有害信息的数据挖掘系统及其方法。

背景技术

随着移动互联网技术的快速发展，承载在互联网上的信息越来越多，这其中就有很多对社会有害的信息，比如黄、赌、毒等。如何从互联网的海量信息中挖掘这些有害信息，进而挖掘出有害信息的源头，做到先期预防。而互联网上的信息是海量的，有害信息是相对少量的，如何在海量信息中准确提取少量信息，主要还是通过数学建模的方式去做。

目前对于移动互联网上的有害信息只是通过简单的字符查询进行的浅层挖掘，还未提升到基于文本内容上的挖掘。

表达相同含义的文本一定有着类似词语使用情况，比如体育文本含有NBA（全美篮球协会）、足球、欧锦赛、世界杯等的概率会大大高于其他类型的文本词语；同时股票文本包含股市、涨停、跌停等词的概率也会大大高于其他类型的文本词语。如果从每种类型的文本中找到这种特征并利用这种特征建立一个数学模型，就可以帮助建立一种移动互联网有害信息的分类方法。

本发明适用于运营商核心网平台。基于运营商核心网平台，从核心网平台的PDSN（ Packet Data Serving Node，分组数据服务节点）设备进行分光，获取核心网全量数据，解析还原后得到可以应用于数据挖掘的数据，再使用本发明对这些数据进行有害信息的挖掘。

发明内容

本发明的目的就在于克服现有技术存在的缺点和不足，提供一种基于移动互联网有害信息的数据挖掘系统及其方法。

本发明的目的是这样实现的：

建立起一个好的数学模型，过滤出有害信息，并集中展现这些有害信息。

一、基于移动互联网有害信息数据挖掘系统（简称系统）

本系统依托于运营商核心网，设置有数据采集单元、数据还原单元、数据存储单元、有害信息数据挖掘单元、有害信息存储单元和用户展现单元；

运营商核心网、数据采集单元、数据还原单元、数据存储单元依次连接，实现对可读信息的还原；

有害信息数据挖掘单元和数据存储单元连接，实现对数据存储单元里的数据进行直接挖掘；

数据存储单元、有害信息存储单元和用户展现单元依次连接，实现有害信息的集中展现。

二、移动互联网有害信息数据挖掘方法（简称方法）

本方法包括下列步骤：

①从运营商核心网采集数据后经过还原、存储得到用户的全量信息；

②将移动互联网上的有害信息中的某一类(例如毒品)文本，进行人工选取若干条作为正样本，再选取若干条其它无害信息的文本作为负样本；

③对已知的有害信息进行建模，再通过数据挖掘方法对待定信息进行有害性判断。

本发明对比现有技术有如下优点和积极效果：

①根据移动互联网有害信息的独有特征，建立有针对性的模型，专门针对移动互联网有害信息进行过滤，因此针对性好，识别率高，效果较传统判断方法更加科学；

②传统判断有害信息的方法多以条件判断或特定字符串匹配进行，条件判断方法只能在低维空间中判断少数几种特征，特定字符串匹配方法无法消除词语二义性判断；本发明可完全克服传统有害信息过滤方法的不足，建立的模型基于高维空间，判断更准确，通过统计学算法可以有效判定词语的二义性；

③本发明将整个有害信息系统有机地分为两个模块，即模型建立和样本分割，两个模块可以单独进行优化，有效地提高了本发明的可扩展性；在模型建立模块中，可以增加判断特征（词）对于系统重要性的算法来综合检验模型的效果，在样本分割模块，可以选择更多的机器学习分类算法。

总之，本发明采取数据挖掘、机器学习、信息论等领域算法，综合改进了移动互联网有害信息的过滤算法，将模型推向了高维空间进行分类判断；同时采用了较好的结构模块，使得过滤系统准确性地提升有较大的灵活性和可扩展性。

附图说明

图1是本系统的结构方框图；

图2是有害信息数据挖掘单元的结构方框图。

其中

000—运营商核心网；

100—数据采集单元；

200—数据还原单元；

300—数据存储单元；

400—有害信息数据挖掘单元，

401—待过滤数据模块，402—分词模块，

403—分好类的有害信息语料库模块，404—MI模块，405—IG模块，

406—PCA模块，407—数据进行格式转换和处理模块，

408—特征向量模块，409—分类器模块，410—训练样本特征库模块，

411—通知展现模块。

500—有害信息存储单元；

600—展现单元。

英译汉：

1、TF-IDF—Term Frequency-Inverse Document Frequency，反文档词频；

2、HP—hyperplane，超平面；

3、SVM—Support Vector Machine，支持向量机；

4、MI—Mutual Information，互信息；

5、IG—Information Gain，信息增益；

6、PCA—Principal Components Analysis，主成分分析法。

具体实施方式

下面结合附图和实施例详细说明：

一、系统

1、总体

如图1，本系统依托于运营商核心网000，设置有数据采集单元100、数据还原单元200、数据存储单元300、有害信息数据挖掘单元400、有害信息存储单元500和用户展现单元600；

运营商核心网000、数据采集单元100、数据还原单元200、数据存储单元300依次连接，实现对可读信息的还原；

有害信息数据挖掘单元400和数据存储单元300连接，实现对数据存储单元300里的数据进行直接挖掘；

数据存储单元300、有害信息存储单元500和用户展现单元600依次连接，实现有害信息的集中展现。

2、功能块

0）运营商核心网000

运营商核心网000是移动互联网运营商的数据传输和交互中心。

1）数据采集单元100

数据采集单元100是一种基于AMD64位硬件系统的功能软件，负责从运营商

核心网000采集用户上网的信令和业务数据，对移动互联网承载协议和应用协议进行解析，并将结果发送给数据还原单元200。

2）数据还原单元200

数据还原单元200是一种基于AMD64位硬件系统的功能软件，负责还原用户上网的应用层数据内容。

3）数据存储单元300

数据存储单元300是一种基于AMD64位硬件系统的功能软件，负责将数据还原单元200还原出来的用户应用层数据内容按照一定的格式进行存放，方便读取。

4）有害信息数据挖掘单元400

有害信息数据挖掘单元400是一种基于AMD64位硬件系统的功能软件，负责从数据存储单元300读取内容，进行有害信息的数据挖掘，发现黄赌毒等有害信息，并将其发送给有害信息存储单元300；

具体地说，如图2，有害信息数据挖掘单元400包括待过滤数据模块401、分词模块402、分好类的有害信息语料库模块403、MI模块404、IG模块405、PCA模块406、数据进行格式转换和处理模块407、特征向量模块408、分类器模块409、训练样本特征库模块410和通知展现模块411；

分词模块402连接待过滤数据模块401，将生成的数据放入数据进行格式转换和处理模块407；

分词模块402、MI模块404、IG模块405和PCA模块406共同连接到分好类的有害信息语料库模块403，将生成的数据放入特征向量模块408；

分类器模块409连接到数据进行格式转换和处理模块407，获取预处理数据；

训练样本特征库模块410连接数据特征向量模块408，将获取到的数据放入到分类器模块409，最后得到的结果导入到通知展现模块411。

过滤数据模块401、分词模块402、MI模块404、IG模块405、PCA模块406、数据进行格式转换和处理模块407、特征向量模块408、分类器模块409、训练样本特征库模块410和通知展现模块411均为常用模块；

所述的分好类的有害信息语料库模块403是一种人工参与、将有害信息进行分类后得到的文本集合；发现是有害信息，归入到有害信息库中。

5）有害信息存储单元500

有害信息存储单元500是一种基于AMD64位硬件系统的功能软件，负责有害信息的存储。

6）用户展现单元600

用户展现单元600是一种基于AMD64位硬件系统的功能软件，负责从有害信息存储单元500读取有害信息并按照人性化的格式展现给用户。

二、方法

1、有害信息数据挖掘方法的工作流程

①对正、负样本进行分词，得到一系列不重复的词汇；

②通过MI、IG和PCA对词汇进行筛选，选取和有害信息分类相关性较大的词汇；

③通过反文档词频（TF-IDF），计算每篇文本在N个词汇上的一个取值，从而得到一个N维的向量（Vector），通过M个各自的向量，构建一个N维的数据模型；

④在N维空间的数据模型中(正样本的着点一般是会聚集在一起的，负样本的着点也会和正样本着点有一定的距离)，使用支持向量机（SVM）方法在正样本和负样本间生成一个N-1维的超平面（hyperplane），使得在超平面一侧的为正样本，另外一侧的为负样本；在有一个待判定点在此N维空间中着点的时候，则通过判断此点和超平面的位置关系判断此待测样本是正样本还是负样本。

工作原理：

1、收集语料库及其工作原理

收集移动互联网有害信息分类语料库，此步简单的称为标数据，不可或缺的需要人工参与，配合一定的过滤脚本，需要将有害信息分类中的毒品、赌博、色情等信息从一般信息中标识出来。

2、提取特征及其工作原理

利用分词技术，从语料库中提取正负样本的特征（词），用T表示。

在全量特征（词）T的基础上，通过互信息获取对系统影响最大的特征（词）排名前若干个，用A表示，其中A<T，即A是T的一个真子集；

通过信息增益得到对系统影响最大的特征（词）排名前若干个，用B表示，其中B<T，B是T的一个真子集；

通过主成分分析法得到对系统影响最大的特征（词）排名前若干个，用C表示，其中C<T，C是T的一个真子集；

RS=A∩B∩C，再取前若干个，构成移动互联网有害信息中某一类有害信息的特征（词）库。

3、建立分类器模型及其工作原理

在得到移动互联网有害信息的某一类有害信息的特征（词）库后，可以将正负样本按照SVM算法（或其他的分类算法）进行分类建模，即在D维高维空间中，画出一个D-1维的超平面，最大层度的讲正负样本分隔开，即在此超平面的一侧是正样本，另一侧是负样本。

4、待测文本预处理及其工作原理

将待测的文本通过分词技术，将一篇篇的文本切割成词的组成，以前面建立的特征词库为基础，将分词过后的待测文本通过反文档词频（TF-IDF）按照模型进行向量化，使其可以投射到高维空间的模型中。

5、分类过滤及其工作原理

将待测文本向量化后的矢量一个个放入高维空间模型中，判断这些矢量相对于分隔超平面的位置（在超平面的正样本一侧，还是在负样本一侧），从而判断各矢量（表示待测文本本身）属于正样本还是负样本，最后将判断为正样本（即表示是有害信息）的文本选取出来，划归为有害信息分类，此即为移动互联网上的有害信息。

6、界面展现及其工作原理

将过滤出来的移动互联网有害信息进行整理，并通过友好的界面形式展现给用户。

Claims

1.一种基于移动互联网有害信息的数据挖掘系统，其特征在于：

本系统依托于运营商核心网（000），设置有数据采集单元（100）、数据还原单元（200）、数据存储单元（300）、有害信息数据挖掘单元（400）、有害信息存储单元（500）和用户展现单元（600）；

运营商核心网（000）、数据采集单元（100）、数据还原单元（200）、数据存储单元（300）依次连接，实现对可读信息的还原；

有害信息数据挖掘单元（400）和数据存储单元（300）连接，实现对数据存储单元（300）里的数据进行直接挖掘；

数据存储单元（300）、有害信息存储单元（500）和用户展现单元（600）依次连接，实现有害信息的集中展现。

2.按权利要求1所述的数据挖掘系统，其特征在于所述的有害信息数据挖掘单元（400）是：

分词模块（402）连接待过滤数据模块（401），将生成的数据放入数据进行格式转换和处理模块（407）；

分词模块（402）、MI模块（404）、IG模块（405）和PCA模块（406）共同连接到分好类的有害信息语料库模块（403），将生成的数据放入特征向量模块（408）；

分类器模块（409）连接到数据进行格式转换和处理模块（407），获取预处理数据；

训练样本特征库模块（410）连接数据特征向量模块（408），将获取到的数据放入到分类器模块（409），最后得到的结果导入到通知展现模块（411）；

待过滤数据模块（401）、分词模块（402）、MI模块（404）、IG模块（405）、PCA模块（406）、数据进行格式转换和处理模块（407）、特征向量模块（408）、分类器模块（409）、训练样本特征库模块（410）和通知展现模块（411）均为常用模块；

所述的分好类的有害信息语料库模块（403）是一种人工参与、将有害信息进行分类后得到的文本集合；发现是有害信息，归入到有害信息库中。

3.基于权利要求1所述的数据挖掘系统的有害信息数据挖掘方法，其特征在于：

②将移动互联网上的有害信息中的某一类文本，进行人工选取若干条作为正样本，再选取若干条其它无害信息的文本作为负样本；

4.按权利要求3所述有害信息数据挖掘方法，其特征在于所述的步骤③：

A、对正、负样本进行分词，得到一系列不重复的词汇；

B、通过MI、IG和PCA对词汇进行筛选，选取和有害信息分类相关性较大的词汇；

C、通过反文档词频，计算每篇文本在N个词汇上的一个取值，从而得到一个N维的向量，通过M个各自的向量，构建一个N维的数据模型；

D、在N维空间的数据模型中，使用支持向量机方法在正样本和负样本间生成一个N-1维的超平面，使得在超平面一侧的为正样本，另外一侧的为负样本；在有一个待判定点在此N维空间中着点的时候，则通过判断此点和超平面的位置关系判断此待测样本是正样本还是负样本。