CN108319672A

CN108319672A - 基于云计算的移动终端不良信息过滤方法及系统

Info

Publication number: CN108319672A
Application number: CN201810071433.4A
Authority: CN
Inventors: 孙知信; 邢府纬; 骆冰清
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2018-01-25
Filing date: 2018-01-25
Publication date: 2018-07-24
Anticipated expiration: 2038-01-25
Also published as: CN108319672B

Abstract

基于云计算的移动终端不良信息过滤方法及系统，方法包括如下步骤：S1、客户端根据自定义过滤规则和网站在线检测过滤待检测的网页，再将本地的过滤规则和待检测的网页发送至云端；S2、待检测的网页按照预先设定的URL过滤和关键字过滤进行初步过滤；S3、对初步过滤后的网页进行预处理，并输入至云计算的分类器；S4、分类器通过并行架构计算出待检测的网页上信息之间的关联关系，并对信息进行初步分类，再根据预设好的阀值判断是否为不良网站；S5、经过初步分类的信息通过决策树算法进行二次分类，识别待检测的网页的类型。本发明将传统的客户端过滤方式与云端智能分类过滤方式相结合，构建一种新型混合过滤方法，有效提升了检测过滤的效率和正确率。

Description

基于云计算的移动终端不良信息过滤方法及系统

技术领域

本发明属于信息过滤技术领域，具体涉及一种基于云计算的移动终端不良信息过滤方法及系统。

背景技术

随着我国经济以及信息技术的不断发展，互联网已经融入到人们的生活当中，越来越多的人选择从互联网中选取所需要的信息，这也极大的促进了互联网的蓬勃发展。同时，人们不在仅仅依靠个人计算机来获取网络上的信息，以智能手机为代表的移动设备以其携带方便、使用快捷等优点成为了人们随时随地连接互联网的优先选择。

目前国内的网络过滤主流产品研发都聚焦在PC端，大多是通过简单的黑白名单对比过滤不良网站。剩余的也只是简单的通过设置黑白名单以及敏感词等较为初级的方式进行屏蔽，这类方法不仅显的较为生硬需要人为的设置，同时也会存在过滤正常网页的情况，而这类产品大多都是在客户端本地进行过滤的，无法对网页信息进行智能化过滤。

发明内容

本发明的目的在于：提供基于云计算的移动终端不良信息过滤方法及系统，将传统的客户端本地过滤方式与云端智能分类过滤方式相结合，构建一种新型混合过滤方法，有效提升了检测过滤的效率和正确率。

为了达到以上目的，基于云计算的移动终端不良信息过滤方法，包括如下步骤：

S1、客户端根据自定义过滤规则和网站在线检测过滤待检测的网页，再将本地的过滤规则和待检测的网页发送至云端；

S2、待检测的网页按照预先设定的URL过滤和关键字过滤进行初步过滤；

S3、对初步过滤后的网页进行预处理，并输入至云计算的分类器；

S4、分类器通过并行架构计算出待检测的网页上信息之间的关联关系，并对信息进行初步分类，再根据预设好的阀值判断是否为不良网站；

S5、经过初步分类的信息通过决策树算法进行二次分类，识别待检测的网页的网页类型。

本发明的优选方案是：自定义过滤规则是手动设置黑白名单或所需屏蔽的关键字，网站在线检测是通过识别待检测的网站的URL和文本内容进行过滤。

优选地，客户端通过网络内容检测请求控制模块向云端发起请求，将本地的自定义过滤规则传输到云端更新，再向云端传输待检测的网页信息。

优选地，URL过滤为在云端设置已知不良网站的黑名单和已认证网站的白名单，在黑名单和白名单中查找是否包含待检测的网页网站，关键字过滤为将待检测的网页中的文本内容与预先设置的关键字实时对比，当匹配数量达到设定阀值后进行过滤。

优选地，步骤S3中对初步过滤后的网页进行预处理包括文本预处理和图像预处理，文本预处理为使用Libpcap函数包抓取网页的文本内容，去除HTML标签及CSS样式，再采用统计模型中文分词，过滤分词出的无帮助词汇；图像预处理为对待测图形去噪、分割以及边缘分割，再通过YCbCr色彩模型对分割后的图形进行二值化，提取肤色像素，获取肤色像素的比例以及图片的纹理特征，并通过人脸识别估算人脸的轮廓面积。

优选地，步骤S4中分类器为并行KNN分类过滤器，初步分类包括网页信息分析阶段和网页信息分类阶段。

更优选地，网页信息分析阶段的具体步骤为：

从分布式文件系统中读取训练集，并存放到分布式数据集中；

根据预先定义好的参数将训练集均匀分割为若干个小训练集，并存储到内存中；

采用分布式操作计算分割后的小训练集与待测样本之间的距离，获取若干个邻近的候选样本；

根据每个小训练集与候选样本之间的距离，获取每个小训练集最邻近的候选样本。

更优选地，网页信息分类阶段的具体步骤为：

汇总网页信息分析阶段获取的每个小训练集最邻近的候选样本；

以加权的方式将所有最邻近的候选样本中加权值最高的一类作为训练集的最终分类。

优选地，步骤S5的具体步骤为：

将初步分类的信息作为输出条件从分布式数据集中读取；

将信息以键值对的方式存储，并通过cart算法决策树判断网站类型。

本发明还提供基于云计算的移动终端不良信息过滤系统，包括客户端和云端；客户端内设置有用户自定义规则模块，用于手动设置黑白名单或所需屏蔽的关键字，

和网络在线检测模块，用于通过识别待检测的网站的URL和文本内容进行过滤；

客户端通过网络内容检测请求控制模块向云端发送本地的过滤规则和待检测的网页；

云端包括初步过滤模块，用于按照预先设定的URL过滤和关键字过滤进行初步过滤；

初步分类判断模块，用于通过并行架构计算出待检测的网页上信息之间的关联关系，并对信息进行初步分类，再根据预设好的阀值判断是否为不良网站；

和二次分类识别模块，用于将经过初步分类的信息通过决策树算法进行二次分类，识别待检测的网页的类型。

本发明有益效果为：结合传统客户端本地过滤方式与智能云端分类过滤方式，构建一种新型混合过滤方法。云端以并行KNN分类过滤器为基础，充分利用分布式内存数据集的优势，提升了检测过滤的效率及正确率。分类完成的文本信息和图像信息最终通过cart算法决策树综合分析识别，避免了不良网站分类错误的问题。

附图说明

下面结合附图对本发明作进一步的说明。

图1为本发明的方法流程示意图；

图2为本发明的方法的初步分类网页信息分析阶段流程示意图；

图3为本发明的方法的初步分类网页信息分类阶段流程示意图；

图4为本发明的方法的二次分类流程示意图；1

图5为本发明的系统客户端结构示意图；

图6为本发明的系统云端结构示意图。

具体实施方式

实施例一

请参阅图1提供的基于云计算的移动终端不良信息过滤方法，包括如下步骤：

以下将对上述步骤S1-S5的操作规则、方式等进行详细说明

自定义过滤规则是针对用户喜好对网站及网页上内容过滤，可以通过手动设置网站网页黑白名单或通过设置所需屏蔽的关键字，当检测到网页出现关键字时，可对用户进行提醒，

网站在线检测是通过识别待检测的网站的URL和文本内容进行过滤。

客户端通过网络内容检测请求控制模块向云端发起请求，首先将本地的自定义过滤规则传输到云端进行更新，再向云端spark平台传输待检测的网页信息。

所述步骤2中URL过滤为在云端设置已知不良网站的黑名单和已认证网站的白名单，每当访问时，在黑名单和白名单中查找是否包含待检测的网页网站，若黑名单中包含，则禁止访问，若白名单中包含，则允许访问。

关键字过滤为将待检测的网页中的文本内容与预先设置的关键字实时对比，当匹配数量达到设定阀值后作为不良信息进行过滤。

步骤S3中对初步过滤后的网页进行预处理包括文本预处理和图像预处理，文本预处理为使用Libpcap函数包抓取网页的文本内容，去除HTML标签及CSS样式，再采用统计语言模型中文分词，过滤分词出的无帮助词汇；

图像预处理为对待测图形去噪、分割以及边缘分割，再通过YCbCr色彩模型对分割后的图形进行二值化，提取肤色像素，获取肤色像素的比例以及图片的纹理特征，并通过人脸识别判断，根据识别出的眼睛的位置和嘴唇的位置以估算人脸的轮廓面积，最终将数据保存在分布式内存中，作为分类器的输入条件。

步骤S4中分类器为并行KNN分类过滤器，初步分类包括网页信息分析阶段和网页信息分类阶段。KNN算法分为两个操作，分别是map操作以及reduce操作，

请参阅图2，网页信息分析阶段的具体步骤为：

根据预先定义好的参数将训练集均匀分割为n个小训练集(map1,map2…mapn,1<j<n)，对于每一个map任务而言都有与之相对应的分割后的每一个小训练集，每一个小训练集中都包含着数量大致相等数量的训练集样本；

采用分布式map操作计算分割后的小训练集与待测样本之间的距离，获取k个邻近的候选样本；

由于map操作阶段矢量Info-Dist是根据距离进行排列的，因此加快了更新过程的速度。矢量Info-Dist是由所包含的是多个排序后的队列合并而成的，并且尽可能的将距离相同的邻居样本保留下来，因此在时间复杂度上最坏的情况是O（n）。这个函数将会把样本中的距离逐一进行比较，如果距离小于当前的最近距离，则距离与网页信息样本将会更新，如果之间的距离高于当前最近距离，则会略过，如果距离完全相同则会在空间充足的情况下将其保留下来。

reducers操作根据每个小训练集与候选样本之间的距离，获取每个小训练集最邻近的候选样本。

请参阅图3，网页信息分类阶段的具体步骤为：

根据预先定义好的参数将训练集均匀分割为m个小训练集(map1,map2…mapm,1<j<m)，对于每一个map任务而言都有与之相对应的分割后的每一个小训练集，每一个小训练集中都包含着数量大致相等数量的训练集样本；

采用分布式map操作计算分割后的小训练集与待测样本之间的距离，获取k个邻近的候选样本，为每个样本添加一个id作为关键字标识，以键值对的方式将信息存储，

reducers操作汇总所有临近的候选样本，并根据每个小训练集与候选样本之间的距离，获取每个小训练集最邻近的候选样本；

针对两个以样本id为主键且已经按照距离升序的列表进行聚合，最终得到一个长度为k的新的已经排好序的列表。其中可能存在距离相同的样本，在取k个参数的条件下，如果内存足够将会尽可能的保留这些相同的距离的数据。实现上述将映射的结果关联起来的算法时间复杂度为O(k)。

最后由于在之前阶段已经计算出测试集的k个样本数据的距离值，以及类型，而加权采取的策略就是根据距离的远近以及类型进行加权，距离越小则说明距离此分类越近，距离越远则说明测试数据与此样本类型分类越远，因此距离越近的加权的值越大，距离越远的加权的值越小。另一个加权的特征则是根据不良信息的类别加权，越是被举报比例较大的不良信息类别其加权的比例越大，比如色情淫秽类不良信息，越是被举报比例较小类加权比例越小，例如暴力类不良信息。最终加权的值最大的分类即为信息的最终分类。

请参阅图4，步骤S5的具体步骤为：

将初步分类的信息作为输出条件从分布式数据集中读取；

与此同时，将这些不良特征进行阈值的设定，超过一定的阈值范围可以设置其不良网站的级别，级别从0到5，0位正常网站，不良程度依次递增，5则是极为严重的网站。最后将不良网站分类以及不良网站级别都存入到数据库中保存，作为云端在进行初步过滤时的参考数据。最后将最终数据返回给客户端。

请参阅图5和图6，本发明还提供基于云计算的移动终端不良信息过滤系统，包括客户端和云端；客户端内设置有用户自定义规则模块，用于手动设置黑白名单或所需屏蔽的关键字，

本发明结合传统客户端本地过滤方式与智能云端分类过滤方式，构建一种新型混合过滤方法。云端以并行KNN分类过滤器为基础，充分利用分布式内存数据集的优势，提升了检测过滤的效率及正确率。分类完成的文本信息和图像信息最终通过cart算法决策树综合分析识别，避免了不良网站分类错误的问题。

除上述实施例外，本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案，均落在本发明要求的保护范围。

Claims

1.基于云计算的移动终端不良信息过滤方法，其特征在于，包括如下步骤：

S5、经过初步分类的信息通过决策树算法进行二次分类，识别待检测的网页的类型。

2.根据权利要求1所述的基于云计算的移动终端不良信息过滤方法，其特征在于，所述自定义过滤规则是手动设置黑白名单或所需屏蔽的关键字，网站在线检测是通过识别待检测的网站的URL和文本内容进行过滤。

3.根据权利要求1所述的基于云计算的移动终端不良信息过滤方法，其特征在于，所述客户端通过网络内容检测请求控制模块向云端发起请求，将本地的自定义过滤规则传输到云端更新，再向云端传输待检测的网页信息。

4.根据权利要求1所述的基于云计算的移动终端不良信息过滤方法，其特征在于，所述URL过滤为在云端设置已知不良网站的黑名单和已认证网站的白名单，在黑名单和白名单中查找是否包含待检测的网页网站，所述关键字过滤为将待检测的网页中的文本内容与预先设置的关键字实时对比，当匹配数量达到设定阀值后进行过滤。

5.根据权利要求1所述的基于云计算的移动终端不良信息过滤方法，其特征在于，所述步骤S3中对初步过滤后的网页进行预处理包括文本预处理和图像预处理，所述文本预处理为使用Libpcap函数包抓取网页的文本内容，去除HTML标签及CSS样式，再采用统计模型中文分词，过滤分词出的无帮助词汇；所述图像预处理为对待测图形去噪、分割以及边缘分割，再通过YCbCr色彩模型对分割后的图形进行二值化，提取肤色像素，获取肤色像素的比例以及图片的纹理特征，并通过人脸识别估算人脸的轮廓面积。

6.根据权利要求1所述的基于云计算的移动终端不良信息过滤方法，其特征在于，所述步骤S4中分类器为并行KNN分类过滤器，所述初步分类包括网页信息分析阶段和网页信息分类阶段。

7.根据权利要求6所述的基于云计算的移动终端不良信息过滤方法，其特征在于，所述网页信息分析阶段的具体步骤为：

8.根据权利要求6所述的基于云计算的移动终端不良信息过滤方法，其特征在于，所述网页信息分类阶段的具体步骤为：

9.根据权利要求1所述的基于云计算的移动终端不良信息过滤方法，其特征在于，所述步骤S5的具体步骤为：

将初步分类的信息作为输出条件从分布式数据集中读取；

10.基于云计算的移动终端不良信息过滤系统，其特征在于，包括客户端和云端；所述客户端内设置有用户自定义规则模块，用于手动设置黑白名单或所需屏蔽的关键字，

所述客户端通过网络内容检测请求控制模块向云端发送本地的过滤规则和待检测的网页；

所述云端包括初步过滤模块，用于按照预先设定的URL过滤和关键字过滤进行初步过滤；

和二次分类识别模块，用于将经过初步分类的信息通过决策树算法进行二次分类，识别待检测的网页类型。