CN110175288B

CN110175288B - 一种面向青少年群体的文字和图像数据的过滤方法及系统

Info

Publication number: CN110175288B
Application number: CN201910433221.0A
Authority: CN
Inventors: 王礼鑫; 赵燕; 陈思明
Original assignee: Chinaso Information Technology Co ltd
Current assignee: Chinaso Information Technology Co ltd
Priority date: 2019-05-23
Filing date: 2019-05-23
Publication date: 2020-05-19
Anticipated expiration: 2039-05-23
Also published as: CN110175288A

Abstract

本发明公开了一种面向青少年群体的文字和图像数据的过滤方法及系统，所述过滤方法及过滤系统通过对互联网页面数据进行数据预处理，并对数据预处理获取的结果进行是否属于青少年数据的判别、是否属于低质量数据的判别以及是否适合青少年观看图片的判别等操作，在常规的数据过滤基础上，排除了庸俗的网络文字以及图片。优点是：引入HTML视觉分块技术，充分挖掘互联网页面中的不良信息；通过大数据训练，挖掘含有恶意跳转的JS代码，具有极强的数据净化能力；使青少年不感兴趣的数据被滤掉，向青少年输送特定内容的信息，使青少年在有限的时间有效的汲取互联网上的有用信息；从青少年的角度出发，使得互联网页面上的数据更加积极健康向上。

Description

一种面向青少年群体的文字和图像数据的过滤方法及系统

技术领域

本发明涉及文本过滤、图像分类领域，尤其涉及一种面向青少年群体的文字和图像数据的过滤方法及系统。

背景技术

近些年来，随着光纤通信、无线通信等基础设施的完善，越来越多的用户可以通过电脑、平板、手机等终端连入互联网。这种方便性使得初次上网人群的呈现低龄化的趋势。但是，互联网具有开放性，它不会选择性的向特定人群传递特定信息。此外，互联网也具有多样性，除了有价值的信息之外，还充斥了暴力、黄色、赌博等不良有害信息。

对于黄色、赌博、暴力等有害信息的过滤传统手段主要有：1.人工审查，即在发稿前由编辑部门进行审核，保证发布的每条稿件无差错；2.关键字匹配，即设定关键词黑名单，命中黑名单词汇的信息被过滤掉；3.从白名单站点中进行数据筛选，即从大站、政府站点等优质站点中进行数据筛选。第一种方法在面对每天的海量信息时效率低下，且实时性较差；第二种方法的缺陷在于内容的发布者会通过变换文字、加入特殊符号等各种各样的形式产生垃圾信息，黑名单词表无法做到完全覆盖；第三种方法则因为只限定特定的站点，从而造成大量优质的信息可能会被遗漏。

此外，随着互联网技术的发展，越来越多的互联网用户不仅是内容的接收者，更可能是内容的发布者；很多内容输出人员甚至是商业公司会通过庸俗的文字或者低俗图片来达到吸引阅读量或者追求自身利益的目的，这些信息如果不加区分的全部推送给青少年，不仅会严重挤压青少年宝贵的时间，更可能会向青少年灌输错误的价值观、人生观。

发明内容

本发明的目的在于提供一种面向青少年群体的文字及图像数据过滤方法及系统，从而解决现有技术中存在的前述问题。

为了实现上述目的，本发明采用的技术方案如下：

一种面向青少年群体的文字和图像数据的过滤方法，所述过滤方法包括如下步骤，

S1、对互联网页面上的文本进行数据预处理；所述数据预处理包括网页建树和分区文本提取；

S2、判断提取的分区文本中的数据是否为适合青少年阅读的数据，若是，则执行步骤S3，若否，则过滤该条数据；

S3、分区文本中的数据中添加非文本特征，并判断其是否属于低质量数据，若是，则过滤该条数据；若否，则该条数据将被呈现；

S4、寻找并下载分区文本中的有效图片链接，并对图片的二进制流进行处理，通过卷积神经网络判断该图片是否适合呈现给青少年，若是，则执行步骤S5，若否，则过滤该图片。

优选的，步骤S1包括如下内容，

S101、网页建树；按照HTMLDTD4.0规范分解互联网页面上所有的标签，一个标签作为一个树节点，按照标签之间的包含依赖关系、采用递归下降的方法构造语法树，并将互联网页面上的文本分为不同的区域，分别为META区域、正文区域、链接区域；

S102、分区文本提取；对分区后的文本进行标题提取、META信息提取和链接文本提取的操作。

优选的，所述标题提取具体为，遍历分区后的文本，当遍历到TAG_TITLE节点后，将该节点及其所有属性为TAG_PURETEXT的子节点的文字内容进行文字处理，获取标题内容；所述META信息提取具体为，遍历分区后的文本中的META节点，获取KEYWORDS-DESCRIPTION节点，将该节点及其所有属性为TAG_PURETEXT 的子节点的文字内容进行文字处理，获取META内容；所述链接文本提取具体为，从A、AREA、IMG、LINK、FRAME、IFRMAE或EMBED的标签中提取url链接，并从A 和OPTION的PURE_TEXT子节点中提取链接文本。

优选的，步骤S2包括如下内容，

S201、在分区文本中收集一批已标明是否适合青少年的数据，作为FastText 模型的第一训练集，记为

T＝{<X₁,y₁>,<X₂,y₂>,...,<X_N,y_N>}

其中，i为第一训练集中数据的编号，i＝1,2,...,N，N为第一训练集中数据总数，X_i为第一训练集中第i个数据，y_i为第一训练集中第i个数据的标签，如果该数据适合青少年，则y_i＝1；如果该数据不适合青少年，则y_i＝0；

S202、对第一训练集中的数据进行切词，生成多维词向量，表示为 X_i＝{x_i1,x_i2,......x_ik}，其中，x_ik表示第i条数据切词后的第k个词；并将第一训练集灌入FastText框架进行训练，得到FastText模型；

S203、对第一训练集中部分标注过的数据，将其切词后的多为词向量输入FastText模型，获取输出结果，判断输出结果与设定阈值之间的大小关系，若输出结果大于或等于设定阈值，则过滤该数据，若输出结果小于设定阈值，则该数据适合青少年，并执行步骤S3。

优选的，根据输出结果和部分标注过数据的标签之间的差异，适应性的调整设定阈值或第一训练集。

优选的，步骤S3包括如下内容，

S301、依据已知低质量页面中的JS，对分区文本中数据的JS代码进行聚类，提取常见的作弊JS跳转代码，并生成模板；对步骤S1中提取出的分区文本中数据的JS代码与模板进行正则匹配，如果匹配成功，则过滤分区文本中的数据；如果匹配失败，则执行步骤S302；

S302、构建赌博、色情、暴力以及对应的变种词表；通过构建Trie树的方式进行多模匹配，如果匹配成功，则过滤该分区文本中的数据；如果匹配失败，则执行步骤S303；

S303、对META区域、正文区域、连接区域的数据进行识别，如果数据被识别为低质量数据，则过滤该数据；如果数据不被识别为低质量数据，则该数据将被呈现。

优选的，步骤S4包括如下内容，

S401、寻找并下载分区文本中的有效图片链接，收集四类语料，分别为正常、色情、性感和变态；在数据预处理阶段将各图片裁剪成指定大小，令图片链构成第二训练集

G＝{<P₁,q₁>,<P₂,q₂>,...,<P_M,q_M>}

其中，j为第二训练集中数据的编号，j＝1,2,...,M，M为第二训练集中数据总数；P_j为第二训练集中第j个数据，q_j为第二训练集中第j个数据的标签；所述第二训练集中的各个标签分别为正常、色情、性感和变态的其中之一；

S402、将第二训练集通过卷积神经网络进行训练，并获取训练模型；

S402、采用训练模型判别分区文本中的实际图片，如果该图片被识别为非正常图片，则该图片将被过滤，若该图片被识别为正常图片，则该图片将被呈现。

优选的，所述卷积神经网络包括输入层、卷积层、池化层、扁平化层、全连接层和输出层，其以交叉熵均值作为cost,以Adam优化算法寻找全局最优点；所述训练集以每512条数据为一个批次使用所述卷积神经网络进行训练。

本发明的目的还在于提供一种面向青少年群体的文字和图像数据的过滤系统，所述过滤系统用于实现上述任一所述的过滤方法，所述过滤系统包括，

数据预处理模块；用于对互联网上的HTML页面进行数据预处理，所述数据预处理模块中设置有页面分区机制，能够将HTML文本分为不同的区域；

青少年数据判断模块；用于判断分区文本中的数据是否为适合青少年阅读的数据；

低质量数据判断模块，用于判断分区文本中的数据是否属于低质量数据；

青少年图片判断模块；用于判断分区文本中的图片是否适合呈现给青少年。

本发明的有益效果是：1、本发明通过引入HTML视觉分块技术，充分挖掘互联网页面中的不良信息；并通过大数据训练，挖掘含有恶意跳转的JS代码，具有极大的数据净化能力。2、本发明提供的过滤方法使得青少年不感兴趣的数据被提前滤掉，向青少年输送特定内容的信息，使得青少年在有限的时间更加有效的汲取互联网上的有用信息。3、本发明从青少年的角度出发，通过特定的数据训练，使得经过此装置的数据更加积极健康向上，可以让家长放心的让孩子们使用。

附图说明

图1是本发明实施例中过滤方法的流程图；

图2是本发明实施例中构建的语法树的结构示意图；

图3是本发明实施例中互联网页面分区示意图；

图4是本发明实施例中卷积神经网络结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。

实施例一

如图1所示，本发明提供了一种面向青少年群体的文字和图像数据的过滤方法及系统，所述过滤方法包括如下步骤，

S4、寻找并下载分区文本中的有效图片链，并对图片的二进制流进行处理，通过卷积神经网络判断该图片是否适合呈现给青少年，若是，则执行步骤S5，若否，则过滤该图片。

本实施例中，步骤S1包括如下内容，

S101、网页建树；按照HTMLDTD4.0规范分解互联网页面上所有的标签，一个标签作为一个树节点，按照标签之间的包含依赖关系、采用递归下降的方法构造语法树，如图2所示；并将互联网页面上的文本分为不同的区域，分别为META 区域、正文区域、链接区域，如图3所示；

本实施例中，所述标题提取具体为，遍历分区后的文本，当遍历到TAG_TITLE 节点后，将该节点及其所有属性为TAG_PURETEXT的子节点的文字内容进行文字处理，获取标题内容；所述META信息提取具体为，遍历分区后的文本中的META 节点，获取KEYWORDS-DESCRIPTION节点，将该节点及其所有属性为TAG_PURETEXT 的子节点的文字内容进行文字处理，获取META内容；所述链接文本提取具体为，从A、AREA、IMG、LINK、FRAME、IFRMAE或EMBED的标签中提取url链接，并从A 和OPTION的PURE_TEXT子节点中提取链接文本。

本实施例中，步骤S2包括如下内容，

T＝{<X₁,y₁>,<X₂,y₂>,...,<X_N,y_N>}

S203、对第一训练集中部分标注过的数据记为{X₁,...,X_m}，将其切词后的多为词向量输入FastText模型，获取输出结果记为{f₁,...,f_m}，判断输出结果f_j与设定阈值F之间的大小关系，若输出结果大于或等于设定阈值，则过滤该数据，若输出结果小于设定阈值，则该数据适合青少年，并执行步骤S3。

本实施例中，根据输出结果{f₁,...,f_m}和部分标注过数据的标签{y₁,...,y_m}之间的差异，适应性的调整设定阈值(也就是返回步骤S203)或第一训练集(也就是返回步骤S201)。

本实施例中，步骤S3包括如下内容，

S301、依据已知色情、赌博等低质量页面中的JS，对分区文本中数据的JS 代码进行聚类，提取常见的作弊JS跳转代码，并生成模板；对步骤S1中提取出的分区文本中数据的JS代码与模板进行正则匹配，如果匹配成功，则过滤分区文本中的数据；如果匹配失败，则执行步骤S302；

S303、对META区域、正文区域、连接区域的数据进行识别，如果数据被识别为低质量数据，则过滤该数据；如果数据不被识别为低质量数据，则该数据将被呈现。该过程采用svm机器学习技术进行识别。

本实施例中，步骤S4包括如下内容，

S401、寻找并下载分区文本中的图片链接，收集四类语料，分别为正常、色情、性感和变态；在数据预处理阶段将各图片裁剪成指定大小，本实施例中，所述图片被剪裁成32*32像素大小；令图片链构成第二训练集

G＝{<P₁,q₁>,<P₂,q₂>,...,<P_M,q_M>}

本实施例中，如图4所示，所述卷积神经网络包括输入层、卷积层、池化层、扁平化层、全连接层和输出层，其以交叉熵均值作为cost,以Adam优化算法寻找全局最优点；所述训练集以每512条数据为一个批次使用所述卷积神经网络进行训练。

本实施例中，所述采用卷积神经网络进行训练时，每512条数据为一个批次进行训练，最多迭代1万个Epochs。选择3*3的卷积核，卷积步长为(1,1,1,1)，卷积的padding为SAME模式，激活函数为Relu，最大池化为2*2，最大池化的步长为(1,2,2,1)，池化的padding为SAME；其中全连接层含有Dropout，保留节点的比例为0.5。

实施例二

本实施例中，本发明的目的还在还提供了一种面向青少年群体的文字和图像数据的过滤系统，所述过滤系统用于实现过滤方法，所述过滤系统包括，

数据预处理模块；用于对互联网页面上的文本进行数据预处理，所述数据预处理模块中设置有页面分区机制，能够将HTML文本分为不同的区域；

低质量数据判断模块，用于判断分区文本中的数据是否属于低质量数据；所述低质量数据判断模块向分区文本数据中加入一些非文本的特征，如JS结构、 HTML隐含文字、页面结构，进行判断；

通过采用本发明公开的上述技术方案，得到了如下有益的效果：

本发明通过提供一种面向青少年群体的文字和图像数据的过滤方法及系统，通过对互联网中的所有页面进行分析，排除不适合青少年的信息。本发明综合使用HTML分解技术、FastText、TensorFlow机器学习框架以及多模匹配技术对输入数据进行充分的挖掘与计算，在常规的数据过滤基础上，剔除了青少年不感兴趣的信息，排除了庸俗的网络文字以及图片，使得家长能放心的让广大青少年在互联网的信息海洋中汲取知识。本发明通过引入HTML视觉分块技术，充分挖掘互联网页面中的不良信息；并通过大数据训练，挖掘含有恶意跳转的JS 代码，具有极大的数据净化能力。本发明提供的过滤方法使得青少年不感兴趣的数据被提前滤掉，向青少年输送特定内容的信息，使得青少年在有限的时间更加有效的汲取互联网上的有用信息。同时，本发明从青少年的角度出发，通过特定的数据训练，使得经过此装置的数据更加积极健康向上，可以让家长放心的让孩子们使用。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种面向青少年群体的文字和图像数据的过滤方法，其特征在于：所述过滤方法包括如下步骤，

S4、寻找并下载分区文本中的有效图片链接，并对图片的二进制流进行处理，通过卷积神经网络判断该图片是否适合呈现给青少年，若是，则该图片将被呈现，若否，则过滤该图片；

步骤S1包括如下内容，

S102、分区文本提取；对分区后的文本进行标题提取、META信息提取和链接文本提取的操作；

步骤S3包括如下内容，

S303、对META区域、正文区域、链接区域的数据进行识别，如果数据被识别为低质量数据，则过滤该数据；如果数据不被识别为低质量数据，则该数据将被呈现。

2.根据权利要求1所述的面向青少年群体的文字和图像数据的过滤方法，其特征在于：所述标题提取具体为，遍历分区后的文本，当遍历到TAG_TITLE节点后，将该节点及其所有属性为TAG_PURETEXT的子节点的文字内容进行文字处理，获取标题内容；所述META信息提取具体为，遍历分区后的文本中的META节点，获取KEYWORDS-DESCRIPTION节点，将该节点及其所有属性为TAG_PURETEXT的子节点的文字内容进行文字处理，获取META内容；所述链接文本提取具体为，从A、AREA、IMG、LINK、FRAME、IFRMAE或EMBED的标签中提取url链接，并从A和OPTION的PURE_TEXT子节点中提取链接文本。

3.根据权利要求1所述的面向青少年群体的文字和图像数据的过滤方法，其特征在于：步骤S2包括如下内容，

S201、在分区文本中收集一批已标明是否适合青少年的数据，作为FastText模型的第一训练集，记为

T＝{<X₁,y₁>,<X₂,y₂>,...,<X_i,y_i>}

S202、对第一训练集中的数据进行切词，生成多维词向量，表示为X_i＝{x_i1,x_i2,......x_ik}，其中，x_ik表示第i条数据切词后的第k个词；并将第一训练集灌入FastText框架进行训练，得到FastText模型；

4.根据权利要求3所述的面向青少年群体的文字和图像数据的过滤方法，其特征在于：根据输出结果和部分标注过数据的标签之间的差异，适应性的调整设定阈值或第一训练集。

5.根据权利要求1所述的面向青少年群体的文字和图像数据的过滤方法，其特征在于：步骤S4包括如下内容，

G＝{<P₁,q₁>,<P₂,q₂>,...,<P_j,q_j>}

S403、采用训练模型判别分区文本中的实际图片，如果该图片被识别为非正常图片，则该图片将被过滤，若该图片被识别为正常图片，则该图片将被呈现。

6.根据权利要求5所述的面向青少年群体的文字和图像数据的过滤方法，其特征在于：所述卷积神经网络包括输入层、卷积层、池化层、扁平化层、全连接层和输出层，其以交叉熵均值作为cost,以Adam优化算法寻找全局最优点；所述训练集以每512条数据为一个批次使用所述卷积神经网络进行训练。

7.一种面向青少年群体的文字和图像数据的过滤系统，所述过滤系统用于实现上述权利要求1至6任一所述的过滤方法，其特征在于：所述过滤系统包括，