CN111259237B

CN111259237B - 一种用于公众有害信息的识别方法

Info

Publication number: CN111259237B
Application number: CN202010031962.9A
Authority: CN
Inventors: 王礼鑫; 郭西念
Original assignee: Chinaso Information Technology Co ltd
Current assignee: Chinaso Information Technology Co ltd
Priority date: 2020-01-13
Filing date: 2020-01-13
Publication date: 2021-02-09
Anticipated expiration: 2040-01-13
Also published as: CN111259237A

Abstract

本发明公开了一种用于公众有害信息的识别方法，所述识别方法包括如下步骤，S1、利用已知的各种类型的有害页面和正常页面组成第一训练数据集；S2、分解所述第一训练数据集中的各个数据，构建第一DOM树；S3、使用第一训练数据集中的各个数据在所述第一DOM树上循环遍历，根据第一训练数据集中数据的特征获取第一模型，根据第一训练数据集中数据的文字内容获取第二模型，根据第一训练数据集中数据的文字内容的特征获取第三模型；S4、利用未知网页组成第二训练数据集；等步骤。优点是：识别方法综合运用机器学习以及深度学习技术对未知页面中的文字进行判别，对信息进行多重识别，提高了识别准确率；此外，对于疑似有害页面可以做出预警，方便人工审查。

Description

一种用于公众有害信息的识别方法

技术领域

本发明涉及互联网有害信息识别领域，尤其涉及一种用于公众有害信息的识别方法。

背景技术

随着互联网技术的发展，越来越多的用户可以通过PC、手机、PAD等终端接入互联网。由于普通互联网用户不具备专业的技术知识，所以很容易受到有害信息的侵蚀，比如正常网页跳转到欺诈页面、网页中隐藏赌博链接、非法广告信息等。此外，极少部分别有用心的作者还会通过互联网散播色情、涉政、敏感等非法信息，从中牟利。因此，如何识别以上有害信息，净化网络成为目前的重点。

目前互联网中针对有害信息的识别比较常用的手段有：1.添加关键词，通过关键词匹配的形式来进行识别和过滤。2.利用常用的机器学习方法训练色情、宗教、血腥等有害信息模型，然后进行预测。以上两种方法能解决部分问题，但无法覆盖复杂多样的互联网数据。比如，关键词匹配无法适应文字适度变换的情况，针对某个关键词，想要扩大识别范围只能穷举所有的变换，效率低下；训练色情、宗教等分类模型只考虑到HTML中的文字，对于HTML中含有恶意跳转代码或者隐藏信息无能为力。

发明内容

本发明的目的在于提供一种用于公众有害信息的识别方法，从而解决现有技术中存在的前述问题。

为了实现上述目的，本发明采用的技术方案如下：

一种用于公众有害信息的识别方法，所述识别方法包括如下步骤，

S1、利用已知的各种类型的有害页面和正常页面组成第一训练数据集；

S2、分解所述第一训练数据集中的各个数据，构建第一DOM树；

S3、使用第一训练数据集中的各个数据在所述第一DOM树上循环遍历，根据第一训练数据集中数据的特征获取第一模型，根据第一训练数据集中数据的文字内容获取第二模型，根据第一训练数据集中数据的文字内容的特征获取第三模型；

S4、利用未知网页组成第二训练数据集；

S5、分解所述第一训练数据集中的各个数据，构建第二DOM树；

S6、使用第二训练数据集中的各个数据在所述第二DOM树上循环遍历，将第二训练数据集中数据的特征作为所述第一模型的输入，获取第一结果；将第二训练数据集中数据的文字内容作为第二模型的输入，获取第二结果；将第二训练数据集中数据的文字内容的特征作为第三模型的输入，获取第三结果；通过判定第一结果、第二结果和第三结果，进而获取未知页面是否是有害页面。

优选的，按照HTML DTD4.0规范分解第一训练数据集和第二训练集，分别获取第一DOM树和第二DOM树。

优选的，步骤S3具体包括如下内容，

S31、将所述第一训练数据集中的各个数据在所述第一DOM树上进行循环遍历，抽取并计算第一训练数据集中各个数据的设定数量的特征，组成维数为设定数量的特征向量，利用机器学习算法对所述特征向量进行训练，获取第一模型；

S32、将第一训练数据集中的各个数据在所述第一DOM树上进行遍历，得到所有数据的文字内容，对文字内容进行文本处理之后，获取第一保留数据；利用TF-IDF选取所述第一保留数据中的特征，并采用Logistics Regression进行分类训练，获取第二模型；用Word2Vector对所述第一保留数据进行向量化，用Text-CNN进行分类训练，获取第三模型。

优选的，步骤S6具体包括两种判定方式，分别为，

A、将第二训练数据集中的各个数据在所述第二DOM树上进行循环遍历，抽取并计算第二训练数据集中各个数据的设定数量的特征，组成维数为设定数量的第二特征向量，将所述第二向量作为所述第一模型的输入，获取第一结果，判断第一结果是否为存在有害特征，若是，则判定未知网页为有害网页，若否，则判定未知网页为正常网页；

B、将第二训练数据集中的各个数据在所述第二DOM树上进行循环遍历，得到所有数据的文字内容，记为第一文本信息；对所述第一文本信息进行拼音转汉字操作之后，去掉其中的符号，记为第二文本信息；将所述第一文本信息和所述第二文本信息合并为目标文本信息；

加载有害信息拼音库，建立对应的Double-Array Trie树，对所述第二文本信息进行汉字转拼音操作，利用Double-Array Trie树进行多模匹配，若匹配成功，则判定未知页面为疑似有害网页；否则，执行后续操作；

将所述目标文本信息经过文本处理之后，获取第二保留数据，采用第二模型的特征词表对第二保留数据进行向量化，并将向量化的结果作为第二模型的输入获取第二结果，判断第二结果是否大于或等于设定预测值；若是，则第二结果＝True，若否，则第二结果＝False；

将所述第二保留数据用Word2Vector进行向量化，作为第三模型的输入，得到第三结果＝True，或者第三结果＝False；

综合所述第二结果和所述第三结果，若所述第二结果和所述第三结果均为True,则判定将未知页面判定为有害网页；若所述第二结果和所述第三结果均为False，则判定未知页面为正常网页；若所述第二结果和所述第三结果中其中一个为True，另一个为False，则将未知网页判定为疑似有害网页。

优选的，所述设定数量为58，则设定数量的特征分别为，标题长度、标题中重复字数、标题中重复字数占比、标题中特殊字符占比、标题中英文字符占比、标题中是否含有URL、标题中是否含有问句、标题中中文+英文单词的数目、标题中含不良词的数目、正文最长文本长度、正文中含有标题的次数、正文含有标题的次数与正文句子数比例、正文中重复节点次数、正文中重复节点占比、正文中特殊字符占比、正文中链接数、正文中中文+英文单词的数目、正文中含有下一页/上一页数目、正文中图片标签的个数、正文中含有的新闻类的词长度和正文长度比值、正文中含有医院相关词长度及和正文长度比值、正文中含有数字串的总长度和正文长度比值、正文中含有的外链数和所有链接数比值、正文长度和HTML长度比值、正文中含不良词的数目、本页面是否是HOME页、本页面是否是BBS页、本页面是否是BLOG页、页面中TAG数、页面中JS数、页面中P标签的数目、页面中DIV标签的数目、页面中EMBED标签的数目、页面中BR标签的数目、页面中STYLE标签的数目、页面中TD标签的数目、页面中TABLE标签的数目、页面中P标签下是BR标签结构的数目、页面中含有超过1个TITLE标签的个数、最长文本中含有ANCHOR的数目、最长文本中含有图片信息的数目、最长文本和链接长度比值、最长文本和外链长度比值、最长文本中含有疑问词的个数、ANCHOR和所有文字长度比值、ANCHOR中含有英文的比例、ANCHOR中含有URL的比例、ANCHOR中含有游戏词的个数、ANCHOR中含有游戏词的比例、ANCHOR中含有商业词汇的个数、ANCHOR中含有商业词汇的比例、ANCHOR中含有视频词汇的个数、ANCHOR中含有视频词汇的比例、ANCHOR中含有疑似电话的个数、ANCHOR中含有疑似电话的比例、JS中含有嵌套SCRIPT标签的个数、JS中含有其它搜索引擎的个数、JS中含有其它域名的个数。

优选的，所述文本处理具体包括对文字内容进行分词和剔除停用词。

优选的，所述设定预测值为0.7。

优选的，将被判定为疑似有害页面的未知页面直接判定为有害页面，或者，采用人工筛查的方式对被判定为疑似有害网页的未知页面进行筛查，以将疑似有害网页筛查为有害网页或者是正常网页；将有害网页中的有害信息提取出来填充到有害信息拼音库中。

本发明的有益效果是：1、本发明通过对原始的HTML进行拆解，充分挖掘HTML中包含的链接、文字以及页面结构信息，利用抽取到的58维的特征对页面进行分析，使用机器学习的方法进行检测，能够覆盖多种类型的有害网页。2、本发明对信息中的汉字和拼音进行转化，对标点符号进行变换后再做识别，能够应对不同形式的恶意信息。3、本发明综合运用机器学习以及深度学习技术对未知页面中的文字进行判别，对信息进行多重识别，提高了识别准确率；此外，对于疑似有害页面可以做出预警，方便人工审查。

附图说明

图1是本发明实施例中DOM树的示意图；

图2是本发明实施例中识别方法的原理图；

图3是本发明实施例中有害网页判定的原理图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。

如图所示，本实施例中提供了一种用于公众有害信息的识别方法，所述识别方法包括如下步骤，

S4、利用未知网页组成第二训练数据集；

将第一训练数据集记为T＝{＜X₁,y₁＞,＜X₂,y₂＞,...,＜X_N,y_N＞}，其中X_i为数据集中第i个样本，i＝1,2,3,…,N，N为训练集的总数(下同),y_i为网页是否是有害网页，如果y_i＝1则为有害网页，如果y_i＝0则为正常网页。

按照HTML DTD4.0规范分解第一训练数据集获取第一DOM树。

步骤S3具体包括如下内容，

S31、将所述第一训练数据集中的各个数据在所述第一DOM树上进行循环遍历，抽取并计算第一训练数据集中各个数据的设定数量的特征，组成维数为设定数量的第一特征向量，利用机器学习算法(GBDT)对所述第一特征向量进行训练，获取第一模型；

第一训练数据集中，所述设定数量为58，则设定数量的特征分别为，标题长度、标题中重复字数、标题中重复字数占比、标题中特殊字符占比、标题中英文字符占比、标题中是否含有URL、标题中是否含有问句、标题中中文+英文单词的数目、标题中含不良词的数目、正文最长文本长度、正文中含有标题的次数、正文含有标题的次数与正文句子数比例、正文中重复节点次数、正文中重复节点占比、正文中特殊字符占比、正文中链接数、正文中中文+英文单词的数目、正文中含有下一页/上一页数目、正文中图片标签的个数、正文中含有的新闻类的词长度和正文长度比值、正文中含有医院相关词长度及和正文长度比值、正文中含有数字串的总长度和正文长度比值、正文中含有的外链数和所有链接数比值、正文长度和HTML长度比值、正文中含不良词的数目、本页面是否是HOME页、本页面是否是BBS页、本页面是否是BLOG页、页面中TAG数、页面中JS数、页面中P标签的数目、页面中DIV标签的数目、页面中EMBED标签的数目、页面中BR标签的数目、页面中STYLE标签的数目、页面中TD标签的数目、页面中TABLE标签的数目、页面中P标签下是BR标签结构的数目、页面中含有超过1个TITLE标签的个数、最长文本中含有ANCHOR的数目、最长文本中含有图片信息的数目、最长文本和链接长度比值、最长文本和外链长度比值、最长文本中含有疑问词的个数、ANCHOR和所有文字长度比值、ANCHOR中含有英文的比例、ANCHOR中含有URL的比例、ANCHOR中含有游戏词的个数、ANCHOR中含有游戏词的比例、ANCHOR中含有商业词汇的个数、ANCHOR中含有商业词汇的比例、ANCHOR中含有视频词汇的个数、ANCHOR中含有视频词汇的比例、ANCHOR中含有疑似电话的个数、ANCHOR中含有疑似电话的比例、JS中含有嵌套SCRIPT标签的个数、JS中含有其它搜索引擎的个数、JS中含有其它域名的个数。

因此，获取的所述第一特征向量也为58维的特征向量，记为

i＝1,2,3,…，N，N为训练集的总数，机器学习算法(GBDT)对所述第一特征向量进行训练得到第一模型M₁。

所述文本处理具体包括对文字内容进行分词和剔除停用词；将第一训练数据集中的各个数据在所述第一DOM树上进行遍历，得到所有数据的文字内容，将文字内容进行文本处理之后，记为第一保留数据，将第一保留数据利用TF-IDF选取特征，用LogisticsRegression进行分类训练，形成第二模型M₂。

用Word2Vector对所述第一保留数据进行向量化，接着用Text-CNN进行分类训练，形成第三模型M₃。其第三模型中词向量维度为64维，卷积核数目为128，卷积核尺寸为5，dropout保留比例为0.5。

本实施例中，对于未知页面的判定包括两种判定方式，分别为，

A(GBDT模型判定)、将第二训练数据集中的各个数据在所述第二DOM树上进行循环遍历，抽取并计算第二训练数据集中各个数据的设定数量的特征，组成维数为设定数量的第二特征向量，将所述第二向量作为所述第一模型的输入，获取第一结果，判断第一结果是否为存在有害特征，若是，则判定未知网页为有害网页，若否，则判定未知网页为正常网页。其中，具体的判定方式为，GBDT模型输出小于0则为有害网页，大于0为正常网页。

B(基于文字的判定)、将第二训练数据集中的各个数据在所述第二DOM树上进行循环遍历，得到所有数据的文字内容，记为第一文本信息；对所述第一文本信息进行拼音转汉字操作之后，去掉其中的符号，记为第二文本信息；将所述第一文本信息和所述第二文本信息合并为目标文本信息；

加载有害信息拼音库，建立对应的Double-Array Trie树，对所述第二文本信息进行汉字转拼音操作，利用Double-Array Trie树进行多模匹配，若匹配成功，则判定未知页面为疑似有害网页；否则，执行后续操作；(此过程判断出来的结果准确率不高，所以称为疑似有害页面。疑似有害页面大概率是有害页面，可以经过人工筛选一下，也可以不筛选直接判断为有害页面)

同样的，采用HTML DTD4.0规范分解第二训练数据集获取第二DOM树。

方式A中，将第二训练数据集中的各个数据在所述第二DOM树上进行循环遍历，抽取并计算第二训练数据集中各个数据的设定数量的特征，组成维数为设定数量的第二特征向量。

第二训练数据集中，所述设定数量为58，则设定数量的特征分别为，标题长度、标题中重复字数、标题中重复字数占比、标题中特殊字符占比、标题中英文字符占比、标题中是否含有URL、标题中是否含有问句、标题中中文+英文单词的数目、标题中含不良词的数目、正文最长文本长度、正文中含有标题的次数、正文含有标题的次数与正文句子数比例、正文中重复节点次数、正文中重复节点占比、正文中特殊字符占比、正文中链接数、正文中中文+英文单词的数目、正文中含有下一页/上一页数目、正文中图片标签的个数、正文中含有的新闻类的词长度和正文长度比值、正文中含有医院相关词长度及和正文长度比值、正文中含有数字串的总长度和正文长度比值、正文中含有的外链数和所有链接数比值、正文长度和HTML长度比值、正文中含不良词的数目、本页面是否是HOME页、本页面是否是BBS页、本页面是否是BLOG页、页面中TAG数、页面中JS数、页面中P标签的数目、页面中DIV标签的数目、页面中EMBED标签的数目、页面中BR标签的数目、页面中STYLE标签的数目、页面中TD标签的数目、页面中TABLE标签的数目、页面中P标签下是BR标签结构的数目、页面中含有超过1个TITLE标签的个数、最长文本中含有ANCHOR的数目、最长文本中含有图片信息的数目、最长文本和链接长度比值、最长文本和外链长度比值、最长文本中含有疑问词的个数、ANCHOR和所有文字长度比值、ANCHOR中含有英文的比例、ANCHOR中含有URL的比例、ANCHOR中含有游戏词的个数、ANCHOR中含有游戏词的比例、ANCHOR中含有商业词汇的个数、ANCHOR中含有商业词汇的比例、ANCHOR中含有视频词汇的个数、ANCHOR中含有视频词汇的比例、ANCHOR中含有疑似电话的个数、ANCHOR中含有疑似电话的比例、JS中含有嵌套SCRIPT标签的个数、JS中含有其它搜索引擎的个数、JS中含有其它域名的个数。

获取的第二特征向量也为58维的特征向量，记为w＝[w₁,w₂,...,w₅₈]，并将该第二特征向量输入到第一模型中，得到第一结果进行判别，以确定未知网页是否是有害网页。具体的判定方式为，第一结果小于0则为有害网页，第一结果大于0为正常网页。

方式B中，将第二训练数据集中的各个数据在所述第二DOM树上进行循环遍历，得到所有数据的文字内容，记为第一文本信息S₁，对S₁进行拼音转汉字，去掉“-”“、”“/””等符号之后形成的文本信息记做S₂，将S₁和S₂合并，记为目标文本信息。

将所述目标文本信息经过文本处理之后，记为第二保留数据，并采用第二模型中的特征词表对第二保留数据进行向量化，将向量化结果作为第二模型的输入，获取第二结果，判断第二结果与设定预测值之间的大小关系，若第二结果大于或等于设定预测值，则第二结果＝True；若第二结果小于设定预测值，则第二结果＝False。所述设定预测值为0.7，可以根据具体情况进行设置，以便更好的满足实际需求。

之后，综合所述第二结果和所述第三结果，若所述第二结果和所述第三结果均为True,则判定将未知页面判定为有害网页；若所述第二结果和所述第三结果均为False，则判定未知页面为正常网页；若所述第二结果和所述第三结果中其中一个为True，另一个为False，则将未知网页判定为疑似有害网页；至此，判断过程结束。

本实施例中，针对被判定为疑似有害网页的未知网页，可以采用人工筛查的方式进一步判定其为有害网页或者是正常网页；由于疑似有害网页大概率为有害网页，因此也可以直接将其归为有害网页。最后，可将有害网页中的有害部分提取出来扩充有害信息拼音库。人工筛查的有害信息也可以作为训练语料定期更新第二模型和第三模型。

通过采用本发明公开的上述技术方案，得到了如下有益的效果：

本发明提供了一种用于公众有害信息的识别方法，本发明通过对原始的HTML进行拆解，充分挖掘HTML中包含的链接、文字以及页面结构信息，利用抽取到的58维的特征对页面进行分析，使用机器学习的方法进行检测，能够覆盖多种类型的有害网页；本识别方法对信息中的汉字和拼音进行转化，对标点符号进行变换后再做识别，能够应对不同形式的恶意信息；本识别方法综合运用机器学习以及深度学习技术对未知页面中的文字进行判别，对信息进行多重识别，提高了识别准确率；此外，对于疑似有害页面可以做出预警，方便人工审查。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种用于公众有害信息的识别方法，其特征在于：所述识别方法包括如下步骤，

S4、利用未知网页组成第二训练数据集；

S5、分解所述第二训练数据集中的各个数据，构建第二DOM树；

S6、使用第二训练数据集中的各个数据在所述第二DOM树上循环遍历，将第二训练数据集中数据的特征作为所述第一模型的输入，获取第一结果；将第二训练数据集中数据的文字内容作为第二模型的输入，获取第二结果；将第二训练数据集中数据的文字内容的特征作为第三模型的输入，获取第三结果；通过判定第一结果、第二结果和第三结果，进而获取未知页面是否是有害页面；

步骤S6具体包括两种判定方式，分别为，

A、将第二训练数据集中的各个数据在所述第二DOM树上进行循环遍历，抽取并计算第二训练数据集中各个数据的设定数量的特征，组成维数为设定数量的第二特征向量，将所述第二特征向量作为所述第一模型的输入，获取第一结果，判断第一结果是否为存在有害特征，若是，则判定未知网页为有害网页，若否，则判定未知网页为正常网页；

综合所述第二结果和所述第三结果，若所述第二结果和所述第三结果均为True,则判定将未知页面判定为有害网页；若所述第二结果和所述第三结果均为False，则判定未知页面为正常网页；若所述第二结果和所述第三结果中其中一个为True，另一个为False，则将未知网页判定为疑似有害网页；

所述设定数量为58，则设定数量的特征分别为，标题长度、标题中重复字数、标题中重复字数占比、标题中特殊字符占比、标题中英文字符占比、标题中是否含有URL、标题中是否含有问句、标题中中文+英文单词的数目、标题中含不良词的数目、正文最长文本长度、正文中含有标题的次数、正文含有标题的次数与正文句子数比例、正文中重复节点次数、正文中重复节点占比、正文中特殊字符占比、正文中链接数、正文中中文+英文单词的数目、正文中含有下一页/上一页数目、正文中图片标签的个数、正文中含有的新闻类的词长度和正文长度比值、正文中含有医院相关词长度及和正文长度比值、正文中含有数字串的总长度和正文长度比值、正文中含有的外链数和所有链接数比值、正文长度和HTML长度比值、正文中含不良词的数目、本页面是否是HOME页、本页面是否是BBS页、本页面是否是BLOG页、页面中TAG数、页面中JS数、页面中P标签的数目、页面中DIV标签的数目、页面中EMBED标签的数目、页面中BR标签的数目、页面中STYLE标签的数目、页面中TD标签的数目、页面中TABLE标签的数目、页面中P标签下是BR标签结构的数目、页面中含有超过1个TITLE标签的个数、最长文本中含有ANCHOR的数目、最长文本中含有图片信息的数目、最长文本和链接长度比值、最长文本和外链长度比值、最长文本中含有疑问词的个数、ANCHOR和所有文字长度比值、ANCHOR中含有英文的比例、ANCHOR中含有URL的比例、ANCHOR中含有游戏词的个数、ANCHOR中含有游戏词的比例、ANCHOR中含有商业词汇的个数、ANCHOR中含有商业词汇的比例、ANCHOR中含有视频词汇的个数、ANCHOR中含有视频词汇的比例、ANCHOR中含有疑似电话的个数、ANCHOR中含有疑似电话的比例、JS中含有嵌套SCRIPT标签的个数、JS中含有其它搜索引擎的个数、JS中含有其它域名的个数；

步骤S3具体包括如下内容，

S32、将第一训练数据集中的各个数据在所述第一DOM树上进行遍历，得到所有数据的文字内容，对文字内容进行文本处理之后，获取第一保留数据；利用TF-IDF选取所述第一保留数据中的特征，并采用Logis tics Regression进行分类训练，获取第二模型；用Word2Vector对所述第一保留数据进行向量化，用Text-CNN进行分类训练，获取第三模型；

将被判定为疑似有害页面的未知页面直接判定为有害页面，或者，采用人工筛查的方式对被判定为疑似有害网页的未知页面进行筛查，以将疑似有害网页筛查为有害网页或者是正常网页；将有害网页中的有害信息提取出来填充到有害信息拼音库中。

2.根据权利要求1所述的用于公众有害信息的识别方法，其特征在于：按照HTMLDTD4.0规范分解第一训练数据集和第二训练集，分别获取第一DOM树和第二DOM树。

3.根据权利要求1所述的用于公众有害信息的识别方法，其特征在于：所述文本处理具体包括对文字内容进行分词和剔除停用词。

4.根据权利要求3所述的用于公众有害信息的识别方法，其特征在于：所述设定预测值为0.7。