CN111259237B - 一种用于公众有害信息的识别方法 - Google Patents

一种用于公众有害信息的识别方法 Download PDF

Info

Publication number
CN111259237B
CN111259237B CN202010031962.9A CN202010031962A CN111259237B CN 111259237 B CN111259237 B CN 111259237B CN 202010031962 A CN202010031962 A CN 202010031962A CN 111259237 B CN111259237 B CN 111259237B
Authority
CN
China
Prior art keywords
text
page
result
harmful
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010031962.9A
Other languages
English (en)
Other versions
CN111259237A (zh
Inventor
王礼鑫
郭西念
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinaso Information Technology Co ltd
Original Assignee
Chinaso Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinaso Information Technology Co ltd filed Critical Chinaso Information Technology Co ltd
Priority to CN202010031962.9A priority Critical patent/CN111259237B/zh
Publication of CN111259237A publication Critical patent/CN111259237A/zh
Application granted granted Critical
Publication of CN111259237B publication Critical patent/CN111259237B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种用于公众有害信息的识别方法,所述识别方法包括如下步骤,S1、利用已知的各种类型的有害页面和正常页面组成第一训练数据集;S2、分解所述第一训练数据集中的各个数据,构建第一DOM树;S3、使用第一训练数据集中的各个数据在所述第一DOM树上循环遍历,根据第一训练数据集中数据的特征获取第一模型,根据第一训练数据集中数据的文字内容获取第二模型,根据第一训练数据集中数据的文字内容的特征获取第三模型;S4、利用未知网页组成第二训练数据集;等步骤。优点是:识别方法综合运用机器学习以及深度学习技术对未知页面中的文字进行判别,对信息进行多重识别,提高了识别准确率;此外,对于疑似有害页面可以做出预警,方便人工审查。

Description

一种用于公众有害信息的识别方法
技术领域
本发明涉及互联网有害信息识别领域,尤其涉及一种用于公众有害信息的识别方法。
背景技术
随着互联网技术的发展,越来越多的用户可以通过PC、手机、PAD等终端接入互联网。由于普通互联网用户不具备专业的技术知识,所以很容易受到有害信息的侵蚀,比如正常网页跳转到欺诈页面、网页中隐藏赌博链接、非法广告信息等。此外,极少部分别有用心的作者还会通过互联网散播色情、涉政、敏感等非法信息,从中牟利。因此,如何识别以上有害信息,净化网络成为目前的重点。
目前互联网中针对有害信息的识别比较常用的手段有:1.添加关键词,通过关键词匹配的形式来进行识别和过滤。2.利用常用的机器学习方法训练色情、宗教、血腥等有害信息模型,然后进行预测。以上两种方法能解决部分问题,但无法覆盖复杂多样的互联网数据。比如,关键词匹配无法适应文字适度变换的情况,针对某个关键词,想要扩大识别范围只能穷举所有的变换,效率低下;训练色情、宗教等分类模型只考虑到HTML中的文字,对于HTML中含有恶意跳转代码或者隐藏信息无能为力。
发明内容
本发明的目的在于提供一种用于公众有害信息的识别方法,从而解决现有技术中存在的前述问题。
为了实现上述目的,本发明采用的技术方案如下:
一种用于公众有害信息的识别方法,所述识别方法包括如下步骤,
S1、利用已知的各种类型的有害页面和正常页面组成第一训练数据集;
S2、分解所述第一训练数据集中的各个数据,构建第一DOM树;
S3、使用第一训练数据集中的各个数据在所述第一DOM树上循环遍历,根据第一训练数据集中数据的特征获取第一模型,根据第一训练数据集中数据的文字内容获取第二模型,根据第一训练数据集中数据的文字内容的特征获取第三模型;
S4、利用未知网页组成第二训练数据集;
S5、分解所述第一训练数据集中的各个数据,构建第二DOM树;
S6、使用第二训练数据集中的各个数据在所述第二DOM树上循环遍历,将第二训练数据集中数据的特征作为所述第一模型的输入,获取第一结果;将第二训练数据集中数据的文字内容作为第二模型的输入,获取第二结果;将第二训练数据集中数据的文字内容的特征作为第三模型的输入,获取第三结果;通过判定第一结果、第二结果和第三结果,进而获取未知页面是否是有害页面。
优选的,按照HTML DTD4.0规范分解第一训练数据集和第二训练集,分别获取第一DOM树和第二DOM树。
优选的,步骤S3具体包括如下内容,
S31、将所述第一训练数据集中的各个数据在所述第一DOM树上进行循环遍历,抽取并计算第一训练数据集中各个数据的设定数量的特征,组成维数为设定数量的特征向量,利用机器学习算法对所述特征向量进行训练,获取第一模型;
S32、将第一训练数据集中的各个数据在所述第一DOM树上进行遍历,得到所有数据的文字内容,对文字内容进行文本处理之后,获取第一保留数据;利用TF-IDF选取所述第一保留数据中的特征,并采用Logistics Regression进行分类训练,获取第二模型;用Word2Vector对所述第一保留数据进行向量化,用Text-CNN进行分类训练,获取第三模型。
优选的,步骤S6具体包括两种判定方式,分别为,
A、将第二训练数据集中的各个数据在所述第二DOM树上进行循环遍历,抽取并计算第二训练数据集中各个数据的设定数量的特征,组成维数为设定数量的第二特征向量,将所述第二向量作为所述第一模型的输入,获取第一结果,判断第一结果是否为存在有害特征,若是,则判定未知网页为有害网页,若否,则判定未知网页为正常网页;
B、将第二训练数据集中的各个数据在所述第二DOM树上进行循环遍历,得到所有数据的文字内容,记为第一文本信息;对所述第一文本信息进行拼音转汉字操作之后,去掉其中的符号,记为第二文本信息;将所述第一文本信息和所述第二文本信息合并为目标文本信息;
加载有害信息拼音库,建立对应的Double-Array Trie树,对所述第二文本信息进行汉字转拼音操作,利用Double-Array Trie树进行多模匹配,若匹配成功,则判定未知页面为疑似有害网页;否则,执行后续操作;
将所述目标文本信息经过文本处理之后,获取第二保留数据,采用第二模型的特征词表对第二保留数据进行向量化,并将向量化的结果作为第二模型的输入获取第二结果,判断第二结果是否大于或等于设定预测值;若是,则第二结果=True,若否,则第二结果=False;
将所述第二保留数据用Word2Vector进行向量化,作为第三模型的输入,得到第三结果=True,或者第三结果=False;
综合所述第二结果和所述第三结果,若所述第二结果和所述第三结果均为True,则判定将未知页面判定为有害网页;若所述第二结果和所述第三结果均为False,则判定未知页面为正常网页;若所述第二结果和所述第三结果中其中一个为True,另一个为False,则将未知网页判定为疑似有害网页。
优选的,所述设定数量为58,则设定数量的特征分别为,标题长度、标题中重复字数、标题中重复字数占比、标题中特殊字符占比、标题中英文字符占比、标题中是否含有URL、标题中是否含有问句、标题中中文+英文单词的数目、标题中含不良词的数目、正文最长文本长度、正文中含有标题的次数、正文含有标题的次数与正文句子数比例、正文中重复节点次数、正文中重复节点占比、正文中特殊字符占比、正文中链接数、正文中中文+英文单词的数目、正文中含有下一页/上一页数目、正文中图片标签的个数、正文中含有的新闻类的词长度和正文长度比值、正文中含有医院相关词长度及和正文长度比值、正文中含有数字串的总长度和正文长度比值、正文中含有的外链数和所有链接数比值、正文长度和HTML长度比值、正文中含不良词的数目、本页面是否是HOME页、本页面是否是BBS页、本页面是否是BLOG页、页面中TAG数、页面中JS数、页面中P标签的数目、页面中DIV标签的数目、页面中EMBED标签的数目、页面中BR标签的数目、页面中STYLE标签的数目、页面中TD标签的数目、页面中TABLE标签的数目、页面中P标签下是BR标签结构的数目、页面中含有超过1个TITLE标签的个数、最长文本中含有ANCHOR的数目、最长文本中含有图片信息的数目、最长文本和链接长度比值、最长文本和外链长度比值、最长文本中含有疑问词的个数、ANCHOR和所有文字长度比值、ANCHOR中含有英文的比例、ANCHOR中含有URL的比例、ANCHOR中含有游戏词的个数、ANCHOR中含有游戏词的比例、ANCHOR中含有商业词汇的个数、ANCHOR中含有商业词汇的比例、ANCHOR中含有视频词汇的个数、ANCHOR中含有视频词汇的比例、ANCHOR中含有疑似电话的个数、ANCHOR中含有疑似电话的比例、JS中含有嵌套SCRIPT标签的个数、JS中含有其它搜索引擎的个数、JS中含有其它域名的个数。
优选的,所述文本处理具体包括对文字内容进行分词和剔除停用词。
优选的,所述设定预测值为0.7。
优选的,将被判定为疑似有害页面的未知页面直接判定为有害页面,或者,采用人工筛查的方式对被判定为疑似有害网页的未知页面进行筛查,以将疑似有害网页筛查为有害网页或者是正常网页;将有害网页中的有害信息提取出来填充到有害信息拼音库中。
本发明的有益效果是:1、本发明通过对原始的HTML进行拆解,充分挖掘HTML中包含的链接、文字以及页面结构信息,利用抽取到的58维的特征对页面进行分析,使用机器学习的方法进行检测,能够覆盖多种类型的有害网页。2、本发明对信息中的汉字和拼音进行转化,对标点符号进行变换后再做识别,能够应对不同形式的恶意信息。3、本发明综合运用机器学习以及深度学习技术对未知页面中的文字进行判别,对信息进行多重识别,提高了识别准确率;此外,对于疑似有害页面可以做出预警,方便人工审查。
附图说明
图1是本发明实施例中DOM树的示意图;
图2是本发明实施例中识别方法的原理图;
图3是本发明实施例中有害网页判定的原理图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。
如图所示,本实施例中提供了一种用于公众有害信息的识别方法,所述识别方法包括如下步骤,
S1、利用已知的各种类型的有害页面和正常页面组成第一训练数据集;
S2、分解所述第一训练数据集中的各个数据,构建第一DOM树;
S3、使用第一训练数据集中的各个数据在所述第一DOM树上循环遍历,根据第一训练数据集中数据的特征获取第一模型,根据第一训练数据集中数据的文字内容获取第二模型,根据第一训练数据集中数据的文字内容的特征获取第三模型;
S4、利用未知网页组成第二训练数据集;
S5、分解所述第一训练数据集中的各个数据,构建第二DOM树;
S6、使用第二训练数据集中的各个数据在所述第二DOM树上循环遍历,将第二训练数据集中数据的特征作为所述第一模型的输入,获取第一结果;将第二训练数据集中数据的文字内容作为第二模型的输入,获取第二结果;将第二训练数据集中数据的文字内容的特征作为第三模型的输入,获取第三结果;通过判定第一结果、第二结果和第三结果,进而获取未知页面是否是有害页面。
将第一训练数据集记为T={<X1,y1>,<X2,y2>,...,<XN,yN>},其中Xi为数据集中第i个样本,i=1,2,3,…,N,N为训练集的总数(下同),yi为网页是否是有害网页,如果yi=1则为有害网页,如果yi=0则为正常网页。
按照HTML DTD4.0规范分解第一训练数据集获取第一DOM树。
步骤S3具体包括如下内容,
S31、将所述第一训练数据集中的各个数据在所述第一DOM树上进行循环遍历,抽取并计算第一训练数据集中各个数据的设定数量的特征,组成维数为设定数量的第一特征向量,利用机器学习算法(GBDT)对所述第一特征向量进行训练,获取第一模型;
S32、将第一训练数据集中的各个数据在所述第一DOM树上进行遍历,得到所有数据的文字内容,对文字内容进行文本处理之后,获取第一保留数据;利用TF-IDF选取所述第一保留数据中的特征,并采用Logistics Regression进行分类训练,获取第二模型;用Word2Vector对所述第一保留数据进行向量化,用Text-CNN进行分类训练,获取第三模型。
第一训练数据集中,所述设定数量为58,则设定数量的特征分别为,标题长度、标题中重复字数、标题中重复字数占比、标题中特殊字符占比、标题中英文字符占比、标题中是否含有URL、标题中是否含有问句、标题中中文+英文单词的数目、标题中含不良词的数目、正文最长文本长度、正文中含有标题的次数、正文含有标题的次数与正文句子数比例、正文中重复节点次数、正文中重复节点占比、正文中特殊字符占比、正文中链接数、正文中中文+英文单词的数目、正文中含有下一页/上一页数目、正文中图片标签的个数、正文中含有的新闻类的词长度和正文长度比值、正文中含有医院相关词长度及和正文长度比值、正文中含有数字串的总长度和正文长度比值、正文中含有的外链数和所有链接数比值、正文长度和HTML长度比值、正文中含不良词的数目、本页面是否是HOME页、本页面是否是BBS页、本页面是否是BLOG页、页面中TAG数、页面中JS数、页面中P标签的数目、页面中DIV标签的数目、页面中EMBED标签的数目、页面中BR标签的数目、页面中STYLE标签的数目、页面中TD标签的数目、页面中TABLE标签的数目、页面中P标签下是BR标签结构的数目、页面中含有超过1个TITLE标签的个数、最长文本中含有ANCHOR的数目、最长文本中含有图片信息的数目、最长文本和链接长度比值、最长文本和外链长度比值、最长文本中含有疑问词的个数、ANCHOR和所有文字长度比值、ANCHOR中含有英文的比例、ANCHOR中含有URL的比例、ANCHOR中含有游戏词的个数、ANCHOR中含有游戏词的比例、ANCHOR中含有商业词汇的个数、ANCHOR中含有商业词汇的比例、ANCHOR中含有视频词汇的个数、ANCHOR中含有视频词汇的比例、ANCHOR中含有疑似电话的个数、ANCHOR中含有疑似电话的比例、JS中含有嵌套SCRIPT标签的个数、JS中含有其它搜索引擎的个数、JS中含有其它域名的个数。
因此,获取的所述第一特征向量也为58维的特征向量,记为
Figure BDA0002364638790000061
i=1,2,3,…,N,N为训练集的总数,机器学习算法(GBDT)对所述第一特征向量进行训练得到第一模型M1
所述文本处理具体包括对文字内容进行分词和剔除停用词;将第一训练数据集中的各个数据在所述第一DOM树上进行遍历,得到所有数据的文字内容,将文字内容进行文本处理之后,记为第一保留数据,将第一保留数据利用TF-IDF选取特征,用LogisticsRegression进行分类训练,形成第二模型M2
用Word2Vector对所述第一保留数据进行向量化,接着用Text-CNN进行分类训练,形成第三模型M3。其第三模型中词向量维度为64维,卷积核数目为128,卷积核尺寸为5,dropout保留比例为0.5。
本实施例中,对于未知页面的判定包括两种判定方式,分别为,
A(GBDT模型判定)、将第二训练数据集中的各个数据在所述第二DOM树上进行循环遍历,抽取并计算第二训练数据集中各个数据的设定数量的特征,组成维数为设定数量的第二特征向量,将所述第二向量作为所述第一模型的输入,获取第一结果,判断第一结果是否为存在有害特征,若是,则判定未知网页为有害网页,若否,则判定未知网页为正常网页。其中,具体的判定方式为,GBDT模型输出小于0则为有害网页,大于0为正常网页。
B(基于文字的判定)、将第二训练数据集中的各个数据在所述第二DOM树上进行循环遍历,得到所有数据的文字内容,记为第一文本信息;对所述第一文本信息进行拼音转汉字操作之后,去掉其中的符号,记为第二文本信息;将所述第一文本信息和所述第二文本信息合并为目标文本信息;
加载有害信息拼音库,建立对应的Double-Array Trie树,对所述第二文本信息进行汉字转拼音操作,利用Double-Array Trie树进行多模匹配,若匹配成功,则判定未知页面为疑似有害网页;否则,执行后续操作;(此过程判断出来的结果准确率不高,所以称为疑似有害页面。疑似有害页面大概率是有害页面,可以经过人工筛选一下,也可以不筛选直接判断为有害页面)
将所述目标文本信息经过文本处理之后,获取第二保留数据,采用第二模型的特征词表对第二保留数据进行向量化,并将向量化的结果作为第二模型的输入获取第二结果,判断第二结果是否大于或等于设定预测值;若是,则第二结果=True,若否,则第二结果=False;
将所述第二保留数据用Word2Vector进行向量化,作为第三模型的输入,得到第三结果=True,或者第三结果=False;
综合所述第二结果和所述第三结果,若所述第二结果和所述第三结果均为True,则判定将未知页面判定为有害网页;若所述第二结果和所述第三结果均为False,则判定未知页面为正常网页;若所述第二结果和所述第三结果中其中一个为True,另一个为False,则将未知网页判定为疑似有害网页。
同样的,采用HTML DTD4.0规范分解第二训练数据集获取第二DOM树。
方式A中,将第二训练数据集中的各个数据在所述第二DOM树上进行循环遍历,抽取并计算第二训练数据集中各个数据的设定数量的特征,组成维数为设定数量的第二特征向量。
第二训练数据集中,所述设定数量为58,则设定数量的特征分别为,标题长度、标题中重复字数、标题中重复字数占比、标题中特殊字符占比、标题中英文字符占比、标题中是否含有URL、标题中是否含有问句、标题中中文+英文单词的数目、标题中含不良词的数目、正文最长文本长度、正文中含有标题的次数、正文含有标题的次数与正文句子数比例、正文中重复节点次数、正文中重复节点占比、正文中特殊字符占比、正文中链接数、正文中中文+英文单词的数目、正文中含有下一页/上一页数目、正文中图片标签的个数、正文中含有的新闻类的词长度和正文长度比值、正文中含有医院相关词长度及和正文长度比值、正文中含有数字串的总长度和正文长度比值、正文中含有的外链数和所有链接数比值、正文长度和HTML长度比值、正文中含不良词的数目、本页面是否是HOME页、本页面是否是BBS页、本页面是否是BLOG页、页面中TAG数、页面中JS数、页面中P标签的数目、页面中DIV标签的数目、页面中EMBED标签的数目、页面中BR标签的数目、页面中STYLE标签的数目、页面中TD标签的数目、页面中TABLE标签的数目、页面中P标签下是BR标签结构的数目、页面中含有超过1个TITLE标签的个数、最长文本中含有ANCHOR的数目、最长文本中含有图片信息的数目、最长文本和链接长度比值、最长文本和外链长度比值、最长文本中含有疑问词的个数、ANCHOR和所有文字长度比值、ANCHOR中含有英文的比例、ANCHOR中含有URL的比例、ANCHOR中含有游戏词的个数、ANCHOR中含有游戏词的比例、ANCHOR中含有商业词汇的个数、ANCHOR中含有商业词汇的比例、ANCHOR中含有视频词汇的个数、ANCHOR中含有视频词汇的比例、ANCHOR中含有疑似电话的个数、ANCHOR中含有疑似电话的比例、JS中含有嵌套SCRIPT标签的个数、JS中含有其它搜索引擎的个数、JS中含有其它域名的个数。
获取的第二特征向量也为58维的特征向量,记为w=[w1,w2,...,w58],并将该第二特征向量输入到第一模型中,得到第一结果进行判别,以确定未知网页是否是有害网页。具体的判定方式为,第一结果小于0则为有害网页,第一结果大于0为正常网页。
方式B中,将第二训练数据集中的各个数据在所述第二DOM树上进行循环遍历,得到所有数据的文字内容,记为第一文本信息S1,对S1进行拼音转汉字,去掉“-”“、”“/””等符号之后形成的文本信息记做S2,将S1和S2合并,记为目标文本信息。
将所述目标文本信息经过文本处理之后,记为第二保留数据,并采用第二模型中的特征词表对第二保留数据进行向量化,将向量化结果作为第二模型的输入,获取第二结果,判断第二结果与设定预测值之间的大小关系,若第二结果大于或等于设定预测值,则第二结果=True;若第二结果小于设定预测值,则第二结果=False。所述设定预测值为0.7,可以根据具体情况进行设置,以便更好的满足实际需求。
之后,综合所述第二结果和所述第三结果,若所述第二结果和所述第三结果均为True,则判定将未知页面判定为有害网页;若所述第二结果和所述第三结果均为False,则判定未知页面为正常网页;若所述第二结果和所述第三结果中其中一个为True,另一个为False,则将未知网页判定为疑似有害网页;至此,判断过程结束。
本实施例中,针对被判定为疑似有害网页的未知网页,可以采用人工筛查的方式进一步判定其为有害网页或者是正常网页;由于疑似有害网页大概率为有害网页,因此也可以直接将其归为有害网页。最后,可将有害网页中的有害部分提取出来扩充有害信息拼音库。人工筛查的有害信息也可以作为训练语料定期更新第二模型和第三模型。
通过采用本发明公开的上述技术方案,得到了如下有益的效果:
本发明提供了一种用于公众有害信息的识别方法,本发明通过对原始的HTML进行拆解,充分挖掘HTML中包含的链接、文字以及页面结构信息,利用抽取到的58维的特征对页面进行分析,使用机器学习的方法进行检测,能够覆盖多种类型的有害网页;本识别方法对信息中的汉字和拼音进行转化,对标点符号进行变换后再做识别,能够应对不同形式的恶意信息;本识别方法综合运用机器学习以及深度学习技术对未知页面中的文字进行判别,对信息进行多重识别,提高了识别准确率;此外,对于疑似有害页面可以做出预警,方便人工审查。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

Claims (4)

1.一种用于公众有害信息的识别方法,其特征在于:所述识别方法包括如下步骤,
S1、利用已知的各种类型的有害页面和正常页面组成第一训练数据集;
S2、分解所述第一训练数据集中的各个数据,构建第一DOM树;
S3、使用第一训练数据集中的各个数据在所述第一DOM树上循环遍历,根据第一训练数据集中数据的特征获取第一模型,根据第一训练数据集中数据的文字内容获取第二模型,根据第一训练数据集中数据的文字内容的特征获取第三模型;
S4、利用未知网页组成第二训练数据集;
S5、分解所述第二训练数据集中的各个数据,构建第二DOM树;
S6、使用第二训练数据集中的各个数据在所述第二DOM树上循环遍历,将第二训练数据集中数据的特征作为所述第一模型的输入,获取第一结果;将第二训练数据集中数据的文字内容作为第二模型的输入,获取第二结果;将第二训练数据集中数据的文字内容的特征作为第三模型的输入,获取第三结果;通过判定第一结果、第二结果和第三结果,进而获取未知页面是否是有害页面;
步骤S6具体包括两种判定方式,分别为,
A、将第二训练数据集中的各个数据在所述第二DOM树上进行循环遍历,抽取并计算第二训练数据集中各个数据的设定数量的特征,组成维数为设定数量的第二特征向量,将所述第二特征 向量作为所述第一模型的输入,获取第一结果,判断第一结果是否为存在有害特征,若是,则判定未知网页为有害网页,若否,则判定未知网页为正常网页;
B、将第二训练数据集中的各个数据在所述第二DOM树上进行循环遍历,得到所有数据的文字内容,记为第一文本信息;对所述第一文本信息进行拼音转汉字操作之后,去掉其中的符号,记为第二文本信息;将所述第一文本信息和所述第二文本信息合并为目标文本信息;
加载有害信息拼音库,建立对应的Double-Array Trie树,对所述第二文本信息进行汉字转拼音操作,利用Double-Array Trie树进行多模匹配,若匹配成功,则判定未知页面为疑似有害网页;否则,执行后续操作;
将所述目标文本信息经过文本处理之后,获取第二保留数据,采用第二模型的特征词表对第二保留数据进行向量化,并将向量化的结果作为第二模型的输入获取第二结果,判断第二结果是否大于或等于设定预测值;若是,则第二结果=True,若否,则第二结果=False;
将所述第二保留数据用Word2Vector进行向量化,作为第三模型的输入,得到第三结果=True,或者第三结果=False;
综合所述第二结果和所述第三结果,若所述第二结果和所述第三结果均为True,则判定将未知页面判定为有害网页;若所述第二结果和所述第三结果均为False,则判定未知页面为正常网页;若所述第二结果和所述第三结果中其中一个为True,另一个为False,则将未知网页判定为疑似有害网页;
所述设定数量为58,则设定数量的特征分别为,标题长度、标题中重复字数、标题中重复字数占比、标题中特殊字符占比、标题中英文字符占比、标题中是否含有URL、标题中是否含有问句、标题中中文+英文单词的数目、标题中含不良词的数目、正文最长文本长度、正文中含有标题的次数、正文含有标题的次数与正文句子数比例、正文中重复节点次数、正文中重复节点占比、正文中特殊字符占比、正文中链接数、正文中中文+英文单词的数目、正文中含有下一页/上一页数目、正文中图片标签的个数、正文中含有的新闻类的词长度和正文长度比值、正文中含有医院相关词长度及和正文长度比值、正文中含有数字串的总长度和正文长度比值、正文中含有的外链数和所有链接数比值、正文长度和HTML长度比值、正文中含不良词的数目、本页面是否是HOME页、本页面是否是BBS页、本页面是否是BLOG页、页面中TAG数、页面中JS数、页面中P标签的数目、页面中DIV标签的数目、页面中EMBED标签的数目、页面中BR标签的数目、页面中STYLE标签的数目、页面中TD标签的数目、页面中TABLE标签的数目、页面中P标签下是BR标签结构的数目、页面中含有超过1个TITLE标签的个数、最长文本中含有ANCHOR的数目、最长文本中含有图片信息的数目、最长文本和链接长度比值、最长文本和外链长度比值、最长文本中含有疑问词的个数、ANCHOR和所有文字长度比值、ANCHOR中含有英文的比例、ANCHOR中含有URL的比例、ANCHOR中含有游戏词的个数、ANCHOR中含有游戏词的比例、ANCHOR中含有商业词汇的个数、ANCHOR中含有商业词汇的比例、ANCHOR中含有视频词汇的个数、ANCHOR中含有视频词汇的比例、ANCHOR中含有疑似电话的个数、ANCHOR中含有疑似电话的比例、JS中含有嵌套SCRIPT标签的个数、JS中含有其它搜索引擎的个数、JS中含有其它域名的个数;
步骤S3具体包括如下内容,
S31、将所述第一训练数据集中的各个数据在所述第一DOM树上进行循环遍历,抽取并计算第一训练数据集中各个数据的设定数量的特征,组成维数为设定数量的特征向量,利用机器学习算法对所述特征向量进行训练,获取第一模型;
S32、将第一训练数据集中的各个数据在所述第一DOM树上进行遍历,得到所有数据的文字内容,对文字内容进行文本处理之后,获取第一保留数据;利用TF-IDF选取所述第一保留数据中的特征,并采用Logis tics Regression进行分类训练,获取第二模型;用Word2Vector对所述第一保留数据进行向量化,用Text-CNN进行分类训练,获取第三模型;
将被判定为疑似有害页面的未知页面直接判定为有害页面,或者,采用人工筛查的方式对被判定为疑似有害网页的未知页面进行筛查,以将疑似有害网页筛查为有害网页或者是正常网页;将有害网页中的有害信息提取出来填充到有害信息拼音库中。
2.根据权利要求1所述的用于公众有害信息的识别方法,其特征在于:按照HTMLDTD4.0规范分解第一训练数据集和第二训练集,分别获取第一DOM树和第二DOM树。
3.根据权利要求1所述的用于公众有害信息的识别方法,其特征在于:所述文本处理具体包括对文字内容进行分词和剔除停用词。
4.根据权利要求3所述的用于公众有害信息的识别方法,其特征在于:所述设定预测值为0.7。
CN202010031962.9A 2020-01-13 2020-01-13 一种用于公众有害信息的识别方法 Active CN111259237B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010031962.9A CN111259237B (zh) 2020-01-13 2020-01-13 一种用于公众有害信息的识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010031962.9A CN111259237B (zh) 2020-01-13 2020-01-13 一种用于公众有害信息的识别方法

Publications (2)

Publication Number Publication Date
CN111259237A CN111259237A (zh) 2020-06-09
CN111259237B true CN111259237B (zh) 2021-02-09

Family

ID=70946867

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010031962.9A Active CN111259237B (zh) 2020-01-13 2020-01-13 一种用于公众有害信息的识别方法

Country Status (1)

Country Link
CN (1) CN111259237B (zh)

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7783642B1 (en) * 2005-10-31 2010-08-24 At&T Intellectual Property Ii, L.P. System and method of identifying web page semantic structures
CN100565523C (zh) * 2007-04-05 2009-12-02 中国科学院自动化研究所 一种基于多分类器融合的敏感网页过滤方法及系统
CN101035128B (zh) * 2007-04-18 2010-04-21 大连理工大学 基于中文标点符号的三重网页文本内容识别及过滤方法
CN101692639A (zh) * 2009-09-15 2010-04-07 西安交通大学 一种基于url的不良网页识别方法
CN101876968A (zh) * 2010-05-06 2010-11-03 复旦大学 对网络文本与手机短信进行不良内容识别的方法
CN102332028B (zh) * 2011-10-15 2013-08-28 西安交通大学 一种面向网页的不良Web内容识别方法
CN104361059B (zh) * 2014-11-03 2018-03-27 中国科学院自动化研究所 一种基于多示例学习的有害信息识别和网页分类方法
CN106445919A (zh) * 2016-09-28 2017-02-22 上海智臻智能网络科技股份有限公司 一种情感分类方法及装置
CN107577783A (zh) * 2017-09-15 2018-01-12 电子科技大学 基于Web结构特征挖掘的网页类型自动识别方法
CN110175288B (zh) * 2019-05-23 2020-05-19 中国搜索信息科技股份有限公司 一种面向青少年群体的文字和图像数据的过滤方法及系统

Also Published As

Publication number Publication date
CN111259237A (zh) 2020-06-09

Similar Documents

Publication Publication Date Title
CN108965245B (zh) 基于自适应异构多分类模型的钓鱼网站检测方法和系统
CN108959270B (zh) 一种基于深度学习的实体链接方法
CN111198995B (zh) 一种恶意网页识别方法
KR101312770B1 (ko) 정보 분류를 위한 방법, 컴퓨터 판독가능 매체, 및 시스템
JP4427500B2 (ja) 意味解析装置、意味解析方法および意味解析プログラム
US20190196811A1 (en) Api specification generation
US20070294252A1 (en) Identifying a web page as belonging to a blog
US9436768B2 (en) System and method for pushing and distributing promotion content
CN108038173B (zh) 一种网页分类方法、系统及一种网页分类设备
CN112541476B (zh) 一种基于语义特征提取的恶意网页识别方法
CN111310476A (zh) 一种使用基于方面的情感分析方法的舆情监控方法和系统
CN111314388B (zh) 用于检测sql注入的方法和装置
CN114491529A (zh) 基于多模态神经网络的安卓恶意应用程序识别方法
JP4293145B2 (ja) クチコミ情報判定方法及び装置及びプログラム
CN111291551B (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN116975340A (zh) 信息检索方法、装置、设备、程序产品及存储介质
CN111339457B (zh) 用于从网页抽取信息的方法和设备及存储介质
CN111259237B (zh) 一种用于公众有害信息的识别方法
CN114884686B (zh) 一种php威胁识别方法及装置
CN105677827B (zh) 一种表单的获取方法及装置
JP2007188427A (ja) 話題画像選出方法及び装置及プログラム
CN113806667A (zh) 一种支持网页分类的方法和系统
CN113836297A (zh) 文本情感分析模型的训练方法及装置
CN111950037A (zh) 检测方法、装置、电子设备及存储介质
CN110737750B (zh) 分析文本受众的数据处理方法、装置与电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant