CN110750981A

CN110750981A - 一种基于机器学习的高准确度网站敏感词检测方法

Info

Publication number: CN110750981A
Application number: CN201910984628.2A
Authority: CN
Inventors: 江辉云; 范渊
Original assignee: Hangzhou Dbappsecurity Technology Co Ltd
Current assignee: DBAPPSecurity Co Ltd; Hangzhou Dbappsecurity Technology Co Ltd
Priority date: 2019-10-16
Filing date: 2019-10-16
Publication date: 2020-02-04

Abstract

本发明涉及一种基于机器学习的高准确度网站敏感词检测方法，将待检测文件首先与敏感词数据库进行规则匹配，得到包含敏感词的文档集合，对训练数据进行处理、学习以输出机器学习模型，随后将文档集合输入模型，得到网站敏感词检测结果。本发明结合机器学习算法进行模型训练，而后对爬取的网站页面首先进行敏感词规则匹配，然后再次对规则匹配后的输出网站进行机器学习自动分析，减少机器学习模型预测的数据量，提高检测速度和准确性，最终通过统计推算得出页面包含敏感词的可能性；由于通过机器学习并进行语义分析，并通过与分词含义的组合判断，本发明能有效提高敏感性词汇识别率，并能确保监测准确率，能极大减少监理机构的人力成本。

Description

一种基于机器学习的高准确度网站敏感词检测方法

技术领域

本发明涉及特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法的技术领域，特别涉及一种基于机器学习的高准确度网站敏感词检测方法。

背景技术

对于一个国家甚至世界来说，健康的网络环境十分重要的，这关乎到这个社会的健康发展。然而，随着网络的快速发展，网络上泛滥大量的敏感性词汇，如涉及色情、政治、民生、涉赌、涉毒等类别的词汇，这对于健康的网络环境来说是非常严峻的挑战，故而越来越多的机构开始采用专门的软件来进行敏感性词汇的监测。

现有技术中，很多传统的监测软件都是基于规则匹配的，大都基于预先设置好的敏感词库，然后对网站进行爬虫，最后对网站进行词汇匹配；这种监测方式存在的缺点是只进行了简单的词汇匹配，大大增加敏感词汇检测的误报率，而大量的误报出现，给网站监理机构带来极大的人工成本。

举例来说，敏感词库里有色情类词汇“激情”，在监测某网站时，发现的某个页面上存在该词汇，例如某运动会官网上有存在宣传语句，“展示运动健儿们的激情澎湃的时刻到来了”，则该网站会被定义为包含了敏感性词汇的网站，导致错误判定。诸如此类没有进行语义分析的敏感词监测，给软件的使用者进行误报反馈带来的极大的工作量，效率也极为低下，甚至有开发者为了防止被误判而放弃了博大精深的文字文化，而选用一些明显表现力不够的替代性词汇，无形中降低了网站的呈现效果。

发明内容

本发明解决了现有技术中，监测软件主要基于规则匹配，增加敏感词汇检测的误报率，而大量的误报出现，给网站监理机构带来极大的人工成本的问题，提供了一种优化的基于机器学习的高准确度网站敏感词检测方法。

本发明所采用的技术方案是，一种基于机器学习的高准确度网站敏感词检测方法，所述方法包括以下步骤：

步骤1：基于网站，下载待检测文件；新建敏感词数据库；

步骤2：将待检测文件与敏感词数据库进行规则匹配，得到包含敏感词的文档集合；

步骤3：获取训练数据，对训练数据进行处理，学习，获得符合训练要求的数据，输出机器学习模型；

步骤4：将步骤2的文档集合输入模型，得到网站敏感词检测结果。

优选地，所述步骤1中，从互联网上爬取监测网站中的所有网站页面文件作为待检测文件。

优选地，所述步骤3包括以下步骤：

步骤3.1：对现有判定为具有敏感词的网站数据进行收集，并导入大数据处理平台；

步骤3.2：在大数据处理平台中，对网页数据进行文字化处理；

步骤3.3：对文字化的网页内容进行分词处理；

步骤3.4：基于分词处理的结果，计算具有关联的词之间的词向量关系；

步骤3.5：输出机器学习模型。

优选地，所述步骤3.4中，以哈弗曼树构建表达具有关联的词之间的词向量关系的机器学习模型。

优选地，所述步骤4包括以下步骤：

步骤4.1：将步骤2的文档集合进行分词处理；

步骤4.2：将分词处理的结果输入至模型中；

步骤4.3：通过模型建立的词向量关系计算当前网站的敏感词分值；

步骤4.4：基于分值对当前网站进行打分，输出检测结果。

优选地，所述步骤4.3中，采用ElasticSearch内词条的统计分数算法计算当前网站的敏感词分值。

优选地，基于所述敏感词分值，将页面包含的所有词条的分数求和后，除以敏感词的个数，得到当前网页的平均得分。

优选地，以T时间为间隔，重新建立敏感词数据库，获取新的待检测文件并重复步骤2。

本发明提供了一种优化的基于机器学习的高准确度网站敏感词检测方法，将待检测文件首先与敏感词数据库进行规则匹配，得到包含敏感词的文档集合，对训练数据进行处理、学习以输出机器学习模型，随后将文档集合输入模型，得到网站敏感词检测结果。

本发明结合机器学习算法进行模型训练，而后对爬取的网站页面首先进行敏感词规则匹配，然后再次对规则匹配后的输出网站进行机器学习自动分析，减少机器学习模型预测的数据量，提高检测速度和准确性，最终通过统计推算得出页面包含敏感词的可能性；由于通过机器学习并进行语义分析，并通过与分词含义的组合判断，本发明能有效提高敏感性词汇识别率，并能确保监测准确率，能极大减少监理机构的人力成本。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合实施例对本发明做进一步的详细描述，但本发明的保护范围并不限于此。

本发明涉及一种基于机器学习的高准确度网站敏感词检测方法，所述方法包括以下步骤。

步骤1：基于网站，下载待检测文件；新建敏感词数据库。

所述步骤1中，从互联网上爬取监测网站中的所有网站页面文件作为待检测文件。

本发明中，敏感词数据库是指预先在系统里新建的敏感词库，涉及色情、政治、民生、涉赌、涉毒等类别，是需要被局部屏蔽或进行网页监测及报警的词汇。

步骤2：将待检测文件与敏感词数据库进行规则匹配，得到包含敏感词的文档集合。

本发明中，根据互联网爬取下来的网页和敏感词库里的词汇进行直接匹配，通过规则匹配可以匹配出包含敏感词的网页，直接将不包含敏感词的网站过滤掉，可以为下一阶段的语义分析减少分析的数据量，增加准确度。

步骤3：获取训练数据，对训练数据进行处理，学习，获得符合训练要求的数据，输出机器学习模型。

所述步骤3包括以下步骤：

步骤3.3：对文字化的网页内容进行分词处理；

所述步骤3.4中，以哈弗曼树构建表达具有关联的词之间的词向量关系的机器学习模型。

步骤3.5：输出机器学习模型。

本发明中，训练数据通过大数据平台导入，主要用于模型训练。

本发明中，对网页数据的文字化处理主要为通过正则匹配提取得到网页中的文字内容，剔除其中的html元素、页面包含的URL、图片资源等。

本发明中，针对文字化的网页内容，以ElasticSearch的分词功能进行分词处理。

本发明中，词向量（Word embedding）是Word嵌入式自然语言处理（NLP）中的一组语言建模和特征学习技术的统称，其是来自词汇表的单词或短语被映射到实数的向量，涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。

本发明中，采用哈弗曼树对表达词向量关系的机器学习模型进行构建。具体来说，假设有n个权值，则构造出的哈弗曼树有n个叶子结点，权值分别设为 w₁、w₂、…、w_n；将w₁、w₂、…、w_n看成是有n 棵树的森林，每棵树仅有一个结点，在森林中选出两个根结点的权值最小的树合并，作为一棵新树的左、右子树，且新树的根结点权值为其左、右子树根结点权值之和，从森林中删除选取的两棵树，并将新树加入森林，重复，直到森林中只剩一棵树为止，该树即为所求得的哈弗曼树。

所述步骤4包括以下步骤：

步骤4.1：将步骤2的文档集合进行分词处理；

步骤4.2：将分词处理的结果输入至模型中；

所述步骤4.3中，采用ElasticSearch内词条的统计分数算法计算当前网站的敏感词分值。

步骤4.4：基于分值对当前网站进行打分，输出检测结果。

基于所述敏感词分值，将页面包含的所有词条的分数求和后，除以敏感词的个数，得到当前网页的平均得分。

本发明中，根据机器学习模型对规则匹配过滤出的网页进行预测，并输出预测出的包含敏感性词汇的结果。

本发明中，得到当前网页的平均得分后，可以依据具体的阈值，将网页划分为低、中、高级并进行标识。

以T时间为间隔，重新建立敏感词数据库，获取新的待检测文件并重复步骤2。

本发明中，基于敏感词数据时常会出现更新，故需要固定时间对敏感词数据库进行更新并重新进行新的待检测文件的网页监测。

本发明中，一般情况下，T为每24小时，即每天对敏感词数据库进行更新。

本发明将待检测文件首先与敏感词数据库进行规则匹配，得到包含敏感词的文档集合，对训练数据进行处理、学习以输出机器学习模型，随后将文档集合输入模型，得到网站敏感词检测结果。

Claims

1.一种基于机器学习的高准确度网站敏感词检测方法，其特征在于：所述方法包括以下步骤：

步骤1：基于网站，下载待检测文件；新建敏感词数据库；

2.根据权利要求1所述的一种基于机器学习的高准确度网站敏感词检测方法，其特征在于：所述步骤1中，从互联网上爬取监测网站中的所有网站页面文件作为待检测文件。

3.根据权利要求1所述的一种基于机器学习的高准确度网站敏感词检测方法，其特征在于：所述步骤3包括以下步骤：

步骤3.3：对文字化的网页内容进行分词处理；

步骤3.5：输出机器学习模型。

4.根据权利要求3所述的一种基于机器学习的高准确度网站敏感词检测方法，其特征在于：所述步骤3.4中，以哈弗曼树构建表达具有关联的词之间的词向量关系的机器学习模型。

5.根据权利要求1所述的一种基于机器学习的高准确度网站敏感词检测方法，其特征在于：所述步骤4包括以下步骤：

步骤4.1：将步骤2的文档集合进行分词处理；

步骤4.2：将分词处理的结果输入至模型中；

步骤4.4：基于分值对当前网站进行打分，输出检测结果。

6.根据权利要求5所述的一种基于机器学习的高准确度网站敏感词检测方法，其特征在于：所述步骤4.3中，采用ElasticSearch内词条的统计分数算法计算当前网站的敏感词分值。

7.根据权利要求6所述的一种基于机器学习的高准确度网站敏感词检测方法，其特征在于：基于所述敏感词分值，将页面包含的所有词条的分数求和后，除以敏感词的个数，得到当前网页的平均得分。

8.根据权利要求1所述的一种基于机器学习的高准确度网站敏感词检测方法，其特征在于：以T时间为间隔，重新建立敏感词数据库，获取新的待检测文件并重复步骤2。