CN110750981A - 一种基于机器学习的高准确度网站敏感词检测方法 - Google Patents

一种基于机器学习的高准确度网站敏感词检测方法 Download PDF

Info

Publication number
CN110750981A
CN110750981A CN201910984628.2A CN201910984628A CN110750981A CN 110750981 A CN110750981 A CN 110750981A CN 201910984628 A CN201910984628 A CN 201910984628A CN 110750981 A CN110750981 A CN 110750981A
Authority
CN
China
Prior art keywords
website
machine learning
sensitive
sensitive word
accuracy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910984628.2A
Other languages
English (en)
Inventor
江辉云
范渊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DBAPPSecurity Co Ltd
Hangzhou Dbappsecurity Technology Co Ltd
Original Assignee
Hangzhou Dbappsecurity Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dbappsecurity Technology Co Ltd filed Critical Hangzhou Dbappsecurity Technology Co Ltd
Priority to CN201910984628.2A priority Critical patent/CN110750981A/zh
Publication of CN110750981A publication Critical patent/CN110750981A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本发明涉及一种基于机器学习的高准确度网站敏感词检测方法,将待检测文件首先与敏感词数据库进行规则匹配,得到包含敏感词的文档集合,对训练数据进行处理、学习以输出机器学习模型,随后将文档集合输入模型,得到网站敏感词检测结果。本发明结合机器学习算法进行模型训练,而后对爬取的网站页面首先进行敏感词规则匹配,然后再次对规则匹配后的输出网站进行机器学习自动分析,减少机器学习模型预测的数据量,提高检测速度和准确性,最终通过统计推算得出页面包含敏感词的可能性;由于通过机器学习并进行语义分析,并通过与分词含义的组合判断,本发明能有效提高敏感性词汇识别率,并能确保监测准确率,能极大减少监理机构的人力成本。

Description

一种基于机器学习的高准确度网站敏感词检测方法
技术领域
本发明涉及特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法的技术领域,特别涉及一种基于机器学习的高准确度网站敏感词检测方法。
背景技术
对于一个国家甚至世界来说,健康的网络环境十分重要的,这关乎到这个社会的健康发展。然而,随着网络的快速发展,网络上泛滥大量的敏感性词汇,如涉及色情、政治、民生、涉赌、涉毒等类别的词汇,这对于健康的网络环境来说是非常严峻的挑战,故而越来越多的机构开始采用专门的软件来进行敏感性词汇的监测。
现有技术中,很多传统的监测软件都是基于规则匹配的,大都基于预先设置好的敏感词库,然后对网站进行爬虫,最后对网站进行词汇匹配;这种监测方式存在的缺点是只进行了简单的词汇匹配,大大增加敏感词汇检测的误报率,而大量的误报出现,给网站监理机构带来极大的人工成本。
举例来说,敏感词库里有色情类词汇“激情”,在监测某网站时,发现的某个页面上存在该词汇,例如某运动会官网上有存在宣传语句,“展示运动健儿们的激情澎湃的时刻到来了”,则该网站会被定义为包含了敏感性词汇的网站,导致错误判定。诸如此类没有进行语义分析的敏感词监测,给软件的使用者进行误报反馈带来的极大的工作量,效率也极为低下,甚至有开发者为了防止被误判而放弃了博大精深的文字文化,而选用一些明显表现力不够的替代性词汇,无形中降低了网站的呈现效果。
发明内容
本发明解决了现有技术中,监测软件主要基于规则匹配,增加敏感词汇检测的误报率,而大量的误报出现,给网站监理机构带来极大的人工成本的问题,提供了一种优化的基于机器学习的高准确度网站敏感词检测方法。
本发明所采用的技术方案是,一种基于机器学习的高准确度网站敏感词检测方法,所述方法包括以下步骤:
步骤1:基于网站,下载待检测文件;新建敏感词数据库;
步骤2:将待检测文件与敏感词数据库进行规则匹配,得到包含敏感词的文档集合;
步骤3:获取训练数据,对训练数据进行处理,学习,获得符合训练要求的数据,输出机器学习模型;
步骤4:将步骤2的文档集合输入模型,得到网站敏感词检测结果。
优选地,所述步骤1中,从互联网上爬取监测网站中的所有网站页面文件作为待检测文件。
优选地,所述步骤3包括以下步骤:
步骤3.1:对现有判定为具有敏感词的网站数据进行收集,并导入大数据处理平台;
步骤3.2:在大数据处理平台中,对网页数据进行文字化处理;
步骤3.3:对文字化的网页内容进行分词处理;
步骤3.4:基于分词处理的结果,计算具有关联的词之间的词向量关系;
步骤3.5:输出机器学习模型。
优选地,所述步骤3.4中,以哈弗曼树构建表达具有关联的词之间的词向量关系的机器学习模型。
优选地,所述步骤4包括以下步骤:
步骤4.1:将步骤2的文档集合进行分词处理;
步骤4.2:将分词处理的结果输入至模型中;
步骤4.3:通过模型建立的词向量关系计算当前网站的敏感词分值;
步骤4.4:基于分值对当前网站进行打分,输出检测结果。
优选地,所述步骤4.3中,采用ElasticSearch内词条的统计分数算法计算当前网站的敏感词分值。
优选地,基于所述敏感词分值,将页面包含的所有词条的分数求和后,除以敏感词的个数,得到当前网页的平均得分。
优选地,以T时间为间隔,重新建立敏感词数据库,获取新的待检测文件并重复步骤2。
本发明提供了一种优化的基于机器学习的高准确度网站敏感词检测方法,将待检测文件首先与敏感词数据库进行规则匹配,得到包含敏感词的文档集合,对训练数据进行处理、学习以输出机器学习模型,随后将文档集合输入模型,得到网站敏感词检测结果。
本发明结合机器学习算法进行模型训练,而后对爬取的网站页面首先进行敏感词规则匹配,然后再次对规则匹配后的输出网站进行机器学习自动分析,减少机器学习模型预测的数据量,提高检测速度和准确性,最终通过统计推算得出页面包含敏感词的可能性;由于通过机器学习并进行语义分析,并通过与分词含义的组合判断,本发明能有效提高敏感性词汇识别率,并能确保监测准确率,能极大减少监理机构的人力成本。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合实施例对本发明做进一步的详细描述,但本发明的保护范围并不限于此。
本发明涉及一种基于机器学习的高准确度网站敏感词检测方法,所述方法包括以下步骤。
步骤1:基于网站,下载待检测文件;新建敏感词数据库。
所述步骤1中,从互联网上爬取监测网站中的所有网站页面文件作为待检测文件。
本发明中,敏感词数据库是指预先在系统里新建的敏感词库,涉及色情、政治、民生、涉赌、涉毒等类别,是需要被局部屏蔽或进行网页监测及报警的词汇。
步骤2:将待检测文件与敏感词数据库进行规则匹配,得到包含敏感词的文档集合。
本发明中,根据互联网爬取下来的网页和敏感词库里的词汇进行直接匹配,通过规则匹配可以匹配出包含敏感词的网页,直接将不包含敏感词的网站过滤掉,可以为下一阶段的语义分析减少分析的数据量,增加准确度。
步骤3:获取训练数据,对训练数据进行处理,学习,获得符合训练要求的数据,输出机器学习模型。
所述步骤3包括以下步骤:
步骤3.1:对现有判定为具有敏感词的网站数据进行收集,并导入大数据处理平台;
步骤3.2:在大数据处理平台中,对网页数据进行文字化处理;
步骤3.3:对文字化的网页内容进行分词处理;
步骤3.4:基于分词处理的结果,计算具有关联的词之间的词向量关系;
所述步骤3.4中,以哈弗曼树构建表达具有关联的词之间的词向量关系的机器学习模型。
步骤3.5:输出机器学习模型。
本发明中,训练数据通过大数据平台导入,主要用于模型训练。
本发明中,对网页数据的文字化处理主要为通过正则匹配提取得到网页中的文字内容,剔除其中的html元素、页面包含的URL、图片资源等。
本发明中,针对文字化的网页内容,以ElasticSearch的分词功能进行分词处理。
本发明中,词向量(Word embedding)是Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称,其是来自词汇表的单词或短语被映射到实数的向量,涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。
本发明中,采用哈弗曼树对表达词向量关系的机器学习模型进行构建。具体来说,假设有n个权值,则构造出的哈弗曼树有n个叶子结点,权值分别设为 w1、w2、…、wn;将w1、w2、…、wn看成是有n 棵树的森林,每棵树仅有一个结点,在森林中选出两个根结点的权值最小的树合并,作为一棵新树的左、右子树,且新树的根结点权值为其左、右子树根结点权值之和,从森林中删除选取的两棵树,并将新树加入森林,重复,直到森林中只剩一棵树为止,该树即为所求得的哈弗曼树。
步骤4:将步骤2的文档集合输入模型,得到网站敏感词检测结果。
所述步骤4包括以下步骤:
步骤4.1:将步骤2的文档集合进行分词处理;
步骤4.2:将分词处理的结果输入至模型中;
步骤4.3:通过模型建立的词向量关系计算当前网站的敏感词分值;
所述步骤4.3中,采用ElasticSearch内词条的统计分数算法计算当前网站的敏感词分值。
步骤4.4:基于分值对当前网站进行打分,输出检测结果。
基于所述敏感词分值,将页面包含的所有词条的分数求和后,除以敏感词的个数,得到当前网页的平均得分。
本发明中,根据机器学习模型对规则匹配过滤出的网页进行预测,并输出预测出的包含敏感性词汇的结果。
本发明中,得到当前网页的平均得分后,可以依据具体的阈值,将网页划分为低、中、高级并进行标识。
以T时间为间隔,重新建立敏感词数据库,获取新的待检测文件并重复步骤2。
本发明中,基于敏感词数据时常会出现更新,故需要固定时间对敏感词数据库进行更新并重新进行新的待检测文件的网页监测。
本发明中,一般情况下,T为每24小时,即每天对敏感词数据库进行更新。
本发明将待检测文件首先与敏感词数据库进行规则匹配,得到包含敏感词的文档集合,对训练数据进行处理、学习以输出机器学习模型,随后将文档集合输入模型,得到网站敏感词检测结果。
本发明结合机器学习算法进行模型训练,而后对爬取的网站页面首先进行敏感词规则匹配,然后再次对规则匹配后的输出网站进行机器学习自动分析,减少机器学习模型预测的数据量,提高检测速度和准确性,最终通过统计推算得出页面包含敏感词的可能性;由于通过机器学习并进行语义分析,并通过与分词含义的组合判断,本发明能有效提高敏感性词汇识别率,并能确保监测准确率,能极大减少监理机构的人力成本。

Claims (8)

1.一种基于机器学习的高准确度网站敏感词检测方法,其特征在于:所述方法包括以下步骤:
步骤1:基于网站,下载待检测文件;新建敏感词数据库;
步骤2:将待检测文件与敏感词数据库进行规则匹配,得到包含敏感词的文档集合;
步骤3:获取训练数据,对训练数据进行处理,学习,获得符合训练要求的数据,输出机器学习模型;
步骤4:将步骤2的文档集合输入模型,得到网站敏感词检测结果。
2.根据权利要求1所述的一种基于机器学习的高准确度网站敏感词检测方法,其特征在于:所述步骤1中,从互联网上爬取监测网站中的所有网站页面文件作为待检测文件。
3.根据权利要求1所述的一种基于机器学习的高准确度网站敏感词检测方法,其特征在于:所述步骤3包括以下步骤:
步骤3.1:对现有判定为具有敏感词的网站数据进行收集,并导入大数据处理平台;
步骤3.2:在大数据处理平台中,对网页数据进行文字化处理;
步骤3.3:对文字化的网页内容进行分词处理;
步骤3.4:基于分词处理的结果,计算具有关联的词之间的词向量关系;
步骤3.5:输出机器学习模型。
4.根据权利要求3所述的一种基于机器学习的高准确度网站敏感词检测方法,其特征在于:所述步骤3.4中,以哈弗曼树构建表达具有关联的词之间的词向量关系的机器学习模型。
5.根据权利要求1所述的一种基于机器学习的高准确度网站敏感词检测方法,其特征在于:所述步骤4包括以下步骤:
步骤4.1:将步骤2的文档集合进行分词处理;
步骤4.2:将分词处理的结果输入至模型中;
步骤4.3:通过模型建立的词向量关系计算当前网站的敏感词分值;
步骤4.4:基于分值对当前网站进行打分,输出检测结果。
6.根据权利要求5所述的一种基于机器学习的高准确度网站敏感词检测方法,其特征在于:所述步骤4.3中,采用ElasticSearch内词条的统计分数算法计算当前网站的敏感词分值。
7.根据权利要求6所述的一种基于机器学习的高准确度网站敏感词检测方法,其特征在于:基于所述敏感词分值,将页面包含的所有词条的分数求和后,除以敏感词的个数,得到当前网页的平均得分。
8.根据权利要求1所述的一种基于机器学习的高准确度网站敏感词检测方法,其特征在于:以T时间为间隔,重新建立敏感词数据库,获取新的待检测文件并重复步骤2。
CN201910984628.2A 2019-10-16 2019-10-16 一种基于机器学习的高准确度网站敏感词检测方法 Pending CN110750981A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910984628.2A CN110750981A (zh) 2019-10-16 2019-10-16 一种基于机器学习的高准确度网站敏感词检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910984628.2A CN110750981A (zh) 2019-10-16 2019-10-16 一种基于机器学习的高准确度网站敏感词检测方法

Publications (1)

Publication Number Publication Date
CN110750981A true CN110750981A (zh) 2020-02-04

Family

ID=69278574

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910984628.2A Pending CN110750981A (zh) 2019-10-16 2019-10-16 一种基于机器学习的高准确度网站敏感词检测方法

Country Status (1)

Country Link
CN (1) CN110750981A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339768A (zh) * 2020-02-27 2020-06-26 携程旅游网络技术(上海)有限公司 敏感文本检测方法、系统、电子设备及介质
CN111447211A (zh) * 2020-03-24 2020-07-24 济南诚方网络科技有限公司 一种网络防诈骗系统
CN115186657A (zh) * 2022-07-28 2022-10-14 北京网景盛世技术开发中心 错敏信息检测方法、装置、计算机设备及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933443A (zh) * 2015-06-26 2015-09-23 北京途美科技有限公司 一种敏感数据自动识别与分类的方法
CN106055541A (zh) * 2016-06-29 2016-10-26 清华大学 一种新闻内容敏感词过滤方法及系统
CN106202562A (zh) * 2016-07-29 2016-12-07 厦门天锐科技股份有限公司 一种降低敏感信息误判率的方法
CN106446232A (zh) * 2016-10-08 2017-02-22 深圳市彬讯科技有限公司 一种基于规则的敏感文本过滤方法
CN107291737A (zh) * 2016-04-01 2017-10-24 腾讯科技(深圳)有限公司 敏感图像识别方法及装置
CN107818077A (zh) * 2016-09-13 2018-03-20 北京金山云网络技术有限公司 一种敏感内容识别方法及装置
CN107992764A (zh) * 2017-11-28 2018-05-04 国网河南省电力公司电力科学研究院 一种敏感网页识别与检测方法及装置
CN108984530A (zh) * 2018-07-23 2018-12-11 北京信息科技大学 一种网络敏感内容的检测方法及检测系统
US20180365560A1 (en) * 2017-06-19 2018-12-20 International Business Machines Corporation Context aware sensitive information detection
CN109344258A (zh) * 2018-11-28 2019-02-15 中国电子科技网络信息安全有限公司 一种智能化自适应敏感数据识别系统及方法
CN109766719A (zh) * 2018-12-28 2019-05-17 微梦创科网络科技(中国)有限公司 一种敏感信息检测方法、装置及电子设备
CN110209795A (zh) * 2018-06-11 2019-09-06 腾讯科技(深圳)有限公司 评论识别方法、装置、计算机可读存储介质和计算机设备
CN110222170A (zh) * 2019-04-25 2019-09-10 平安科技(深圳)有限公司 一种识别敏感数据的方法、装置、存储介质及计算机设备

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933443A (zh) * 2015-06-26 2015-09-23 北京途美科技有限公司 一种敏感数据自动识别与分类的方法
CN107291737A (zh) * 2016-04-01 2017-10-24 腾讯科技(深圳)有限公司 敏感图像识别方法及装置
CN106055541A (zh) * 2016-06-29 2016-10-26 清华大学 一种新闻内容敏感词过滤方法及系统
CN106202562A (zh) * 2016-07-29 2016-12-07 厦门天锐科技股份有限公司 一种降低敏感信息误判率的方法
CN107818077A (zh) * 2016-09-13 2018-03-20 北京金山云网络技术有限公司 一种敏感内容识别方法及装置
CN106446232A (zh) * 2016-10-08 2017-02-22 深圳市彬讯科技有限公司 一种基于规则的敏感文本过滤方法
US20180365560A1 (en) * 2017-06-19 2018-12-20 International Business Machines Corporation Context aware sensitive information detection
CN107992764A (zh) * 2017-11-28 2018-05-04 国网河南省电力公司电力科学研究院 一种敏感网页识别与检测方法及装置
CN110209795A (zh) * 2018-06-11 2019-09-06 腾讯科技(深圳)有限公司 评论识别方法、装置、计算机可读存储介质和计算机设备
CN108984530A (zh) * 2018-07-23 2018-12-11 北京信息科技大学 一种网络敏感内容的检测方法及检测系统
CN109344258A (zh) * 2018-11-28 2019-02-15 中国电子科技网络信息安全有限公司 一种智能化自适应敏感数据识别系统及方法
CN109766719A (zh) * 2018-12-28 2019-05-17 微梦创科网络科技(中国)有限公司 一种敏感信息检测方法、装置及电子设备
CN110222170A (zh) * 2019-04-25 2019-09-10 平安科技(深圳)有限公司 一种识别敏感数据的方法、装置、存储介质及计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孟旭阳: "社交网络中的敏感内容检测方法研究", 《现代电子技术》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339768A (zh) * 2020-02-27 2020-06-26 携程旅游网络技术(上海)有限公司 敏感文本检测方法、系统、电子设备及介质
CN111339768B (zh) * 2020-02-27 2024-03-05 携程旅游网络技术(上海)有限公司 敏感文本检测方法、系统、电子设备及介质
CN111447211A (zh) * 2020-03-24 2020-07-24 济南诚方网络科技有限公司 一种网络防诈骗系统
CN115186657A (zh) * 2022-07-28 2022-10-14 北京网景盛世技术开发中心 错敏信息检测方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN111428044B (zh) 多模态获取监管识别结果的方法、装置、设备及存储介质
CN110781317B (zh) 事件图谱的构建方法、装置及电子设备
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN109145216A (zh) 网络舆情监控方法、装置及存储介质
CN106557695B (zh) 一种恶意应用检测方法和系统
CN110175851B (zh) 一种作弊行为检测方法及装置
CN111767725B (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN106844640B (zh) 一种网页数据分析处理方法
CN110750981A (zh) 一种基于机器学习的高准确度网站敏感词检测方法
CN104820629A (zh) 一种智能的舆情突发事件应急处理系统及方法
CN108038205A (zh) 针对中文微博的观点分析原型系统
CN111899089A (zh) 基于知识图谱的企业风险预警方法及系统
CN108021582B (zh) 互联网舆情监控方法及装置
CN111310476A (zh) 一种使用基于方面的情感分析方法的舆情监控方法和系统
CN109918648B (zh) 一种基于动态滑动窗口特征评分的谣言深度检测方法
CN104346382B (zh) 使用语言查询的文本分析系统和方法
CN113918794B (zh) 企业网络舆情效益分析方法、系统、电子设备及存储介质
CN113111645B (zh) 一种媒体文本相似性检测方法
CN114840632A (zh) 一种知识抽取方法、系统、设备及存储介质
CN111190873A (zh) 一种用于云原生系统日志训练的日志模式提取方法及系统
CN116862243A (zh) 一种基于神经网络的企业风险分析预测方法、系统及介质
CN107688594A (zh) 基于社交信息的风险事件的识别系统及方法
CN111079042A (zh) 一种基于文本主题的网页暗链检测方法和装置
CN115841334A (zh) 异常账户识别方法和装置、电子设备及存储介质
CN115563626A (zh) 一种面向cve的漏洞可利用性预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination