CN107480275A

CN107480275A - 一种基于大数据的有害信息监测方法及系统

Info

Publication number: CN107480275A
Application number: CN201710719520.1A
Authority: CN
Inventors: 王先炼
Original assignee: Chengdu West Digital Technology Co Ltd
Current assignee: Chengdu West Digital Technology Co Ltd
Priority date: 2017-08-21
Filing date: 2017-08-21
Publication date: 2017-12-15

Abstract

本发明涉及网络有害信息监测领域，公开了一种基于大数据的有害信息监测方法及系统，利用网络爬虫对监测网站的内容进行实时爬取，以获取网页的页面信息；对网页的页面信息，进行分析、分词，建立文档索引和关键词索引，并保存至索引数据库；根据词库文件，计算监测网站的网页的关键词评分；当监测网站的网页的关键词评分大于预设阈值时，对所述监测网站进行记录；向所述监测网站的所有者发送通告信息。本发明提高了有害信息的监测效率，误差率低，可以对有害信息实现长效管控。

Description

一种基于大数据的有害信息监测方法及系统

技术领域

本发明涉及网络有害信息监测领域，尤其涉及一种基于大数据的有害信息监测方法及系统。

背景技术

近年来，互联网业务发展十分迅猛，它加快了信息传播的速度，拓宽了信息传播的渠道，对经济的发展、社会的进步、科技的普及起到了积极的作用，但是随之而产生的信息内容安全问题也越来越突出，特别是当前境内外敌对势力和一些不法分子，利用互联网进行各种违法犯罪活动问题突出，各种有害信息在互联网上的传播，严重地危害了国家安全和社会稳定。

现有技术中的有害信息监测系统的主要目的仅满足于对互联网基础资源的基础管理工作，侧重于对相关资源的管理及追溯，以及这些资源的拥有者资料的管理，相关资源实名制的管理，但并未侧重于对违法有害信息的发现、监测、拦截、处置，虽然也有一套信安设备，其中也具备有非法信息的发现及过滤功能，但是功能单一，且这些监管指令主要是由政府主管部门下发，由系统执行，而不是企业自主设置，此外也仅仅具备最简单的记录与拦截的功能，而不具备关键字分级、自主发现、自动汇总、就地通知、异步通知、批量处理、分类管理等必须功能，更不具备防止误判的功能，所以面对如何减少有害信息的滋生、传播这个问题，就无法发挥有效作用。

发明内容

本发明提供一种基于大数据的有害信息监测方法及系统，解决现有技术中有害信息监测系统对有害信息监测功能单一的技术问题。

本发明的目的是通过以下技术方案实现的：

一种基于大数据的有害信息监测方法，包括：

利用网络爬虫对监测网站的内容进行实时爬取，以获取网页的页面信息；

对网页的页面信息，进行分析、分词，建立文档索引和关键词索引，并保存至索引数据库；

根据词库文件，计算监测网站的网页的关键词评分，所述词库文件包括负面关键词和正面关键词，所述负面关键词设有对应的正分值，所述正面关键词设有对应的负分值；

当监测网站的网页的关键词评分大于预设阈值时，对所述监测网站进行记录；

向所述监测网站的所有者发送通告信息，所述通告信息包含网页记录原因、记录的关键词、处置方式。

一种基于大数据的有害信息监测系统，包括：

获取模块，用于利用网络爬虫对监测网站的内容进行实时爬取，以获取网页的页面信息；

索引模块，用于对网页的页面信息，进行分析、分词，建立文档索引和关键词索引，并保存至索引数据库；

计算模块，用于根据词库文件，计算监测网站的网页的关键词评分，所述词库文件包括负面关键词和正面关键词，所述负面关键词设有对应的正分值，所述正面关键词设有对应的负分值；

记录模块，用于当监测网站的网页的关键词评分大于预设阈值时，对所述监测网站进行记录；

通告模块，用于向所述监测网站的所有者发送通告信息，所述通告信息包含网页记录原因、记录的关键词、处置方式。

本发明提供一种基于大数据的有害信息监测方法及系统，利用网络爬虫对监测网站的内容进行实时爬取，以获取网页的页面信息；对网页的页面信息，进行分析、分词，建立文档索引和关键词索引，并保存至索引数据库；根据词库文件，计算监测网站的网页的关键词评分；当监测网站的网页的关键词评分大于预设阈值时，对所述监测网站进行记录；向所述监测网站的所有者发送通告信息。本发明提高了有害信息的监测效率，误差率低，可以对有害信息实现长效管控。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可根据这些附图获得其他的附图。

图1为本发明实施例的一种基于大数据的有害信息监测方法的流程图；

图2为本发明实施例的一种基于大数据的有害信息监测系统的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，为本发明实施例提供的一种基于大数据的有害信息监测方法，包括：

步骤101、利用网络爬虫对监测网站的内容进行实时爬取，以获取网页的页面信息；

步骤102、对网页的页面信息，进行分析、分词，建立文档索引和关键词索引，并保存至索引数据库；

步骤103、根据词库文件，计算监测网站的网页的关键词评分；

其中，所述词库文件包括负面关键词和正面关键词，所述负面关键词设有对应的正分值，所述正面关键词设有对应的负分值；本发明实施例给负面关键字进行评分，不同的关键词因其重要性或二义性，给予不同的分值，最后系统在判断该信息是否属于非法信息时，以分值作为依据，以尽可能的避免误判。而对于正面关键词，例如“法院、民警、检查机关、刑法、抓获、严厉打击” 等具备正面意义的词汇，给予一定的负分，将此分值与其它负面关键词分值相加，相加值与预设阈值进行比较作为判断依据，减少对一些新闻文章中出现的非法关键词的误判，提高系统使用体验。

步骤104、当监测网站的网页的关键词评分大于预设阈值时，对所述监测网站进行记录；

步骤105、向所述监测网站的所有者发送通告信息；

其中，所述通告信息包含网页记录原因、记录的关键词、处置方式。

其中，步骤105之后，包括：

步骤105-1、判断预设时间之内是否接收到所述监测网站的所有者的处置反馈信息；

步骤105-2、当预设时间之内接收到所述监测网站的所有者的处置反馈信息时，根据所述反馈信息，对所述监测网站进行处理；

步骤105-3、当预设时间之内未接收到所述监测网站的所有者的处置反馈信息时，对所述监测网站进行阻断。

步骤105包括多种方式，包括：

通过移动应用通知所述监测网站的所有者；或者，

通过邮件通知的方式通知所述监测网站的所有者；或者，

通过在用户访问网站的时，返回通知信息；或者，

通过后台系统通知所述监测网站的所有者。

步骤103具体可以包括：

根据词库文件，确定负面关键词的分值及正面关键词的分值，将所有负面关键词的分值与所有正面关键词的分值相加，所述负面关键词和正面关键词的分值由重要性或二义性确定。

步骤105-2具体可以包括：

步骤105-4、当所述反馈信息为确认监测结果正确，并完成处理的信息时，删除所述监测网站的记录；

步骤105-5、当所述反馈信息为监测结果有误时，删除所述监测网站的记录，并更新词库文件。

本发明提供一种基于大数据的有害信息监测方法，利用网络爬虫对监测网站的内容进行实时爬取，以获取网页的页面信息；对网页的页面信息，进行分析、分词，建立文档索引和关键词索引，并保存至索引数据库；根据词库文件，计算监测网站的网页的关键词评分；当监测网站的网页的关键词评分大于预设阈值时，对所述监测网站进行记录；向所述监测网站的所有者发送通告信息。本发明提高了有害信息的监测效率，误差率低，可以对有害信息实现长效管控。

本发明实施例还提供了一种基于大数据的有害信息监测系统，如图2所示，包括：

获取模块210，用于利用网络爬虫对监测网站的内容进行实时爬取，以获取网页的页面信息；

索引模块220，用于对网页的页面信息，进行分析、分词，建立文档索引和关键词索引，并保存至索引数据库；

计算模块230，用于根据词库文件，计算监测网站的网页的关键词评分，所述词库文件包括负面关键词和正面关键词，所述负面关键词设有对应的正分值，所述正面关键词设有对应的负分值；

记录模块240，用于当监测网站的网页的关键词评分大于预设阈值时，对所述监测网站进行记录；

通告模块250，用于向所述监测网站的所有者发送通告信息，所述通告信息包含网页记录原因、记录的关键词、处置方式。

其中，还可以包括处理模块260，处理模块260包括：

判断单元261，用于判断预设时间之内是否接收到所述监测网站的所有者的处置反馈信息；

处理单元262，用于当预设时间之内接收到所述监测网站的所有者的处置反馈信息时，根据所述反馈信息，对所述监测网站进行处理；

阻断单元263，用于当预设时间之内未接收到所述监测网站的所有者的处置反馈信息时，对所述监测网站进行阻断。

所述通告模块250包括：

第一通告单元251，用于通过移动应用通知所述监测网站的所有者；或者，

第二通告单元252，用于通过邮件通知的方式通知所述监测网站的所有者；或者，

第三通告单元253，用于通过在用户访问网站的时，返回通知信息；或者，

第四通告单元254，用于通过后台系统通知所述监测网站的所有者。

所述计算模块230，具体用于根据词库文件，确定负面关键词的分值及正面关键词的分值，将所有负面关键词的分值与所有正面关键词的分值相加，所述负面关键词和正面关键词的分值由重要性或二义性确定。

所述处理单元262，包括：

记录删除子单元2621，用于当所述反馈信息为确认监测结果正确，并完成处理的信息时，删除所述监测网站的记录；

词库更新子单元2622，用于当所述反馈信息为监测结果有误时，删除所述监测网站的记录，并更新词库文件。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现，当然也可以全部通过硬件来实施，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等) 执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于大数据的有害信息监测方法，其特征在于，包括：

2.根据权利要求1所述的基于大数据的有害信息监测方法，其特征在于，所述向所述监测网站的所有者发送通告信息的步骤之后，包括：

判断预设时间之内是否接收到所述监测网站的所有者的处置反馈信息；

当预设时间之内接收到所述监测网站的所有者的处置反馈信息时，根据所述反馈信息，对所述监测网站进行处理；

当预设时间之内未接收到所述监测网站的所有者的处置反馈信息时，对所述监测网站进行阻断。

3.根据权利要求1所述的基于大数据的有害信息监测方法，其特征在于，向所述监测网站的所有者发送通告信息，包括：

通过移动应用通知所述监测网站的所有者；或者，

通过邮件通知的方式通知所述监测网站的所有者；或者，

通过在用户访问网站的时，返回通知信息；或者，

通过后台系统通知所述监测网站的所有者。

4.根据权利要求1所述的基于大数据的有害信息监测方法，其特征在于，所述根据词库文件，计算监测网站的网页的关键词评分的步骤，包括：

5.根据权利要求2所述的基于大数据的有害信息监测方法，其特征在于，所述当预设时间之内接收到所述监测网站的所有者的处置反馈信息时，根据所述反馈信息，对所述监测网站进行处理的步骤，包括：

当所述反馈信息为确认监测结果正确，并完成处理的信息时，删除所述监测网站的记录；

当所述反馈信息为监测结果有误时，删除所述监测网站的记录，并更新词库文件。

6.一种基于大数据的有害信息监测系统，其特征在于，包括：

7.根据权利要求6所述的基于大数据的有害信息监测系统，其特征在于，还包括处理模块，所述处理模块包括：

判断单元，用于判断预设时间之内是否接收到所述监测网站的所有者的处置反馈信息；

处理单元，用于当预设时间之内接收到所述监测网站的所有者的处置反馈信息时，根据所述反馈信息，对所述监测网站进行处理；

阻断单元，用于当预设时间之内未接收到所述监测网站的所有者的处置反馈信息时，对所述监测网站进行阻断。

8.根据权利要求6所述的基于大数据的有害信息监测系统，其特征在于，所述通告模块包括：

第一通告单元，用于通过移动应用通知所述监测网站的所有者；或者，

第二通告单元，用于通过邮件通知的方式通知所述监测网站的所有者；或者，

第三通告单元，用于通过在用户访问网站的时，返回通知信息；或者，

第四通告单元，用于通过后台系统通知所述监测网站的所有者。

9.根据权利要求6所述的基于大数据的有害信息监测系统，其特征在于，所述计算模块，具体用于根据词库文件，确定负面关键词的分值及正面关键词的分值，将所有负面关键词的分值与所有正面关键词的分值相加，所述负面关键词和正面关键词的分值由重要性或二义性确定。

10.根据权利要求7所述的基于大数据的有害信息监测系统，其特征在于，所述处理单元，包括：

记录删除子单元，用于当所述反馈信息为确认监测结果正确，并完成处理的信息时，删除所述监测网站的记录；

词库更新子单元，用于当所述反馈信息为监测结果有误时，删除所述监测网站的记录，并更新词库文件。