CN104899324A - 一种基于idc有害信息监测系统的样本训练系统 - Google Patents
一种基于idc有害信息监测系统的样本训练系统 Download PDFInfo
- Publication number
- CN104899324A CN104899324A CN201510343176.1A CN201510343176A CN104899324A CN 104899324 A CN104899324 A CN 104899324A CN 201510343176 A CN201510343176 A CN 201510343176A CN 104899324 A CN104899324 A CN 104899324A
- Authority
- CN
- China
- Prior art keywords
- module
- reptile
- search
- harmful
- sample training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/192—Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
- G06V30/194—References adjustable by an adaptive method, e.g. learning
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于IDC有害信息监测系统的样本训练系统,爬虫样本训练单元中,主题相关度计算模块将爬虫系统抓取的网页信息结合爬虫样本数据库计算网页的主题相关度,并根据该主题相关度调整URL队列,过滤掉低于预设阈值的URL,并把计算得到的主题相关度值反馈给爬虫样本训练模块,爬虫样本训练模块进行训练学习后,更新爬虫样本数据库;有害监测样本训练单元中,关键字近似词汇训练模块,有害信息监测系统根据近似匹配算法所生成的与输入字符串相关的近似词汇进行有害检测,关键字近似词汇训练模块根据搜索结果拟合度计算模块来确定搜索结果的准确性,判断近似词汇的相似度,并将有效的近似词汇更新到有害监测样本数据库中。
Description
技术领域
本发明涉及一种基于IDC有害信息监测系统的样本训练系统。
背景技术
随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性。
面对日益活跃的网络社区环境,每个网民都可能成为有害信息的发布者和散布者,网络有害传播途径越来越广包括博客、新闻、论坛、微博、以及其他途径。网络爬虫是各种搜索引擎能够实现的先驱技术,大数据时代的来临以及互联网技术的飞速发展,使得网络爬虫具有更重大的研究意义。应对网页数据量增幅大、网络文本更新周期短以及网页结构动态变化等一系列挑战,高效率且不间断工作的网络爬虫成为有害信息挖掘的研究热点。
然而由于传统搜索引擎的局限性,如覆盖率低、时效性差、结果不准确、返回不相关的结果太多等缺点逐渐体现。IDC系统不能准确有效地进行有害信息监测。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于IDC有害信息监测系统的样本训练系统,本系统提供了强大的数据收集功能,通过多个爬虫集群对动态网页和静态网页进行全面的实时监控;并从海量数据中,采集到与敏感词有关的数据,做到主动发现有害网页,通过样本训练系统提高有害信息监测的准确性和有效性。
本发明的目的是通过以下技术方案来实现的:一种基于IDC有害信息监测系统的样本训练系统,它包括爬虫系统和有害信息监测系统,有害信息监测系统通过爬虫系统获取互联网数据中心中的网页数据,并对其进行有害分析。
所述爬虫系统包括一个或多个爬虫集群,且每个爬虫集群均包括多个爬虫结点和一个爬虫根节点,形成一个分布式的数据采集网络,其中,爬虫根节点用于对该爬虫集群中的爬虫结点进行控制和管理,并与有害信息监测系统进行相互通信,爬虫结点用于采集网络中的有害信息,所述每个爬虫结点均由以下多种模块组成:
1、多线程网页采集模块,包括多种网页采集通道及网页解析模块,针对不同类型的网页,通过与其相匹配的网页采集通道和网页解析模块对其进行采集。
2、网页库,存储多线程网页采集模块所采集的网页。
3、编码识别处理模块,自动识别网页的编码类型,并对其进行编码转换处理。
4、网页内容自动提取模块,包括动态网页内容提取模块和静态网页内容提取模块,根据敏感词库根据敏感词库抓取编码转换处理后存在有害信息网页的URL。
5、URL过滤器,过滤不需要下载的URL。
6、URL去重模块,用于判断过滤后的URL是否与URL存储器中所存储的URL一致,若一致则不再对该URL进行后续的处理。
7、URL调度模块,在去重后的URL队列基础上,根据该主题相关度调整URL队列,控制多线程网页采集模块下载相应的网页。
8、所述爬虫结点还包括网页去重模块,用于判断网页内容是否与已下载过的网页内容一致,若一致则不再对该网页进行后续的处理,并从网页库中将其删除.
所述网页去重模块包括指纹计算模块、指纹库和指纹去重模块,指纹计算模块根据网页指纹算法,将网页的内容经过计算生成指纹,指纹去重模块将该生成指纹与指纹库中的指纹进行对比,若存在相同或相近似的指纹,则判断该网页内容已下载过,指纹库用于存储指纹数据,且每个爬虫结点的指纹库进行同步更新。
9、所述爬虫结点还包括间隔抓取模块,间隔抓取模块通过网页评分和网站权重自动生成间隔规则,并控制网页内容自动提取模块对网页进行相应的间隔抓取。
10、所述爬虫结点还包括抓取规则设置模块,抓取规则设置模块根据所设置的抓取规则,控制网页内容自动提取模块对网页进行相应的抓取动作。
11、所述爬虫结点还包括反爬虫抓取模块,当网页设置有反爬虫程序时,启动反爬虫抓取模块,对目标网页进行强制采集。
12、所述爬虫结点还包括采集监控模块,采集监控模块将爬虫结点的工作状态、采集任务、采集深度和日志信息转发给爬虫根节点进行汇聚处理,并接收爬虫根节点的控制。
所述有害信息监测系统包括有害信息搜索单元、自动分词单元、关键字处理单元和模糊匹配单元。
有害信息搜索单元包括本地搜索端口和网络搜索端口,本地搜索端口用于启动本地爬虫结点的搜索引擎,在本地执行该有害信息搜索任务。网络搜索端口用于启动多个爬虫结点的搜索引擎,通过多个爬虫结点同时执行该有害信息搜索任务,还通过该网络搜索端口将搜索结果返回到该本地爬虫结点。
有害信息搜索单元还包括关键字筛选器、标签字段筛选器、元数据字段筛选器和时间筛选器中的一种或多种的组合,通过多种筛选器及其组合完成精确搜索。
关键字处理单元用于生成关键字搜索指令,有害信息搜索单元根据该关键字搜索指令执行有害信息搜索任务。
模糊匹配单元用于根据输入的搜索字符串匹配相近似的近似词汇,使有害信息搜索单元对搜索字符串进行搜索的同时,还完成近似词汇的搜索,并返回近似词汇搜索结果。
自动分词单元用于将输入的搜索字符串进行自动提取关键字,使有害信息搜索单元根据该自动提取关键字完成精确搜索。
所述有害信息监测系统还包括自动摘要生成单元,自动摘要生成单元根据输入的搜索字符串及其近似词汇对目标网页动态的生成网页摘要。
所述自动摘要生成单元还通过关键字处理单元对网页进行关键字分析,自动提取关键字段生成网页摘要。
所述样本训练系统包括设置在爬虫系统中的爬虫样本训练单元和设置在有害信息监测系统中的有害监测样本训练单元。
所述爬虫样本训练单元包括爬虫样本训练模块、爬虫样本数据库和主题相关度计算模块,主题相关度计算模块将爬虫系统抓取的网页信息结合爬虫样本数据库计算网页的主题相关度,并根据该主题相关度调整URL队列,过滤掉低于预设阈值的URL,并把计算得到的主题相关度值反馈给爬虫样本训练模块,爬虫样本训练模块进行训练学习后,更新爬虫样本数据库。
所述有害监测样本训练单元包括关键字近似词汇训练模块、搜索结果拟合度计算模块和有害监测样本数据库。
关键字近似词汇训练模块,有害信息监测系统根据近似匹配算法所生成的与输入字符串相关的近似词汇进行有害检测,关键字近似词汇训练模块根据搜索结果拟合度计算模块来确定搜索结果的准确性,判断近似词汇的相似度,并将有效的近似词汇更新到有害监测样本数据库中。
所述有害监测样本训练单元还包括搜索偏好训练模块,搜索偏好训练模块用于判别输入字符串所属的类型,并进行计数统计和偏好设置,筛选出符合偏好设置的搜索结果。
所述爬虫样本训练单元还包括网页指纹样本训练模块,网页指纹样本训练模块将网页按一定规则分成多个小段,通过指纹计算模块计算每段的指纹,组成一指纹信息块,当两个网页的指纹信息块中,相同指纹数量达到一定阈值时,网页指纹样本训练模块判断该两个网页为近似网页。
所述有害监测样本训练单元还包括人工控制端口,人工控制端口与关键字近似词汇训练模块连接,接收用户的人工控制信号,通过人工控制来判断近似词汇的相似度。
本发明的有益效果是:
1)本发明提供了强大的数据收集功能,通过多个爬虫集群对动态网页和静态网页进行全面的实时监控;并从海量数据中,采集到与敏感词有关的数据,做到主动发现有害网页,并通过样本训练系统提高有害信息监测的准确性和有效性。
2)样本训练系统使得IDC有害信息监测系统能从海量数据中,更精准地采集到与敏感词有关的数据,做到主动发现有害,能够对事件热度快速定位分析。
附图说明
图1为本发明的爬虫系统结构框图;
图2为本发明中爬虫结点的结构原理框图;
图3为本发明中有害信息监测系统的结构原理框图;
图4为本发明中爬虫样本训练单元的结构原理框图;
图5为本发明中有害监测样本训练单元的结构原理框图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
一种基于IDC有害信息监测系统的样本训练系统,它包括爬虫系统和有害信息监测系统,有害信息监测系统通过爬虫系统获取互联网数据中心中的网页数据,并对其进行有害分析。
(一)爬虫系统
如图1所示,所述爬虫系统负责从互联网上进行原始数据的发现、爬取和数据规格化。根据互联网上应用的不同,包括一个或多个爬虫集群,且每个爬虫集群均包括多个爬虫结点和一个爬虫根节点,形成一个分布式的数据采集网络,其中,爬虫根节点用于对该爬虫集群中的爬虫结点进行控制和管理,并与有害信息监测系统进行相互通信,爬虫结点用于采集网络中的有害信息。
如图2所示,本发明中,所述每个爬虫结点均由以下多种模块组成:
1、多线程网页采集模块,包括多种网页采集通道及网页解析模块,针对不同类型的网页,通过与其相匹配的网页采集通道和网页解析模块对其进行采集;所述网页解析模块包括DNS解析模块、HTTP解析模块、FTP解析模块、GOPHER解析模块等;
实现多线程采集功能:能够针对不同类型的网站定制不同的策略,采集支持多线程,实现快速信息采集;
2、网页库,存储多线程网页采集模块所采集的网页;
3、编码识别处理模块,自动识别网页的编码类型,并对其进行编码转换处理;支持GBK、GB2312、BIG5、UTF-8、UTF-16、BIGENDIAN、ISO8859-1等多种编码自动识别,系统自动进行编码转换为UTF;
4、网页内容自动提取模块,包括动态网页内容提取模块和静态网页内容提取模块,根据敏感词库抓取编码转换处理后存在有害信息网页的URL;能采集多种动态和静态网页,例如HTM、HTML、SHTML、XML、PHP、ASP、JSP、JavaScript等网页;
5、URL过滤器,过滤不需要下载的URL;
6、URL去重模块,用于判断过滤后的URL是否与URL存储器中所存储的URL一致,若一致则不再对该URL进行后续的处理;实现增量更新功能,保证爬虫结点只采集上次更新后新生成或更改的网页,不用重新采集已下载的网页来保证信息更新的效率,用户也可以根据需要也可设定全部采集;
7、URL调度模块,根据去重后的URL队列,控制多线程网页采集模块下载相应的网页。
8、网页去重模块,用于判断网页内容是否与已下载过的网页内容一致,若一致则不再对该网页进行后续的处理,并从网页库中将其删除。
9、指纹计算模块、指纹库和指纹去重模块,指纹计算模块根据网页指纹算法,将网页的内容经过计算生成指纹,指纹去重模块将该生成指纹与指纹库中的指纹进行对比,若存在相同或相近似的指纹,则判断该网页内容已下载过,指纹库用于存储指纹数据,且每个爬虫结点的指纹库进行同步更新。
10、间隔抓取模块,间隔抓取模块通过网页评分和网站权重自动生成间隔规则,并控制网页内容自动提取模块对网页进行相应的间隔抓取。
11、抓取规则设置模块,抓取规则设置模块根据所设置的抓取规则,控制网页内容自动提取模块对网页进行相应的抓取动作。
12、反爬虫抓取模块,当网页设置有反爬虫程序时,启动反爬虫抓取模块,对目标网页进行强制采集。
13、采集监控模块,采集监控模块将爬虫结点的工作状态、采集任务、采集深度和日志信息转发给爬虫根节点进行汇聚处理,并接收爬虫根节点的控制。
所述爬虫结点还包括标签计数器和标签计数日志文件,标签计数器用于记录网页库中的下载数,并将该数据记录在标签计数日志文件中。
所述爬虫系统还包括全文数据库、索引数据库和列序数据库,全文数据库、索引数据库和列序数据库均与爬虫结点和爬虫根节点连接。
本发明所提出的爬虫系统还具有以下多个功能特点:
1)多线程采集:针对不同类型的网站定制不同的策略,采集支持多线程,实现快速信息采集;
2)分布式采集:通过多个爬虫集群、若干的爬虫结点进行大规模数据采集;
3)采集监控:对爬虫结点工作状态、采集任务、采集深度、日志、系统运行报告等进行监控和管理;
4)网页内容自动提取:能采集多种动态和静态网页,例如HTM、HTML、SHTML、XML、PHP、ASP、JSP、JavaScript等网页;
5)编码自动识别转换:支持GBK、GB2312、BIG5、UTF-8、UTF-16、BIGENDIAN、ISO8859-1等多种编码自动识别,系统自动进行编码转换为UTF;
6)增量更新:保证爬虫结点只采集上次更新后新生成或更改的网页,不用重新采集已下载的网页来保证信息更新的效率,用户也可以根据需要也可设定全部采集;
7)反爬虫抓取:针对部分设置反爬虫程序网站应设置相关策略,避免无法抓取页面;
8)爬虫间隔抓取:采用网页评分和网站权重等自动生成间隔规则,对网页进行相应的间隔抓取;
9)自定义抓取规则:用户也可以自己设置抓取规则。
(二)有害信息监测系统
如图3所示,所述有害信息监测系统包括有害信息搜索单元、自动分词单元、关键字处理单元和模糊匹配单元。
1、有害信息搜索单元,包括本地搜索端口和网络搜索端口,本地搜索端口用于启动本地爬虫结点的搜索引擎,在本地执行该有害信息搜索任务。网络搜索端口用于启动多个爬虫结点的搜索引擎,通过多个爬虫结点同时执行该有害信息搜索任务,还通过该网络搜索端口将搜索结果返回到该本地爬虫结点。
有害信息搜索单元还包括关键字筛选器、标签字段筛选器、元数据字段筛选器和时间筛选器中的一种或多种的组合,通过多种筛选器及其组合完成精确搜索,如提供搜索关键词的权重、多个元数据字段的权重组合搜索等。
关键字筛选器:支持关键词逻辑表达式组合,包括AND、OR、NOT等。
标签字段筛选器:支持通过多个标签字段组合的逻辑“与或非”限定搜索。
元数据字段筛选器:能够定义多个元数据字段,通过参数挑选搜索结果。
时间筛选器:支持按照日期、相关度以及其他字段组合的排序功能。
字段标签搜索是通过建立索引文本的标签字段,用户可以针对性的选择标签组合,从而返回相应的限定结果。
有害信息搜索单元根据突发有害网络热词进行全网搜索,快捷搜索突发事件的有害数量、分布站点、有害热度。
2、关键字处理单元,用于生成关键字搜索指令,有害信息搜索单元采用布尔逻辑表达式,并根据该关键字搜索指令执行有害信息搜索任务。
所述关键字搜索指令包括分类ID号、事件名称、关键字选项、排除关键字选项、权重、起始时间。所述排除关键字选项用于使包含排除关键字选项中任一关键字的网页不会被匹配认定为有害信息网页。
3、模糊匹配单元,用于根据输入的搜索字符串匹配相近似的近似词汇,使有害信息搜索单元对搜索字符串进行搜索的同时,还完成近似词汇的搜索,并返回近似词汇搜索结果。
用户可以输入一句话、一段文字甚至是一整篇文章,系统会分析用户检索条件的内容概念,然后从概念的相关度上来找出用户关心的结果。如果用户不知道查询的内容如何拼写,可以通过模糊搜索,系统除了返回相应的搜索结果外,还返回与输入字符串相近的其他词汇,从而让用户发现相关的其他结果。
4、自动分词单元,用于将输入的搜索字符串进行自动提取关键字,使有害信息搜索单元根据该自动提取关键字完成精确搜索。自动分词模块是中文信息处理与分析的基础。以词典和规则为基础,综合利用基于概率分析的语言模型方法,并可根据不同的应用进行适合特定要求的分词。
5、自动摘要生成单元,自动摘要生成单元根据输入的搜索字符串及其近似词汇对目标网页动态的生成网页摘要。网页会根据输入的不同的搜索字符串而动态的生成不同的网页摘要,用户可根据该网页摘要来判断是否需要打开该网页进行审察,并能通过动态的网页摘要来了解返回结果中各个网页之间的关系。
所述自动摘要生成单元还通过关键字处理单元对网页进行关键字分析,自动提取关键字段生成网页摘要。当用户查看网页的具体内容时,自动摘要生成单元也能够自动对文章内容生成网页摘要,此时不需要根据搜索字符串及其近似词汇对网页进行分析。
自动摘要生成单元能够综合考虑词频、词性、位置信息,实现准确的自动提取分析关键词,并根据其分析出的关键字自动生成网页摘要。
6、结果统计分析单元,结果统计分析单元用于对返回的搜索结果进行分析统计,所述统计分析单元包括任务舆情图生成模块、报表生成模块、任务文章统计模块、任务趋势分析模块和任务概况分析模块。
所述任务舆情图生成模块根据搜索条件和搜索结果生成任务舆情图,包括有害信息数量统计、中标关键词数量统计和网页数量分类统计。
所述报表生成模块用于根据搜索结果信息生成报表,包括柱状图、折线图单棒图、双棒图、三棒图、多线图和X-Y图。
所述任务趋势分析模块用于生成增量图,包括每日增量图、每周增量图、每月增量图等。
所述任务概况分析模块用于生成图形化的任务列表、站点分布图和媒体分布图。
所述搜索结果包括有害的分布站点、传播途径、回帖率、点击率和参与者信息。
统计分析单元为用户提供了功能强大的查询功能,针对实时及历史数据进行分析、展现,针对历史数据应用进行数据挖掘,包括历史数据、巡检数据、网络数据、监控节点数据。可根据需要,灵活设置各种查询条件,提供多种统计分析报表,如单棒图、双棒图、三棒图、多线图、X-Y图(坐标点绘图)等形式,并可与调度服务相结合,生成多种输出格式的报表如word格式、PDF格式、Excel格式等,发送给指定用户,丰富决策分析功能,方便用户查询数据、分析趋势、制定调整方案。同时,系统具有扩展性,为用户编辑图片。
本发明有害信息监测系统还包括防火墙,爬虫系统通过防火墙对互联网数据中心中的网页数据进行安全爬取。
(三)样本训练系统
所述样本训练系统包括设置在爬虫系统中的爬虫样本训练单元和设置在有害信息监测系统中的有害监测样本训练单元。
如图4所示,所述爬虫样本训练单元包括爬虫样本训练模块、爬虫样本数据库和主题相关度计算模块,主题相关度计算模块将爬虫系统抓取的网页信息结合爬虫样本数据库计算网页的主题相关度,并根据该主题相关度调整URL队列,过滤掉低于预设阈值的URL,并把计算得到的主题相关度值反馈给爬虫样本训练模块,爬虫样本训练模块进行训练学习后,更新爬虫样本数据库。
所述有害监测样本训练单元包括关键字近似词汇训练模块、搜索结果拟合度计算模块和有害监测样本数据库。
关键字近似词汇训练模块,有害信息监测系统根据近似匹配算法所生成的与输入字符串相关的近似词汇进行有害检测,关键字近似词汇训练模块根据搜索结果拟合度计算模块来确定搜索结果的准确性,判断近似词汇的相似度,并将有效的近似词汇更新到有害监测样本数据库中。
如图5所示,所述有害监测样本训练单元还包括搜索偏好训练模块,搜索偏好训练模块用于判别输入字符串所属的类型,并进行计数统计和偏好设置,筛选出符合偏好设置的搜索结果。
所述爬虫样本训练单元还包括网页指纹样本训练模块,网页指纹样本训练模块将网页按一定规则分成多个小段,通过指纹计算模块计算每段的指纹,组成一指纹信息块,当两个网页的指纹信息块中,相同指纹数量达到一定阈值时,网页指纹样本训练模块判断该两个网页为近似网页。
所述有害监测样本训练单元还包括人工控制端口,人工控制端口与关键字近似词汇训练模块连接,接收用户的人工控制信号,通过人工控制来判断近似词汇的相似度。
Claims (10)
1.一种基于IDC有害信息监测系统的样本训练系统,它包括爬虫系统和有害信息监测系统,有害信息监测系统通过爬虫系统获取互联网数据中心中的网页数据,并对其进行有害分析,其特征在于:所述样本训练系统包括设置在爬虫系统中的爬虫样本训练单元和设置在有害信息监测系统中的有害监测样本训练单元;
所述爬虫样本训练单元包括爬虫样本训练模块、爬虫样本数据库和主题相关度计算模块,主题相关度计算模块将爬虫系统抓取的网页信息结合爬虫样本数据库计算网页的主题相关度,并根据该主题相关度调整URL队列,过滤掉低于预设阈值的URL,并把计算得到的主题相关度值反馈给爬虫样本训练模块,爬虫样本训练模块进行训练学习后,更新爬虫样本数据库;
所述有害监测样本训练单元包括关键字近似词汇训练模块、搜索结果拟合度计算模块和有害监测样本数据库;
关键字近似词汇训练模块,有害信息监测系统根据近似匹配算法所生成的与输入字符串相关的近似词汇进行有害检测,关键字近似词汇训练模块根据搜索结果拟合度计算模块来确定搜索结果的准确性,判断近似词汇的相似度,并将有效的近似词汇更新到有害监测样本数据库中。
2.根据权利要求1所述的一种基于IDC有害信息监测系统的样本训练系统,其特征在于:所述爬虫系统包括一个或多个爬虫集群,且每个爬虫集群均包括多个爬虫结点和一个爬虫根节点,形成一个分布式的数据采集网络,其中,爬虫根节点用于对该爬虫集群中的爬虫结点进行控制和管理,并与有害信息监测系统进行相互通信,爬虫结点用于采集网络中的有害信息,所述每个爬虫结点均由以下多种模块组成:
多线程网页采集模块,包括多种网页采集通道及网页解析模块,针对不同类型的网页,通过与其相匹配的网页采集通道和网页解析模块对其进行采集;
网页库,存储多线程网页采集模块所采集的网页;
编码识别处理模块,自动识别网页的编码类型,并对其进行编码转换处理;
网页内容自动提取模块,包括动态网页内容提取模块和静态网页内容提取模块,根据敏感词库根据敏感词库抓取编码转换处理后存在有害信息网页的URL;
URL过滤器,过滤不需要下载的URL;
URL去重模块,用于判断过滤后的URL是否与URL存储器中所存储的URL一致,若一致则不再对该URL进行后续的处理;
URL调度模块,在去重后的URL队列基础上,根据该主题相关度调整URL队列,控制多线程网页采集模块下载相应的网页。
3.根据权利要求1所述的一种基于IDC有害信息监测系统的样本训练系统,其特征在于:所述有害信息监测系统包括有害信息搜索单元、自动分词单元、关键字处理单元和模糊匹配单元;
有害信息搜索单元包括本地搜索端口和网络搜索端口,本地搜索端口用于启动本地爬虫结点的搜索引擎,在本地执行该有害信息搜索任务;网络搜索端口用于启动多个爬虫结点的搜索引擎,通过多个爬虫结点同时执行该有害信息搜索任务,还通过该网络搜索端口将搜索结果返回到该本地爬虫结点;
有害信息搜索单元还包括关键字筛选器、标签字段筛选器、元数据字段筛选器和时间筛选器中的一种或多种的组合,通过多种筛选器及其组合完成精确搜索;
关键字处理单元用于生成关键字搜索指令,有害信息搜索单元根据该关键字搜索指令执行有害信息搜索任务;
模糊匹配单元用于根据输入的搜索字符串匹配相近似的近似词汇,使有害信息搜索单元对搜索字符串进行搜索的同时,还完成近似词汇的搜索,并返回近似词汇搜索结果;
自动分词单元用于将输入的搜索字符串进行自动提取关键字,使有害信息搜索单元根据该自动提取关键字完成精确搜索。
4.根据权利要求1所述的一种基于IDC有害信息监测系统的样本训练系统,其特征在于:所述爬虫结点还包括网页去重模块,用于判断网页内容是否与已下载过的网页内容一致,若一致则不再对该网页进行后续的处理,并从网页库中将其删除。
5.根据权利要求4所述的一种基于IDC有害信息监测系统的样本训练系统,其特征在于:所述网页去重模块包括指纹计算模块、指纹库和指纹去重模块,指纹计算模块根据网页指纹算法,将网页的内容经过计算生成指纹,指纹去重模块将该生成指纹与指纹库中的指纹进行对比,若存在相同或相近似的指纹,则判断该网页内容已下载过,指纹库用于存储指纹数据,且每个爬虫结点的指纹库进行同步更新。
6.根据权利要求1所述的一种基于IDC有害信息监测系统的样本训练系统,其特征在于: 所述爬虫样本训练单元还包括网页指纹样本训练模块,网页指纹样本训练模块将网页按一定规则分成多个小段,通过指纹计算模块计算每段的指纹,组成一指纹信息块,当两个网页的指纹信息块中,相同指纹数量达到一定阈值时,网页指纹样本训练模块判断该两个网页为近似网页。
7.根据权利要求1所述的一种基于IDC有害信息监测系统的样本训练系统,其特征在于:所述有害监测样本训练单元还包括搜索偏好训练模块,搜索偏好训练模块用于判别输入字符串所属的类型,并进行计数统计和偏好设置,筛选出符合偏好设置的搜索结果。
8.根据权利要求1所述的一种基于IDC有害信息监测系统的样本训练系统,其特征在于:所述有害监测样本训练单元还包括人工控制端口,人工控制端口与关键字近似词汇训练模块连接,接收用户的人工控制信号,通过人工控制来判断近似词汇的相似度。
9.根据权利要求1所述的一种基于IDC有害信息监测系统的样本训练系统,其特征在于:所述爬虫结点还包括间隔抓取模块,间隔抓取模块通过网页评分和网站权重自动生成间隔规则,并控制网页内容自动提取模块对网页进行相应的间隔抓取;
所述爬虫结点还包括抓取规则设置模块,抓取规则设置模块根据所设置的抓取规则,控制网页内容自动提取模块对网页进行相应的抓取动作;
所述爬虫结点还包括反爬虫抓取模块,当网页设置有反爬虫程序时,启动反爬虫抓取模块,对目标网页进行强制采集;
所述爬虫结点还包括采集监控模块,采集监控模块将爬虫结点的工作状态、采集任务、采集深度和日志信息转发给爬虫根节点进行汇聚处理,并接收爬虫根节点的控制。
10.根据权利要求1所述的一种基于IDC有害信息监测系统的样本训练系统,其特征在于:所述有害信息监测系统还包括自动摘要生成单元,自动摘要生成单元根据输入的搜索字符串及其近似词汇对目标网页动态的生成网页摘要;
所述自动摘要生成单元还通过关键字处理单元对网页进行关键字分析,自动提取关键字段生成网页摘要。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510343176.1A CN104899324B (zh) | 2015-06-19 | 2015-06-19 | 一种基于idc有害信息监测系统的样本训练系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510343176.1A CN104899324B (zh) | 2015-06-19 | 2015-06-19 | 一种基于idc有害信息监测系统的样本训练系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104899324A true CN104899324A (zh) | 2015-09-09 |
CN104899324B CN104899324B (zh) | 2018-09-11 |
Family
ID=54031986
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510343176.1A Active CN104899324B (zh) | 2015-06-19 | 2015-06-19 | 一种基于idc有害信息监测系统的样本训练系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104899324B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447081A (zh) * | 2015-11-04 | 2016-03-30 | 国云科技股份有限公司 | 面向云平台的一种政务舆情监控方法 |
CN108389462A (zh) * | 2018-03-29 | 2018-08-10 | 四川长虹智能制造技术有限公司 | 一种虚实结合的工厂实验室实训系统 |
CN109635159A (zh) * | 2018-12-17 | 2019-04-16 | 成都国腾实业集团有限公司 | 网络视频深度搜索及在线分析方法 |
WO2019205374A1 (zh) * | 2018-04-26 | 2019-10-31 | 平安科技(深圳)有限公司 | 模型的在线训练方法、服务器及存储介质 |
CN110852653A (zh) * | 2019-11-22 | 2020-02-28 | 成都国腾实业集团有限公司 | 一种应用于计算机编程题的自动评分系统 |
CN111222774A (zh) * | 2019-12-30 | 2020-06-02 | 广州博士信息技术研究院有限公司 | 企业数据分析方法、装置及服务器 |
CN112632355A (zh) * | 2020-11-26 | 2021-04-09 | 武汉虹旭信息技术有限责任公司 | 有害信息的碎片内容处理方法及装置 |
CN112905888A (zh) * | 2020-09-10 | 2021-06-04 | 中数通信息有限公司 | 一种基于信息监测的关键词发现方法、系统和电子设备 |
CN113254747A (zh) * | 2021-06-09 | 2021-08-13 | 南京北斗创新应用科技研究院有限公司 | 基于分布式网络爬虫的地理空间数据获取系统及方法 |
CN113641935A (zh) * | 2021-08-12 | 2021-11-12 | 厦门大学 | 一种利用数据增强提高匿名网络网页指纹监控能力的方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102073683A (zh) * | 2010-12-22 | 2011-05-25 | 四川大学 | 一种分布式的实时新闻信息采集系统 |
CN104281607A (zh) * | 2013-07-08 | 2015-01-14 | 上海锐英软件技术有限公司 | 微博热点话题分析方法 |
-
2015
- 2015-06-19 CN CN201510343176.1A patent/CN104899324B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102073683A (zh) * | 2010-12-22 | 2011-05-25 | 四川大学 | 一种分布式的实时新闻信息采集系统 |
CN104281607A (zh) * | 2013-07-08 | 2015-01-14 | 上海锐英软件技术有限公司 | 微博热点话题分析方法 |
Non-Patent Citations (4)
Title |
---|
曹忠: "一种优化的网络爬虫的设计与实现", 《电脑知识与技术》 * |
李春生: "基于WEB信息采集的分布式网络爬虫搜索引擎的研究", 《中国优秀硕士学位论文全文数据库》 * |
苏旋: "分布式网络爬虫技术的研究与实现", 《中国优秀硕士学位论文全文数据库》 * |
苏金波等: "基于关键词相关性的有害信息爬虫系统研究", 《计算机技术与发展》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447081A (zh) * | 2015-11-04 | 2016-03-30 | 国云科技股份有限公司 | 面向云平台的一种政务舆情监控方法 |
CN108389462A (zh) * | 2018-03-29 | 2018-08-10 | 四川长虹智能制造技术有限公司 | 一种虚实结合的工厂实验室实训系统 |
WO2019205374A1 (zh) * | 2018-04-26 | 2019-10-31 | 平安科技(深圳)有限公司 | 模型的在线训练方法、服务器及存储介质 |
CN109635159A (zh) * | 2018-12-17 | 2019-04-16 | 成都国腾实业集团有限公司 | 网络视频深度搜索及在线分析方法 |
CN110852653A (zh) * | 2019-11-22 | 2020-02-28 | 成都国腾实业集团有限公司 | 一种应用于计算机编程题的自动评分系统 |
CN111222774A (zh) * | 2019-12-30 | 2020-06-02 | 广州博士信息技术研究院有限公司 | 企业数据分析方法、装置及服务器 |
CN112905888A (zh) * | 2020-09-10 | 2021-06-04 | 中数通信息有限公司 | 一种基于信息监测的关键词发现方法、系统和电子设备 |
CN112632355A (zh) * | 2020-11-26 | 2021-04-09 | 武汉虹旭信息技术有限责任公司 | 有害信息的碎片内容处理方法及装置 |
CN113254747A (zh) * | 2021-06-09 | 2021-08-13 | 南京北斗创新应用科技研究院有限公司 | 基于分布式网络爬虫的地理空间数据获取系统及方法 |
CN113254747B (zh) * | 2021-06-09 | 2021-10-15 | 南京北斗创新应用科技研究院有限公司 | 基于分布式网络爬虫的地理空间数据获取系统及方法 |
CN113641935A (zh) * | 2021-08-12 | 2021-11-12 | 厦门大学 | 一种利用数据增强提高匿名网络网页指纹监控能力的方法 |
CN113641935B (zh) * | 2021-08-12 | 2023-10-20 | 厦门大学 | 一种利用数据增强提高匿名网络网页指纹监控能力的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104899324B (zh) | 2018-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104951539A (zh) | 互联网数据中心有害信息监测系统 | |
CN104899324B (zh) | 一种基于idc有害信息监测系统的样本训练系统 | |
WO2019227710A1 (zh) | 网络舆情的分析方法、装置及计算机可读存储介质 | |
CN103914478B (zh) | 网页训练方法及系统、网页预测方法及系统 | |
CN107862022B (zh) | 文化资源推荐系统 | |
CN103218431B (zh) | 一种能识别网页信息自动采集的系统 | |
CN107885793A (zh) | 一种微博热点话题分析预测方法及系统 | |
Hasan et al. | TwitterNews+: a framework for real time event detection from the Twitter data stream | |
CN104899323A (zh) | 一种用于idc有害信息监测平台的爬虫系统 | |
Wu et al. | Extracting topics based on Word2Vec and improved Jaccard similarity coefficient | |
CN113392195B (zh) | 舆情监测方法及装置、电子设备及存储介质 | |
CN103744954A (zh) | 一种词关联网模型的构建方法及其构建器 | |
Dueñas-Fernández et al. | Detecting trends on the web: A multidisciplinary approach | |
CN113918794B (zh) | 企业网络舆情效益分析方法、系统、电子设备及存储介质 | |
CN117743564B (zh) | 一种科技政策信息自动抽取与推荐方法及系统 | |
CN104965894A (zh) | 一种用于idc有害信息监测平台的数据分析系统 | |
CN114117242A (zh) | 数据查询方法和装置、计算机设备、存储介质 | |
Pandya et al. | Mated: metadata-assisted twitter event detection system | |
CN104778232B (zh) | 一种基于长查询的搜索结果的优化方法和装置 | |
CN116226494B (zh) | 一种用于信息搜索的爬虫系统及方法 | |
Wu et al. | Sub-event discovery and retrieval during natural hazards on social media data | |
CN109299400A (zh) | 一种观点抽取方法、装置及设备 | |
CN115640439A (zh) | 一种网络舆情监控的方法、系统及存储介质 | |
Zhang et al. | Detecting bad information in mobile wireless networks based on the wireless application protocol | |
Yevsieiev et al. | A Program for Analyzing the Structure of a Web site Development Using the Parsing Method Based on the Python |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |