CN103279476A

CN103279476A - 一种web应用系统敏感文字的检测方法及系统

Info

Publication number: CN103279476A
Application number: CN2013101248391A
Authority: CN
Inventors: 陈剑锋; 杨永滨
Original assignee: SHENZHEN E-LINK INFORMATION TECHNOLOGY Co Ltd
Current assignee: SHENZHEN E-LINK INFORMATION TECHNOLOGY Co Ltd
Priority date: 2013-04-11
Filing date: 2013-04-11
Publication date: 2013-09-04
Anticipated expiration: 2033-04-11
Also published as: CN103279476B

Abstract

本发明提供了一种WEB应用系统敏感文字的检测方法及系统，该方法及系统对需要检测的网站内容进行抓取和使用预设的敏感文字库对网站内容进行敏感文字模糊检测；通过敏感文字语意分析对检测出的敏感文字进行分析，并将其进行自动分词，生成敏感文字分词列表；将该列表中的敏感文字分词与敏感文字库中的敏感文字进行比对并再次进行敏感文字模糊检测，形成最终敏感词文字分词列表，得出检测结果。本发明提供的方法和系统可以自动提取网页内容，并运用敏感文字语意分析和模糊检测等技术，从而可以更好的进行敏感文字的检测及其信息的提取，为网站安全信息的维护提供方便。

Description

一种WEB应用系统敏感文字的检测方法及系统

技术领域

本发明涉及网络安全领域，特别涉及一种WEB应用系统敏感文字的检测方法及系统。

背景技术

网站敏感文字检测是内容审计的一种，主要是对网站的页面内容进行敏感文字检测，从而解决网站内容安全的业务问题。在现有技术中一般包括基于网络层的技术和基于应用层的技术。

基于网络层的技术适用于网络安全内容审计，主要应用于政府、企业等单位的内部网络的数据、流量和内容的监控、分析、内容审计功能，可对网站访问、邮件收发、远程终端访问、数据库访问、数据传输、文件共享等提供完整的内容检测、信息还原功能；并可自定义敏感文字库，进行细粒度的审计追踪。

基于应用层的技术主要是通过抓取网页的内容进行分析，通常命名为网络爬虫。网络爬虫是通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站，那么网络爬虫就可以用这个原理把互联网上所有的网页都抓取下来。

目前在网站内容监控、网站信息收集等方面得到了运用，概述如下：网站内容监控：实时或定时监控网的内容，主要涉及到舆情，舆情是指在一定的社会空间内，围绕中介性社会事件的发生、发展和变化，作为主体的民众对作为客体的社会管理者及其政治取向产生和持有的社会政治态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。对于客户与客户有关的突发事件，系统提供从全网信息的爬取、定位、分析、跟踪、报告等功能，从而给客户解决舆情早发现的问题。通过舆情早发现，为客户争取舆情早处理的时间。同时，通过对舆情阶段的预判，为客户解决舆情、应对舆情提供一定的建议和资料收集。此外，在舆情处理过程中，系统支持协同处理，支持多个部门协同应对一个舆情，以解决目前在舆情处理中，信息不对称、处理应对手段不一致、各自发声的问题。网站信息收集：无论是对其政府、企业还是个人，都有其关注的网站信息。以地方政府为例，民生问题、群众呼声、重大政策的民意、重大工程的宣传导向、泄密等，都是政府需要收集的。

但是现有技术中的基于网络层的内容审计主要在内部网络中运用，很少涉及到互联网上的网站，并且其主要做操作行为的记录和分析，不能实现复杂的，高精确的敏感文字检测，偏差和误报率太大；而基于应用层的敏感文字检测，没有从内容和上下文角度对语意进行分析；对敏感文字库的完善和积累做得不好，出现误报和漏报的概率大。

因此现有技术还有待进一步的改进。

发明内容

本发明的目的是，针对上述现有技术存在的缺陷提供了一种WEB应用系统敏感文字的检测方法及系统，以便于实现复杂的高精确度的网站敏感文字的检测，为网站的信息内容监控及信息收集提供方便。

本发明的技术方案如下:

一种WEB应用系统敏感文字的检测方法，其中，包括以下方法步骤：

S1. 每隔一预定的时间对需要进行检测的网站进行检测，抓取检测网站的首页内容及与首页链接的第一层和第二层的内容；

S2. 使用预先设置的敏感文字库对抓取到的网站内容进行第一次模糊检测，并使用敏感文字语意分析自动对第一次模糊检测出的文字进行语意分析，判断其是否为敏感文字，并将判定出的敏感文字进行自动分词，生成初步敏感文字分词列表；

S3.将形成的初步敏感文字分词列表中的敏感文字分词与所述敏感文字库中的敏感文字进行比对，过滤掉非敏感文字的分词，再次使用敏感文字语意分析对过滤后的敏感文字分词列表中的分词进行语意分析，并对敏感文字进行统一，形成最终敏感词文字分词列表；

S4.利用最终敏感词文字分词列表对抓取到的网站内容进行第二次模糊检测，并记录其中敏感文字库中相同的敏感文字和与敏感文字库中敏感文字语意相同或者相似的模糊敏感文字，使用敏感文字语意分析对模糊敏感文字进行语意分析，判断其是否为敏感文字，并将判定为敏感文字的模糊敏感文字汇总到敏感文字中；

S5.汇总敏感文字及出现敏感文字的网络地址，并将汇总结果进行输出显示。

所述WEB应用系统敏感文字的检测方法，其中，在上述步骤S1中抓取到的页面内容以原始格式存于硬盘，页面的内容包含js脚本、链接、图片和文字内容信息。

所述WEB应用系统敏感文字的检测方法，其中，在步骤S5中还包括：将所述敏感文字库相对比敏感文字分词列表中不存在的敏感文字分词补入到敏感文字库中，完成敏感文字库的自动更新。

所述WEB应用系统敏感文字的检测方法，其中，将所述敏感文字库中不存在的敏感文字分词通过自动添加或者手动添加的方式补入敏感文字库中。

所述WEB应用系统敏感文字的检测方法，其中，在步骤S5中所述输出显示方法包括：使用列表的形式链接敏感文字及其对应的网站地址并输出文本格式的检测报告。

一种WEB应用系统敏感文字的检测系统，其中，所述系统包括以下模块：

网站内容抓取模块，用于每隔一预定的时间对需要进行检测的网站进行检测，抓取检测网站的首页内容及与首页链接的第一层和第二层的内容；

第一次模糊检测模块，使用预先设置的敏感文字库对抓取到的网站内容进行第一次模糊检测并使用敏感文字语意分析自动对第一次模糊检测出的文字进行语意分析，判断其是否为敏感文字，并将这些敏感文字进行自动分词，生成初步敏感文字分词列表。

第二次模糊检测模块，将形成的初步敏感文字分词列表中的敏感文字分词与所述敏感文字库中的敏感文字进行比对，过滤掉非敏感文字的分词，再次使用敏感文字语意分析对网站内容进行第二次模糊检测，并将敏感文字进行统一，形成最终敏感词文字分词列表。

敏感文字检测分析模块，利用最终敏感词文字分词列表对抓取到的网站内容进行第二次模糊检测，并记录其中敏感文字库中相同的敏感文字和与敏感文字库中敏感文字语意相同或者相似的模糊敏感文字，使用敏感文字语意分析对模糊敏感文字进行语意分析，判断其是否为敏感文字，并将判定为敏感文字的模糊敏感文字汇总到敏感文字中。

检测结果输出模块，汇总敏感文字及出现敏感文字的网络地址，并将汇总结果进行输出显示。

所述WEB应用系统敏感文字的检测系统，其中，还包括敏感文字库更新模块，用于将所述敏感文字库相对比最终敏感文字分词列表中不存在的敏感文字分词补入到敏感文字库中，完成敏感文字库的自动更新。

所述WEB应用系统敏感文字的检测系统，其中，所述敏感文字库更新模块中将所述敏感文字库中不存在的敏感文字分词通过自动添加或者手动添加的方式补入敏感文字库中。

所述WEB应用系统敏感文字的检测系统，其中，检测结果输出模块中使用列表的形式链接敏感文字及其对应的网站地址并输出文本格式的检测报告。

本发明的有益效果为：本发明提供了一种WEB应用系统敏感文字的检测方法及系统，该方法及系统通过自动抓取网站内容信息，并使用其预设的敏感文字库、敏感文字语意分析和敏感文字模糊配备等技术来对网站内容中所包含的敏感词进行提取，从而不仅可以实现复杂的高精确度的网站敏感文字的检测，及时发现网站中所包含的敏感文字并及时进行处理，并且敏感文字库可以自动更新，敏感文字的检测会更加的准确。

附图说明

图1为本发明一种WEB应用系统敏感文字的检测方法流程图。

图2为本发明一种WEB应用系统敏感文字的检测方法最佳实施例的示意图。

图3为本发明一种WEB应用系统敏感文字的检测系统结构原理图。

具体实施方式

本发明提供了一种WEB应用系统敏感文字的检测方法及系统，为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。在本实施例中所述WEB应用系统为网站。

如图1所示，本发明提供了WEB应用系统敏感文字的检测系统，该方法包括以下方法步骤：

S1. 每隔一预定的时间对需要进行检测的网站进行检测，抓取检测网站的首页内容及与首页链接的第一层和第二层的内容。

首先设置在网站上抓取网站内容的敏感文字获取规则，在现有技术中的网络爬虫是通过网页的链接地址来寻找网页，一直循环下去，直到把这个网站所有的网页都抓取完为止。在具体的应用实施过程中，为了更快的获取网站内容，可以通过预先设置的信息获取规则来省略掉一些不需要进行内容获取的网页，来减少抓取内容的工作量。在本方法中使用的敏感文字获取规则设定为：每30分钟获取一次，获取的网站深度涉及到待检测网站的首页、首页上链接的第一层和第二层，可以想到的是，周期可以根据需要设置为更长或者更短一点的时间，根据检测的实际需要网站检测的深度可以仅仅为首页或者该网站的全部网页。除此之外，还可以设置为过滤该网站上不可能出现敏感词的网页，比如：政府或者学校网站上的限制自由发表言论的页面。

S2. 使用预先设置的敏感文字库对抓取到的网站内容进行第一次模糊检测，并使用敏感文字语意分析自动对第一次模糊检测出的文字进行语意分析，判断其是否为敏感文字，并将判定出的敏感文字进行自动分词，生成初步敏感文字分词列表。

预设敏感文字库，此敏感文字库为根据日常的经验所建，因此其中包含的敏感文字为常见到的敏感文字，并且该敏感文字库由专家组专业维护，定时检查敏感文字库中的敏感文字。

所述敏感文字包括敏感词、敏感词组和由敏感词组成的简单句子。

在对网站进行检测时，首先需要确定进行检测的网站地址，然后使用上述步骤中预设的信息获取规则开始对该网站内容进行抓取，使用文字规则过滤引擎和预设的敏感文字库中的信息对抓取到的网站内容进行第一次敏感文字模糊检测，并且将网站网页中所包含的内容与敏感文字库中的敏感文字进行匹配，保存匹配结果并将匹配出的敏感文字做进一步的分析。

使用敏感文字语意分析自动对匹配出的敏感文字进行分析，在此次分析中采用内容语意和上下文语意相结合进行，综合判断出上述文字内容是否为敏感文字，并在所述敏感文字库中找出与判断出为敏感文字语意相似的敏感文字，将判断为敏感文字的文字与从敏感文字库中获取的与其相似的敏感文字进行汇总统一，并将统一后的敏感文字进行自动分词，并将分词结果进行汇总统一，除去其中重复的分词，生成初步的敏感文字分词列表。

S3. 将形成的初步敏感文字分词列表中的敏感文字分词与所述敏感文字库中的敏感文字进行比对，过滤掉非敏感文字的分词，再次使用敏感文字语意分析对过滤后的敏感文字分词列表中的分词进行语意分析，并对敏感文字进行统一，形成最终敏感词文字分词列表。

将上述步骤S2中形成的初步敏感文字分词列表中的敏感文字分词与敏感文字库中的敏感文字进行比对，过滤掉其中确认为非敏感文字的分词，再次使用敏感文字语意分析对网站内容进行第二次模糊检测，找出在第一次敏感文字模糊检测中未检测出的敏感文字，并新检测出的敏感文字与初步敏感文字分词列表中的敏感文字分词进行统一，形成最终的敏感词文字分词列表。

S4. 利用最终敏感词文字分词列表对抓取到的网站内容进行第二次模糊检测，并记录其中敏感文字库中相同的敏感文字和与敏感文字库中敏感文字语意相同或者相似的模糊敏感文字，使用敏感文字语意分析对模糊敏感文字进行语意分析，判断其是否为敏感文字，并将判定为敏感文字的模糊敏感文字汇总到敏感文字中。

使用最终的敏感文字分词列表对网站内容进行检测，找出上述步骤中最终敏感文字分词列表中敏感文字分词所对应的页面，记录所在页面的敏感文字，并归一相同的页面，将同一页面出现的敏感文字汇总在一起，并将与所述最终的敏感文字分词列表与敏感文字库中的敏感文字进行比对，将其中与敏感文字库中敏感文字语意相似或者相近的模糊敏感文字，对其使用敏感文字语意分析，判断其是否为敏感文字，将判定为敏感文字的模糊敏感文字汇总到敏感文字中，并对检测出的敏感文字进行统一。

S5. 汇总敏感文字及出现敏感文字的网络地址，并将汇总结果进行输出显示。

所述输出显示的较佳输出方式可以为使用列表的形式链接敏感文字及其对应的网站地址并输出文本格式的检测报告。用户可以通过点击敏感文字链接来查看敏感文字对应网页中的内容信息，或者可以通过点击敏感文字链接来查看该敏感文字所出现的网站地址列表。在输出的检测报告中包含敏感文字及其对应的网站地址，并对该内容进行评价分析，得出该敏感文字出现的次数，及其所对应网页的个数，该检测报告支持敏感文字库、网站地址和敏感文字所在页面输出文本格式的报告。

在上述敏感文字的检测方法的基础上，还可以有以下改进：

在上述步骤S1中抓取到的页面内容以原始格式存于硬盘，在进行步骤S5时，可以从该硬盘中提取有敏感文字的页面及其文字内容，对该网站的页面内容进行维护。所述页面的内容包含js脚本、链接、图片和文字内容信息。

在检测的过程中通过语意分析，可以获取出预设敏感文字库中不存在的敏感文字，所以在步骤S5中还可以包括：将所述敏感文字库相对比敏感文字分词列表中不存在的敏感文字分词补入到敏感文字库中，完成敏感文字库的自动更新，将所述敏感文字库中不存在的敏感文字分词通过自动添加或者手动添加的方式补入敏感文字库中。

本发明提供了一种WEB应用系统敏感文字的检测方法，该方法通过使用敏感文字库及上下文语意分析对抓取到的网站内容进行敏感文字模糊检测，可以自动的获取页面文字和自动生成敏感文字分词列表，自动智能的对敏感文字分词列表中的敏感分词进行分析，从而可以取得更为精确的敏感文字检测结果，为网站信息检测，信息收集提供了方便。

如图2所述为本发明提供WEB应用系统敏感文字的检测方法最佳实施例的应用示意图，在具体的应用上，在需要开始进行网站敏感文字的检测时，在步骤H1中需要预先设置抓取网站内容信息的抓取规则和根据经验设定一敏感文字库，在确定检测网站地址之后，根据预设的抓取规则进行网站内容抓取；将抓取到的内容与预先设置的敏感文字库中保存的敏感文字进行比对，从中抽取敏感文字，即第一次模糊检测，对检测出的敏感文字其进行敏感文字语意分析，并从敏感文字库中找出与敏感文字相似或者相近的敏感文字，自动将获取的敏感文字进行分词，得出初步的敏感文字分词列表，并对其进行统一，再次进行敏感文字模糊检测，找出在第一次模糊检测时未检测出的敏感文字，形成最终敏感文字分词列表，并在步骤H2根据该列表中的敏感文字分词对敏感文字库进行自动或者手动更新，步骤H3中输出检测结果，完成本次网站敏感文字的检测。

本发明还提供了一种WEB应用系统敏感文字的检测系统，如图3所示，其中，所述系统包括以下模块：

网站内容抓取模块10，用于每隔一预定的时间对需要进行检测的网站进行检测，抓取检测网站的首页内容及与首页链接的第一层和第二层的内容；其功能与上述方法步骤中S1相同。

第一次模糊检测模块20，使用预先设置的敏感文字库对抓取到的网站内容进行第一次模糊检测并使用敏感文字语意分析自动对第一次模糊检测出的文字进行语意分析，判断其是否为敏感文字，并将这些敏感文字进行自动分词，生成初步敏感文字分词列表；其功能与上述方法步骤中S2相同。

第二次模糊检测模块30，将形成的初步敏感文字分词列表中的敏感文字分词与所述敏感文字库中的敏感文字进行比对，过滤掉非敏感文字的分词，再次使用敏感文字语意分析对网站内容进行第二次模糊检测，并将敏感文字进行统一，形成最终敏感词文字分词列表；其功能与上述方法步骤中S3相同。

敏感文字检测分析模块40，利用最终敏感词文字分词列表对抓取到的网站内容进行第二次模糊检测，并记录其中敏感文字库中相同的敏感文字和与敏感文字库中敏感文字语意相同或者相似的模糊敏感文字，使用敏感文字语意分析对模糊敏感文字进行语意分析，判断其是否为敏感文字，并将判定为敏感文字的模糊敏感文字汇总到敏感文字中。其功能与上述方法步骤中S4相同。

检测结果输出模块50，汇总敏感文字及出现敏感文字的网络地址，并将汇总结果进行输出显示。其功能与上述方法步骤中S5相同。

在上述所述检测系统的基础上，还可以有以下改进：

所述WEB应用系统敏感文字的检测系统中还包括一敏感文字库更新模块，用于将所述敏感文字库相对比最终敏感文字分词列表中不存在的敏感文字分词补入到敏感文字库中，完成敏感文字库的自动更新。将所述敏感文字库中不存在的敏感文字分词通过自动添加或者手动添加的方式补入敏感文字库中。

在上述检测结果输出模块中使用列表的形式链接敏感文字及其对应的网站地址并输出文本格式的检测报告。

本发明提供的一种WEB应用系统敏感文字的检测方法及系统，该方法及系统根据预先设置的信息获取规则对需要检测的网站内容进行抓取，并使用预先设置敏感文字库对抓取到的网站内容进行第一次模糊检测；使用敏感文字语意分析自动对模糊检测出的文字进行语意分析，并在所述敏感文字库中找出与判断为敏感文字的文字语意相近或相似的敏感文字，并将这些敏感文字进行自动分词，生成初步敏感文字分词列表；将形成的初步敏感文字分词列表中的敏感文字分词与预先设置的敏感文字库中的敏感文字进行比对，过滤掉非敏感文字的分词，再次对该网站内容进行敏感文字模糊检测，形成最终敏感词文字分词列表，将检测结果进行输出显示。本发明提供的方法和系统可以自动提取网页内容，并运用敏感文字语意分析和模糊检测等技术，根据检测结果自动智能的完善敏感文字分词列表及敏感文字库，提高了敏感文字检测的准确度，从而可以更好的进行敏感文字的检测及其信息的提取，为网站安全信息的维护提供方便。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种WEB应用系统敏感文字的检测方法，其特征在于，包括以下方法步骤：

2.根据权利要求1所述WEB应用系统敏感文字的检测方法，其特征在于，在上述步骤S1中抓取到的页面内容以原始格式存于硬盘，页面的内容包含js脚本、链接、图片和文字内容信息。

3.根据权利要求1所述WEB应用系统敏感文字的检测方法，其特征在于，在步骤S5中还包括：将所述敏感文字库相对比敏感文字分词列表中不存在的敏感文字分词补入到敏感文字库中，完成敏感文字库的自动更新。

4.根据权利要求3所述WEB应用系统敏感文字的检测方法，其特征在于，将所述敏感文字库中不存在的敏感文字分词通过自动添加或者手动添加的方式补入敏感文字库中。

5.根据权利要求1所述WEB应用系统敏感文字的检测方法，其特征在于，在步骤S5中所述输出显示方法包括：使用列表的形式链接敏感文字及其对应的网站地址并输出文本格式的检测报告。

6.一种WEB应用系统敏感文字的检测系统，其特征在于，所述系统包括以下模块：

第一次模糊检测模块，使用预先设置的敏感文字库对抓取到的网站内容进行第一次模糊检测并使用敏感文字语意分析自动对第一次模糊检测出的文字进行语意分析，判断其是否为敏感文字，并将这些敏感文字进行自动分词，生成初步敏感文字分词列表；

第二次模糊检测模块，将形成的初步敏感文字分词列表中的敏感文字分词与所述敏感文字库中的敏感文字进行比对，过滤掉非敏感文字的分词，再次使用敏感文字语意分析对网站内容进行第二次模糊检测，并将敏感文字进行统一，形成最终敏感词文字分词列表；

敏感文字检测分析模块，利用最终敏感词文字分词列表对抓取到的网站内容进行第二次模糊检测，并记录其中敏感文字库中相同的敏感文字和与敏感文字库中敏感文字语意相同或者相似的模糊敏感文字，使用敏感文字语意分析对模糊敏感文字进行语意分析，判断其是否为敏感文字，并将判定为敏感文字的模糊敏感文字汇总到敏感文字中；

7.根据权利要求6所述WEB应用系统敏感文字的检测系统，其特征在于，还包括敏感文字库更新模块，用于将所述敏感文字库相对比最终敏感文字分词列表中不存在的敏感文字分词补入到敏感文字库中，完成敏感文字库的自动更新。

8.根据权利要求7所述WEB应用系统敏感文字的检测系统，其特征在于，所述敏感文字库更新模块中将所述敏感文字库中不存在的敏感文字分词通过自动添加或者手动添加的方式补入敏感文字库中。

9.根据权利要求6所述WEB应用系统敏感文字的检测系统，其特征在于，检测结果输出模块中使用列表的形式链接敏感文字及其对应的网站地址并输出文本格式的检测报告。