CN104375983A

CN104375983A - 网络上传文件中敏感轨迹的检测系统

Info

Publication number: CN104375983A
Application number: CN201410668638.2A
Authority: CN
Inventors: 沈智广
Original assignee: WUXI COCIS ELECTRONICS SCIENCE AND TECHNOLOGY Co Ltd
Current assignee: WUXI COCIS ELECTRONICS SCIENCE AND TECHNOLOGY Co Ltd
Priority date: 2014-11-21
Filing date: 2014-11-21
Publication date: 2015-02-25

Abstract

本发明公开了一种网络上传文件中敏感轨迹的检测系统。该系统包括敏感词汇库、敏感轨迹集、文件监控模块、查找模块、第一判断模块、提取模块、待检测敏感轨迹形成模块、敏感轨迹匹配模块、第二判断模块、敏感轨迹确定模块，通过设置敏感轨迹集，在上传文件中查找敏感词汇并将按顺序提取敏感词汇及其当前所处字符位置，将提取的敏感词汇按提取顺序构成待检测敏感轨迹，将待检测敏感轨迹与敏感轨迹集中的每条敏感轨迹逐一匹配可以提高关联关键词的查找速度。

Description

网络上传文件中敏感轨迹的检测系统

技术领域

本发明涉及安全文件上传领域，特别是网络上传文件中敏感轨迹的检测系统。

背景技术

随着网络的开发，用户可以在网上自由发表言论，虽然这样可以获得更全面的信息，但这样也使得网络上一些不好的言论，严重的甚至会引起恐慌，这样对于网络中上传的文件要进行严格的监控。

如果各个终端服务器需要人工进行文件内容筛查，这样不仅效率很低而且浪费人力资源，为了提高效率，目前，各个终端常用的方法为在服务器上设置关键词，通过对上传文件内容进行关键词屏蔽以达到监控的效果。

如申请号“200710308404.7 ”发明名称“针对不良短消息的关键词防范方法” 本发明提供了一种针对不良短消息的关键词防范方法,包括如下步骤:(1)运营商或者业务提供商预先提供一份针对不良短消息的关键词列表,关键词列表的每个条目包括两项内容:关键词、关键词的出现概率;(2)用户获得关键词列表的全部内容或者一个子集;(3)将已获得的关键词合并到用户手机内部的关键词列表中;(4)用户手机根据关键词列表直接过滤包含关键词的短消息。本发明有效补充了原有“关键词方法”在实用性方面存在的不足。

申请号“201210479196.8”发明名称“基于关键词权值的文本过滤方法” 本申请提供了一种基于关键词权值的文本过滤方法，该方法包括以下步骤：计算关键词的权值；以及基于所计算出的关键词的权值对文本进行过滤；其中，计算关键词权值的步骤包括：判断所述关键词是否是全新关键词，如果是，则计算历史判定数据中的正确判定数据的条数和错误判定数据的条数、以及包含所述关键词的正确判定数据的条数和错误判定数据的条数；以及计算所述关键词的权值。此外，本申请还提供了一种基于关键词权值的文本过滤系统。

虽然通过单一关键词和关键词的权值可以有效的对不良信息进行屏蔽，但这样也使得一些上传文件中仅存在单一关键词且不属于不良消息的文件也同样被屏蔽。

发明内容

本发明所解决的技术问题在于提供一种网络上传文件中敏感轨迹的检测系统，该系统利用敏感轨迹匹配来实现对上传文件中的敏感词汇进行验证。

实现本发明目的的技术解决方案为：本发明网络上传文件中敏感轨迹的检测系统，具体包括：

敏感词汇库，用于存储敏感词汇；

敏感轨迹集，用于存储敏感轨迹，其中每一条敏感轨迹由至少两个敏感词汇组成，且敏感词汇具有有向性，相邻两个敏感词汇之间的字符间距阈值为M，M为正整数；

文件监控模块，用于监控有文件上传时触发查找模块工作；

查找模块，用于通过查找上传文件中是否包含敏感词汇来触发第一判断模块工作；

第一判断模块，用于判断上传文件中包含的敏感词汇的数量至少为两个时触发提取模块工作；

提取模块，用于从该上传文件中按顺序提取敏感词汇及其当前所处字符位置；

待检测敏感轨迹形成模块，用于将提取的敏感词汇按照顺序形成待检测敏感轨迹；

敏感轨迹匹配模块，用于将待检测敏感轨迹与敏感轨迹集中每一条敏感轨迹进行匹配，并在匹配成功后触发第二判断模块工作；

第二判断模块，用于判断待检测敏感轨迹中相邻两个敏感词汇之间的字符间距是否小于等于字符间距阈值M，并在确定小于等于字符间距阈值M后触发敏感轨迹确定模块工作；

敏感轨迹确定模块，用于经敏感轨迹匹配模块匹配成功且第二判断模块确定待检测敏感轨迹中相邻两个敏感词汇之间的字符间距小于等于字符间距阈值M下确定待检测敏感轨迹即为该上传文件中的敏感轨迹。

进一步的优选方案，本发明网络上传文件中敏感轨迹的检测系统中，还包括存储模块，所述存储模块用于存储敏感词汇库和敏感轨迹集。

进一步的优选方案，本发明网络上传文件中敏感轨迹的检测系统中，提取模块中按顺序提取为从文件第一个字符开始。

进一步的优选方案，本发明网络上传文件中敏感轨迹的检测系统中，字符间距阈值M为20。

进一步的优选方案，本发明网络上传文件中敏感轨迹的检测系统中，敏感轨迹匹配模块的匹配过程：敏感轨迹中包含待检测敏感轨迹即为该待检测敏感轨迹与敏感轨迹匹配成功。

本发明与现有技术相比，其显著优点：

（1）通过设置敏感轨迹集，在上传文件中查找敏感词汇并将按顺序提取敏感词汇及其当前所处字符位置，将提取的敏感词汇按提取顺序构成待检测敏感轨迹，将待检测敏感轨迹与敏感轨迹集中的每条敏感轨迹逐一匹配可以提高关联关键词的查找速度。

（2）当匹配成功后，再判断相邻两个敏感词汇之间的字符间距是否小于等于字符间距阈值M来确定待检测敏感轨迹是否为该上传文件中的敏感轨迹，可以对敏感词汇进行精确查找以确定待检测敏感轨迹是否为该上传文件中的敏感轨迹。

具体实施方式

本发明网络上传文件中敏感轨迹的检测系统，具体包括：

敏感词汇库，用于存储敏感词汇；

文件监控模块，用于监控有文件上传时触发查找模块工作；

实施例

本发明网络上传文件中敏感轨迹的检测系统，具体包括：

敏感词汇库，用于存储敏感词汇；

敏感轨迹集，用于存储敏感轨迹，其中每一条敏感轨迹由至少两个敏感词汇组成，且敏感词汇具有有向性，相邻两个敏感词汇之间的字符间距阈值为20；

存储模块，所述存储模块用于存储敏感词汇库和敏感轨迹集；

文件监控模块，用于监控有文件上传时触发查找模块工作；

提取模块，用于从该上传文件中按顺序提取敏感词汇及其当前所处字符位置，所述按顺序提取为从文件第一个字符开始；

敏感轨迹匹配模块，用于将待检测敏感轨迹与敏感轨迹集中每一条敏感轨迹进行匹配，并在匹配成功后触发第二判断模块工作，所述匹配成功为敏感轨迹中包含待检测敏感轨迹即为该待检测敏感轨迹与敏感轨迹匹配成功；

第二判断模块，用于判断待检测敏感轨迹中相邻两个敏感词汇之间的字符间距是否小于等于字符间距阈值20，并在确定小于等于字符间距阈值20后触发敏感轨迹确定模块工作；

为了进一步描述本发明网络上传文件中敏感轨迹的检测系统，提供一种检测网络上传文件中敏感轨迹的方法，具体包括以下步骤：

步骤1、设置敏感词汇库，用于存储敏感词汇；

步骤2、根据敏感词汇库中的敏感词汇设置敏感轨迹集，其中每一条敏感轨迹由至少两个敏感词汇组成，且敏感词汇具有有向性，相邻两个敏感词汇之间的字符间距阈值为M，M为正整数；

步骤3、监控上传文件，查找上传文件中是否包含敏感词汇，若包含则执行步骤4，否则该上传文件中不包含敏感轨迹；

步骤4、判断该上传文件中包含的敏感词汇的数量，当仅包含一个敏感词汇时，则该上传文件中不包含敏感轨迹；当包含两个或两个以上敏感词汇时，执行步骤5；

步骤5、从该上传文件中按顺序提取敏感词汇及其当前所处字符位置，将提取的敏感词汇按照顺序形成待检测敏感轨迹后执行步骤6；

步骤6、将步骤5中获得的待检测敏感轨迹与步骤2中的敏感轨迹集中每一条敏感轨迹进行匹配，当与其中一条敏感轨迹匹配成功后，执行步骤7；

步骤7、判断待检测敏感轨迹中相邻两个敏感词汇之间的字符间距是否小于等于字符间距阈值M，若小于等于，则判定该待检测敏感轨迹即为该上传文件中的敏感轨迹；否则，判定该上传文件中不包含敏感轨迹。

显然，本发明的上述实施例仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而这些属于本发明的实质精神所引伸出的显而易见的变化或变动仍属于本发明的保护范围。

Claims

1.一种网络上传文件中敏感轨迹的检测系统，其特征在于，具体包括：

敏感词汇库，用于存储敏感词汇；

文件监控模块，用于监控有文件上传时触发查找模块工作；

2.根据权利要求1所述网络上传文件中敏感轨迹的检测系统，其特征在于，还包括存储模块，所述存储模块用于存储敏感词汇库和敏感轨迹集。

3.根据权利要求1所述网络上传文件中敏感轨迹的检测系统，其特征在于，提取模块中按顺序提取为从文件第一个字符开始。

4.根据权利要求1所述网络上传文件中敏感轨迹的检测系统，其特征在于，字符间距阈值M为20。

5.根据权利要求1所述网络上传文件中敏感轨迹的检测系统，其特征在于，敏感轨迹匹配模块的匹配过程：敏感轨迹中包含待检测敏感轨迹即为该待检测敏感轨迹与敏感轨迹匹配成功。