CN104375983A - 网络上传文件中敏感轨迹的检测系统 - Google Patents
网络上传文件中敏感轨迹的检测系统 Download PDFInfo
- Publication number
- CN104375983A CN104375983A CN201410668638.2A CN201410668638A CN104375983A CN 104375983 A CN104375983 A CN 104375983A CN 201410668638 A CN201410668638 A CN 201410668638A CN 104375983 A CN104375983 A CN 104375983A
- Authority
- CN
- China
- Prior art keywords
- responsive
- track
- module
- detected
- vocabulary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种网络上传文件中敏感轨迹的检测系统。该系统包括敏感词汇库、敏感轨迹集、文件监控模块、查找模块、第一判断模块、提取模块、待检测敏感轨迹形成模块、敏感轨迹匹配模块、第二判断模块、敏感轨迹确定模块,通过设置敏感轨迹集,在上传文件中查找敏感词汇并将按顺序提取敏感词汇及其当前所处字符位置,将提取的敏感词汇按提取顺序构成待检测敏感轨迹,将待检测敏感轨迹与敏感轨迹集中的每条敏感轨迹逐一匹配可以提高关联关键词的查找速度。
Description
技术领域
本发明涉及安全文件上传领域,特别是网络上传文件中敏感轨迹的检测系统。
背景技术
随着网络的开发,用户可以在网上自由发表言论,虽然这样可以获得更全面的信息,但这样也使得网络上一些不好的言论,严重的甚至会引起恐慌,这样对于网络中上传的文件要进行严格的监控。
如果各个终端服务器需要人工进行文件内容筛查,这样不仅效率很低而且浪费人力资源,为了提高效率,目前,各个终端常用的方法为在服务器上设置关键词,通过对上传文件内容进行关键词屏蔽以达到监控的效果。
如申请号“200710308404.7 ”发明名称“针对不良短消息的关键词防范方法” 本发明提供了一种针对不良短消息的关键词防范方法,包括如下步骤:(1)运营商或者业务提供商预先提供一份针对不良短消息的关键词列表,关键词列表的每个条目包括两项内容:关键词、关键词的出现概率;(2)用户获得关键词列表的全部内容或者一个子集;(3)将已获得的关键词合并到用户手机内部的关键词列表中;(4)用户手机根据关键词列表直接过滤包含关键词的短消息。本发明有效补充了原有“关键词方法”在实用性方面存在的不足。
申请号“201210479196.8”发明名称“基于关键词权值的文本过滤方法” 本申请提供了一种基于关键词权值的文本过滤方法,该方法包括以下步骤:计算关键词的权值;以及基于所计算出的关键词的权值对文本进行过滤;其中,计算关键词权值的步骤包括:判断所述关键词是否是全新关键词,如果是,则计算历史判定数据中的正确判定数据的条数和错误判定数据的条数、以及包含所述关键词的正确判定数据的条数和错误判定数据的条数;以及计算所述关键词的权值。此外,本申请还提供了一种基于关键词权值的文本过滤系统。
虽然通过单一关键词和关键词的权值可以有效的对不良信息进行屏蔽,但这样也使得一些上传文件中仅存在单一关键词且不属于不良消息的文件也同样被屏蔽。
发明内容
本发明所解决的技术问题在于提供一种网络上传文件中敏感轨迹的检测系统,该系统利用敏感轨迹匹配来实现对上传文件中的敏感词汇进行验证。
实现本发明目的的技术解决方案为:本发明网络上传文件中敏感轨迹的检测系统,具体包括:
敏感词汇库,用于存储敏感词汇;
敏感轨迹集,用于存储敏感轨迹,其中每一条敏感轨迹由至少两个敏感词汇组成,且敏感词汇具有有向性,相邻两个敏感词汇之间的字符间距阈值为M,M为正整数;
文件监控模块,用于监控有文件上传时触发查找模块工作;
查找模块,用于通过查找上传文件中是否包含敏感词汇来触发第一判断模块工作;
第一判断模块,用于判断上传文件中包含的敏感词汇的数量至少为两个时触发提取模块工作;
提取模块,用于从该上传文件中按顺序提取敏感词汇及其当前所处字符位置;
待检测敏感轨迹形成模块,用于将提取的敏感词汇按照顺序形成待检测敏感轨迹;
敏感轨迹匹配模块,用于将待检测敏感轨迹与敏感轨迹集中每一条敏感轨迹进行匹配,并在匹配成功后触发第二判断模块工作;
第二判断模块,用于判断待检测敏感轨迹中相邻两个敏感词汇之间的字符间距是否小于等于字符间距阈值M,并在确定小于等于字符间距阈值M后触发敏感轨迹确定模块工作;
敏感轨迹确定模块,用于经敏感轨迹匹配模块匹配成功且第二判断模块确定待检测敏感轨迹中相邻两个敏感词汇之间的字符间距小于等于字符间距阈值M下确定待检测敏感轨迹即为该上传文件中的敏感轨迹。
进一步的优选方案,本发明网络上传文件中敏感轨迹的检测系统中,还包括存储模块,所述存储模块用于存储敏感词汇库和敏感轨迹集。
进一步的优选方案,本发明网络上传文件中敏感轨迹的检测系统中,提取模块中按顺序提取为从文件第一个字符开始。
进一步的优选方案,本发明网络上传文件中敏感轨迹的检测系统中,字符间距阈值M为20。
进一步的优选方案,本发明网络上传文件中敏感轨迹的检测系统中,敏感轨迹匹配模块的匹配过程:敏感轨迹中包含待检测敏感轨迹即为该待检测敏感轨迹与敏感轨迹匹配成功。
本发明与现有技术相比,其显著优点:
(1)通过设置敏感轨迹集,在上传文件中查找敏感词汇并将按顺序提取敏感词汇及其当前所处字符位置,将提取的敏感词汇按提取顺序构成待检测敏感轨迹,将待检测敏感轨迹与敏感轨迹集中的每条敏感轨迹逐一匹配可以提高关联关键词的查找速度。
(2)当匹配成功后,再判断相邻两个敏感词汇之间的字符间距是否小于等于字符间距阈值M来确定待检测敏感轨迹是否为该上传文件中的敏感轨迹,可以对敏感词汇进行精确查找以确定待检测敏感轨迹是否为该上传文件中的敏感轨迹。
具体实施方式
本发明网络上传文件中敏感轨迹的检测系统,具体包括:
敏感词汇库,用于存储敏感词汇;
敏感轨迹集,用于存储敏感轨迹,其中每一条敏感轨迹由至少两个敏感词汇组成,且敏感词汇具有有向性,相邻两个敏感词汇之间的字符间距阈值为M,M为正整数;
文件监控模块,用于监控有文件上传时触发查找模块工作;
查找模块,用于通过查找上传文件中是否包含敏感词汇来触发第一判断模块工作;
第一判断模块,用于判断上传文件中包含的敏感词汇的数量至少为两个时触发提取模块工作;
提取模块,用于从该上传文件中按顺序提取敏感词汇及其当前所处字符位置;
待检测敏感轨迹形成模块,用于将提取的敏感词汇按照顺序形成待检测敏感轨迹;
敏感轨迹匹配模块,用于将待检测敏感轨迹与敏感轨迹集中每一条敏感轨迹进行匹配,并在匹配成功后触发第二判断模块工作;
第二判断模块,用于判断待检测敏感轨迹中相邻两个敏感词汇之间的字符间距是否小于等于字符间距阈值M,并在确定小于等于字符间距阈值M后触发敏感轨迹确定模块工作;
敏感轨迹确定模块,用于经敏感轨迹匹配模块匹配成功且第二判断模块确定待检测敏感轨迹中相邻两个敏感词汇之间的字符间距小于等于字符间距阈值M下确定待检测敏感轨迹即为该上传文件中的敏感轨迹。
实施例
本发明网络上传文件中敏感轨迹的检测系统,具体包括:
敏感词汇库,用于存储敏感词汇;
敏感轨迹集,用于存储敏感轨迹,其中每一条敏感轨迹由至少两个敏感词汇组成,且敏感词汇具有有向性,相邻两个敏感词汇之间的字符间距阈值为20;
存储模块,所述存储模块用于存储敏感词汇库和敏感轨迹集;
文件监控模块,用于监控有文件上传时触发查找模块工作;
查找模块,用于通过查找上传文件中是否包含敏感词汇来触发第一判断模块工作;
第一判断模块,用于判断上传文件中包含的敏感词汇的数量至少为两个时触发提取模块工作;
提取模块,用于从该上传文件中按顺序提取敏感词汇及其当前所处字符位置,所述按顺序提取为从文件第一个字符开始;
待检测敏感轨迹形成模块,用于将提取的敏感词汇按照顺序形成待检测敏感轨迹;
敏感轨迹匹配模块,用于将待检测敏感轨迹与敏感轨迹集中每一条敏感轨迹进行匹配,并在匹配成功后触发第二判断模块工作,所述匹配成功为敏感轨迹中包含待检测敏感轨迹即为该待检测敏感轨迹与敏感轨迹匹配成功;
第二判断模块,用于判断待检测敏感轨迹中相邻两个敏感词汇之间的字符间距是否小于等于字符间距阈值20,并在确定小于等于字符间距阈值20后触发敏感轨迹确定模块工作;
敏感轨迹确定模块,用于经敏感轨迹匹配模块匹配成功且第二判断模块确定待检测敏感轨迹中相邻两个敏感词汇之间的字符间距小于等于字符间距阈值M下确定待检测敏感轨迹即为该上传文件中的敏感轨迹。
为了进一步描述本发明网络上传文件中敏感轨迹的检测系统,提供一种检测网络上传文件中敏感轨迹的方法,具体包括以下步骤:
步骤1、设置敏感词汇库,用于存储敏感词汇;
步骤2、根据敏感词汇库中的敏感词汇设置敏感轨迹集,其中每一条敏感轨迹由至少两个敏感词汇组成,且敏感词汇具有有向性,相邻两个敏感词汇之间的字符间距阈值为M,M为正整数;
步骤3、监控上传文件,查找上传文件中是否包含敏感词汇,若包含则执行步骤4,否则该上传文件中不包含敏感轨迹;
步骤4、判断该上传文件中包含的敏感词汇的数量,当仅包含一个敏感词汇时,则该上传文件中不包含敏感轨迹;当包含两个或两个以上敏感词汇时,执行步骤5;
步骤5、从该上传文件中按顺序提取敏感词汇及其当前所处字符位置,将提取的敏感词汇按照顺序形成待检测敏感轨迹后执行步骤6;
步骤6、将步骤5中获得的待检测敏感轨迹与步骤2中的敏感轨迹集中每一条敏感轨迹进行匹配,当与其中一条敏感轨迹匹配成功后,执行步骤7;
步骤7、判断待检测敏感轨迹中相邻两个敏感词汇之间的字符间距是否小于等于字符间距阈值M,若小于等于,则判定该待检测敏感轨迹即为该上传文件中的敏感轨迹;否则,判定该上传文件中不包含敏感轨迹。
显然,本发明的上述实施例仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而这些属于本发明的实质精神所引伸出的显而易见的变化或变动仍属于本发明的保护范围。
Claims (5)
1.一种网络上传文件中敏感轨迹的检测系统,其特征在于,具体包括:
敏感词汇库,用于存储敏感词汇;
敏感轨迹集,用于存储敏感轨迹,其中每一条敏感轨迹由至少两个敏感词汇组成,且敏感词汇具有有向性,相邻两个敏感词汇之间的字符间距阈值为M,M为正整数;
文件监控模块,用于监控有文件上传时触发查找模块工作;
查找模块,用于通过查找上传文件中是否包含敏感词汇来触发第一判断模块工作;
第一判断模块,用于判断上传文件中包含的敏感词汇的数量至少为两个时触发提取模块工作;
提取模块,用于从该上传文件中按顺序提取敏感词汇及其当前所处字符位置;
待检测敏感轨迹形成模块,用于将提取的敏感词汇按照顺序形成待检测敏感轨迹;
敏感轨迹匹配模块,用于将待检测敏感轨迹与敏感轨迹集中每一条敏感轨迹进行匹配,并在匹配成功后触发第二判断模块工作;
第二判断模块,用于判断待检测敏感轨迹中相邻两个敏感词汇之间的字符间距是否小于等于字符间距阈值M,并在确定小于等于字符间距阈值M后触发敏感轨迹确定模块工作;
敏感轨迹确定模块,用于经敏感轨迹匹配模块匹配成功且第二判断模块确定待检测敏感轨迹中相邻两个敏感词汇之间的字符间距小于等于字符间距阈值M下确定待检测敏感轨迹即为该上传文件中的敏感轨迹。
2.根据权利要求1所述网络上传文件中敏感轨迹的检测系统,其特征在于,还包括存储模块,所述存储模块用于存储敏感词汇库和敏感轨迹集。
3.根据权利要求1所述网络上传文件中敏感轨迹的检测系统,其特征在于,提取模块中按顺序提取为从文件第一个字符开始。
4.根据权利要求1所述网络上传文件中敏感轨迹的检测系统,其特征在于,字符间距阈值M为20。
5.根据权利要求1所述网络上传文件中敏感轨迹的检测系统,其特征在于,敏感轨迹匹配模块的匹配过程:敏感轨迹中包含待检测敏感轨迹即为该待检测敏感轨迹与敏感轨迹匹配成功。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410668638.2A CN104375983A (zh) | 2014-11-21 | 2014-11-21 | 网络上传文件中敏感轨迹的检测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410668638.2A CN104375983A (zh) | 2014-11-21 | 2014-11-21 | 网络上传文件中敏感轨迹的检测系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104375983A true CN104375983A (zh) | 2015-02-25 |
Family
ID=52554906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410668638.2A Withdrawn CN104375983A (zh) | 2014-11-21 | 2014-11-21 | 网络上传文件中敏感轨迹的检测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104375983A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569295A (zh) * | 2019-08-02 | 2019-12-13 | 杭州安恒信息技术股份有限公司 | 通过定位关键词提高文档预警的方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101477544A (zh) * | 2009-01-12 | 2009-07-08 | 腾讯科技(深圳)有限公司 | 一种识别垃圾文本的方法和系统 |
US20100299322A1 (en) * | 2009-05-23 | 2010-11-25 | Qin Zhang | System and method for web page identifications |
CN102332028A (zh) * | 2011-10-15 | 2012-01-25 | 西安交通大学 | 一种面向网页的不良Web内容识别方法 |
CN102779176A (zh) * | 2012-06-27 | 2012-11-14 | 北京奇虎科技有限公司 | 关键词过滤系统及方法 |
CN103258050A (zh) * | 2013-05-27 | 2013-08-21 | 公安部第三研究所 | 实现基于语义内容进行视频信息过滤控制的系统及其方法 |
-
2014
- 2014-11-21 CN CN201410668638.2A patent/CN104375983A/zh not_active Withdrawn
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101477544A (zh) * | 2009-01-12 | 2009-07-08 | 腾讯科技(深圳)有限公司 | 一种识别垃圾文本的方法和系统 |
US20100299322A1 (en) * | 2009-05-23 | 2010-11-25 | Qin Zhang | System and method for web page identifications |
CN102332028A (zh) * | 2011-10-15 | 2012-01-25 | 西安交通大学 | 一种面向网页的不良Web内容识别方法 |
CN102779176A (zh) * | 2012-06-27 | 2012-11-14 | 北京奇虎科技有限公司 | 关键词过滤系统及方法 |
CN103258050A (zh) * | 2013-05-27 | 2013-08-21 | 公安部第三研究所 | 实现基于语义内容进行视频信息过滤控制的系统及其方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569295A (zh) * | 2019-08-02 | 2019-12-13 | 杭州安恒信息技术股份有限公司 | 通过定位关键词提高文档预警的方法 |
CN110569295B (zh) * | 2019-08-02 | 2022-06-21 | 杭州安恒信息技术股份有限公司 | 通过定位关键词提高文档预警的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101162051B1 (ko) | 문자열 비교 기법을 이용한 악성코드 탐지 및 분류 시스템 및 그 방법 | |
US10705748B2 (en) | Method and device for file name identification and file cleaning | |
CN103336766A (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN103324745A (zh) | 基于贝叶斯模型的文本垃圾识别方法和系统 | |
CN104462509A (zh) | 垃圾评论检测方法及装置 | |
US9892099B2 (en) | Intelligent reading for accessing multi-page data from a web browser | |
CN103970733B (zh) | 一种基于图结构的中文新词识别方法 | |
CN104408093A (zh) | 一种新闻事件要素抽取方法与装置 | |
CN104636319B (zh) | 一种文本去重方法和装置 | |
CN103679012A (zh) | 一种可移植可执行文件的聚类方法和装置 | |
US20170154056A1 (en) | Matching image searching method, image searching method and devices | |
CN105718795A (zh) | Linux下基于特征码的恶意代码取证方法及系统 | |
CN102646124A (zh) | 一种自动识别地址信息的方法 | |
CN103902619A (zh) | 一种网络舆情监控方法及系统 | |
CN103366120A (zh) | 基于脚本的漏洞攻击图生成方法 | |
CN104021179B (zh) | 一种大数据集下相似性数据的快速识别算法 | |
CN107016298A (zh) | 一种网页篡改监测方法及装置 | |
CN106383862A (zh) | 一种违规短信检测方法及系统 | |
CN105989033A (zh) | 一种基于资讯指纹的资讯去重方法 | |
CN103853771B (zh) | 一种搜索结果的推送方法及系统 | |
CN106650451A (zh) | 一种检测方法和装置 | |
CN105808602B (zh) | 一种垃圾信息的检测方法及装置 | |
CN108694325A (zh) | 指定类型网站的辨别方法和指定类型网站的辨别装置 | |
CN104615728B (zh) | 一种网页正文提取方法及装置 | |
CN103902906A (zh) | 基于应用图标的移动终端恶意代码检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C04 | Withdrawal of patent application after publication (patent law 2001) | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20150225 |