CN101764704A - 一种互联网敏感内容审计的方法及其装置 - Google Patents

一种互联网敏感内容审计的方法及其装置 Download PDF

Info

Publication number
CN101764704A
CN101764704A CN200910219438A CN200910219438A CN101764704A CN 101764704 A CN101764704 A CN 101764704A CN 200910219438 A CN200910219438 A CN 200910219438A CN 200910219438 A CN200910219438 A CN 200910219438A CN 101764704 A CN101764704 A CN 101764704A
Authority
CN
China
Prior art keywords
keyword
responsive
content
internet
auditing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200910219438A
Other languages
English (en)
Inventor
赵安军
王磊
王礼
杨宗良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHAANXI DEVTEK TECHNOLOGIES DEVELOPMENT Co Ltd
Original Assignee
SHAANXI DEVTEK TECHNOLOGIES DEVELOPMENT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHAANXI DEVTEK TECHNOLOGIES DEVELOPMENT Co Ltd filed Critical SHAANXI DEVTEK TECHNOLOGIES DEVELOPMENT Co Ltd
Priority to CN200910219438A priority Critical patent/CN101764704A/zh
Publication of CN101764704A publication Critical patent/CN101764704A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种互联网敏感内容审计的方法及其装置,添加敏感关键字并生成其语义特征条件后还原互联网网络流内容,将网络流内容先后与所有敏感关键字及其语义特征条件进行匹配,如匹配成功,则保存包含有敏感关键字网络流的源IP地址、目标IP地址、MAC地址和匹配时间作为审计结果并报警;间隔设定的时间周期对网络流内容进行智能聚类,生成并添加新的关键字。本发明审计的覆盖面更广泛,大量的减少了在人工审核方面投入的人力和物力,可以在极少量人工参与下,完成先期的敏感关键字获取,为事件的处理抢得先机。

Description

一种互联网敏感内容审计的方法及其装置
技术领域
本发明涉及互联网安全审计技术领域,尤其是一种涉及互联网敏感内容审计的方法及装置。
背景技术
目前国家的政策规定,对于网络服务单位和网络使用单位都应该实施网络安全保护及审计措施。互联网安全审计技术中针对网络流敏感内容审计的手段,一般采用两种方式:传统的基于敏感关键字审计方式和人工上网审计方式。传统的基于敏感关键字审计方式如图1所示,互联网用户所产生的网络流流经部署有审计设备的网络节点时,经过协议分析模块还原用户所输入的原始内容。原始内容首先要经过敏感关键字匹配审计,将原始内容中与敏感关键字匹配的词汇、来源以及时间等相关信息作为审计内容进行保存,并产生报警信息,管理人员通过审计后台审核审计结果并做出相应的处理。对于在基于敏感关键字审计方式未能审计到的网络内容,只能依靠人工上网审计方式。人工上网审计方式通过大量的人力不间断的浏览网页或者利用搜索引擎等工具进行敏感信息的搜集,以实现对于互联网敏感内容的审计。
采用传统的基于敏感关键字审计方式对互联网用户所产生的网络流进行审计时,只能通过将网络流中的内容与敏感关键字数据库中的现有敏感词汇进行一对一完全匹配的方式进行审计,若网络流中存在一些敏感关键字数据库中未保存的新的敏感词汇,就无法通过传统的敏感关键字审计方式进行审计。上述敏感关键字需要人为的预先定义,但往往某些事件尤其是安全类群体事件在早期是不可预知的,缺乏相应的敏感关键字对审计系统进行支撑,这样就丧失了对于此类事件处理的最佳时机。
采用人工上网审计方式对互联网用户所产生的网络流进行审计时,单纯的依靠人工进行敏感关键字的匹配,主要存在以下三个方面的缺陷:
首先人工审计的方式只能对互联网当中的一些特定协议的内容,比如HTTP中不需要身份认证的网络内容进行审计,对于邮件、聊天等采用身份认证的方式的应用层协议则无从下手。
其次,人工审核采用被动的、非实时、局部的方式进行,由于投入的人力有限,不可能对所有的可浏览网络内容进行,只能采用随机审计、重点审计的方式对互联网内容进行审计。
另外,虽然大量的人力投入可以解决关键字预定义的问题,但随着互联网应用的发展和普及,所需的人力、时间数量越来越庞大,这种方式显然是不可行的。
发明内容
为了克服现有技术不能及时发现敏感关键字以及所需工作量大等不足,本发明提供一种互联网敏感内容审计的方法,能够有效地实现互联网内容中敏感词汇的审计,节约了人力和物力的投入资本。
本发明解决其技术问题所采用的技术方案包括以下步骤:
一、根据需要审计的互联网敏感内容确定敏感关键字。
二、生成敏感关键字的语义特征条件,所述的语义特征条件是敏感关键字的拼音或同义词。
三、依据相应的网络协议对互联网网络流进行协议分析,还原网络流中应用层的内容,作为审计输入。
四、将步骤三中得到的审计输入的内容与步骤一所得的所有敏感关键字进行匹配,如匹配到至少任意一个关键字,保存包含有敏感关键字网络流的源IP地址、目标IP地址、MAC地址和匹配时间作为审计结果,并将此审计结果作为报警信息内容进行发送,否则,转下一步。
五、通过敏感关键字的语义特征条件对步骤三得到的审计输入的内容进行匹配,若匹配到至少任意一个所述的语义特征条件,则保存包含有敏感关键字网络流的源IP地址、目标IP地址、MAC地址和匹配时间作为审计结果,并将此审计结果作为报警信息内容进行发送,否则不做处理。
六、监控步骤四和步骤五产生的报警信息,并向管理人员发出通知。
七、间隔设定的时间周期对步骤三产生的内容进行智能聚类,将智能聚类获得排名前5名的聚类结果,作为新的关键字,通过步骤一进行添加。所述的时间周期可以设定为一天。
所述的步骤一可以采用以下两种方式:
(a)对已知的敏感关键字进行添加;
(b)对智能聚类的方法获取的敏感关键字进行添加。
步骤二中当所述的语义特征条件是敏感关键字的拼音时,通过对敏感关键字进行拼音转换,获取敏感关键字的无声标拼音信息,作为拼音匹配的特征条件。当所述的语义特征条件是敏感关键字的同义词时,对敏感关键字进行同义词转换,当同义词个数大于等于5个时,选取前5个敏感关键字相对应的同义词汇,否则选取所有的同义词汇,作为同义词匹配的特征条件。
步骤五所述的通过敏感关键字的语义特征条件对步骤三产生的内容进行匹配包括以下步骤:
(a)将步骤三产生的内容与敏感关键字拼音进行匹配,如果匹配到至少任意一个敏感关键字拼音,保存审计结果并发送报警信息,转步骤六;否则转步骤(b)。
(b)将步骤三产生的内容与敏感关键字同义词进行匹配,如果匹配到至少任意一个敏感关键字同义词,保存审计结果并发送报警信息,转步骤六;否则转步骤(c)。
(c)将步骤三产生的内容进行特殊符号预处理,即删除互联网内容中非中文、字母以及数字的键盘特殊符号,处理完成后继续与敏感关键字进行匹配,如果匹配到至少任意一个敏感关键字同义词,保存审计结果并发送报警信息,转步骤六;否则转步骤(d)。
(d)将步骤(c)产生的内容与敏感关键字拼音进行匹配,如果匹配到至少任意一个敏感关键字拼音,保存审计结果并发送报警信息,转步骤六;否则转步骤(e)。
(e)将步骤(c)产生的内容与敏感关键字同义词进行匹配,如果匹配到至少任意一个敏感关键字同义词,保存审计结果并发送报警信息,转步骤六。
本发明还提供一种互联网敏感内容审计的装置,包括:
敏感关键字添加模块,用于生成敏感关键字,可以添加已经知道的敏感关键字和智能聚类模块输出的敏感关键字。
条件生成模块,以敏感关键字添加模块生成的敏感关键字为依据,用于生成语义特征条件,并输出至语义特征分析模块。所述的语义特征条件是敏感关键字的拼音以及同义词。当所述的语义特征条件是输入信息能否与关键字拼音匹配时,通过对敏感关键字进行拼音转换,获取敏感关键字的无声标拼音信息,作为拼音匹配的特征条件。当所述的语义特征条件是输入信息能否与关键字同义词匹配时,通过对敏感关键字进行同义词转换,同义词个数大于等于5个时,选取前5个敏感关键字相对应的同义词汇,否则选取所有的同义词汇,作为同义词匹配的特征条件,作为同义词匹配的特征条件。
协议分析模块,用于协议分析互联网网络流,获取互联网内容,作为关键字匹配模块的输入,同时将还原内容发送给智能聚类模块。
关键字匹配模块,用于将协议分析模块生成的互联网内容与敏感关键字进行匹配,如果匹配到至少任意一个关键字,包含有敏感关键字网络流的源IP地址、目标IP地址、MAC地址和匹配时间作为审计结果并发送报警信息至审计中心模块;否则,将经过关键字匹配模块后的互联网内容发送给所述语义特征分析执行模块进行处理。
语义特征分析执行模块,通过条件生成模块生成的语义特征分析条件对关键字匹配模块输出的互联网内容进行审计,若所述互联网内容中满足所述预定的语义特征分析条件,则将包含有敏感关键字网络流的源IP地址、目标IP地址、MAC地址和匹配时间作为审计结果并发送报警信息至审计中心模块。所述语义特征分析执行模块具体包括:
匹配单元,用于判断关键字匹配模块输出的互联网内容中是否含有满足条件生成模块生成的语义特征分析条件的内容;
处理单元,用于根据匹配单元对互联网内容的匹配结果,将所述互联网内容中满足预定的语义特征分析条件的内容,作为审计结果保存并报警;否则,不做任何处理;
预处理单元,用于对关键字匹配模块输出的互联网内容中包含有特殊符号的内容进行键盘特殊符号预处理,即删除特殊符号,然后输出至匹配单元。
审计中心模块,用于对所述关键字匹配模块和语义特征分析执行模块所产生的报警信息进行后台监控,并向审计中心管理人员发出通知信息。
智能聚类模块,间隔设定的时间周期对协议分析模块产生的内容进行智能聚类,将智能聚类获得排名前5名的聚类结果,作为新的关键字,添加至敏感关键字添加模块。
本发明的有益效果是:由于采用语义特征分析过程来对互联网内容进行敏感信息的审计,克服了现有技术中单纯采用关键字匹配进行审计的被动性和局限性,由于预定的语义特征分析条件中保存有大量关于敏感信息内容的特征信息,所以审计的覆盖面更广泛。本发明通过采用语义特征分析过程,大量的减少了在人工审核方面投入的人力和物力,节约了劳动力和资源。本发明通过智能聚类方法,系统可以在极少量人工参与下,完成先期的敏感关键字获取,为事件的处理抢得先机。
下面结合附图和实施例对本发明进一步说明。
附图说明
图1为现有技术中传统的基于敏感关键字审计方式的流程框图;
图2为本发明所述方法的简要流程图:
图3为本发明所述装置的简要框图;
图4为本发明所述方法的一个实施例流程图。
具体实施方式
方法实施例1:如图2所示,本发明所述的方法包括以下步骤:
步骤S101:通过人工方法或者以智能聚类所获取的智能聚类前五名为关键字,添加敏感关键字。
步骤S102:生成敏感关键字的语义特征条件,主要依据敏感关键字的拼音、同义词生成敏感关键字的语义特征条件。
步骤S103:对互联网网络流进行协议分析,还原网络流中应用层的内容。本发明可以对现有流行的互联网应用层协议(包括HTTP、FTP、SMTP、POP3、QQ和MSN等)的内容进行还原,作为敏感关键字匹配输入。
步骤S104:对经过协议分析后的互联网内容进行敏感关键字匹配,如匹配到至少任意一个敏感关键字,则保存包含有敏感关键字网络流的源IP地址、目标IP地址、MAC地址和匹配时间作为审计结果并产生报警;否则,对互联网内容进行语义特征分析。
以HTTP协议为例,本发明能够对HTTP中POST和GET内容中包含的敏感关键字进行审计并产生报警。
步骤S105:通过预定的语义特征分析条件对互联网内容进行审计,如所述互联网内容中匹配到至少任意一个所述预定的语义特征分析条件,则保存包含有敏感关键字网络流的源IP地址、目标IP地址、MAC地址和匹配时间作为审计结果并产生报警。
所述的敏感关键字语义特征条件包括关键字拼音和关键字同义词。
当所述预先定义敏感关键字的语义特征条件为关键字拼音时,通过对敏感关键字进行拼音转换,获取敏感关键字的无声标拼音信息,作为拼音匹配的特征条件。
当所述敏感关键字的语义特征条件为关键字同义词时,通过对敏感关键字进行词汇智能同义变换,获取相对应的同义词汇,作为同义词匹配的特征条件。通常,敏感关键字中同义词的判断会有优先级,在系统初期运行时,各个敏感关键字的优先级是相同的,但随着审计结果的获取,系统根据审计结果中同义词出现频次的大小设定同一敏感关键字不同同义词的优先级。
在本实施例中,所述预定的语义特征分析条件的生成过程包括上述敏感关键字拼音匹配和敏感关键字同义词匹配的单独执行或者两者的组合。
本步骤具体包括以下分步骤:
(a)将步骤S103产生的内容与关键字拼音进行匹配,如果匹配到至少任意一个关键字拼音,保存审计结果并发送报警信息,转步骤S106;否则转步骤(b)。
(b)将步骤S103产生的内容与关键字同义词进行匹配,如果匹配到至少任意一个关键字同义词,保存审计结果并发送报警信息,转步骤S106;否则转步骤(c)。
(c)将步骤S103产生的内容进行特殊符号预处理,即删除互联网内容中非中文、字母以及数字的键盘特殊符号,处理完成后继续与关键字进行匹配,如果匹配到至少任意一个关键字同义词,保存审计结果并发送报警信息,转步骤S106;否则转步骤(d)。
(d)将步骤(c)产生的内容与关键字拼音进行匹配,如果匹配到至少任意一个关键字拼音,保存审计结果并发送报警信息,转步骤S106;否则转步骤(e)。
(e)将步骤(c)产生的内容与关键字同义词进行匹配,如果匹配到至少任意一个关键字同义词,保存审计结果并发送报警信息,转步骤S106。
一般情况下,通过关键字拼音和关键字同义词是可以涵盖目前互联网用户对于敏感关键字的规避,再加上删除特殊符号的处理手段,这两个条件可以获得较为准确的审计结果。
以HTTP协议为例,本发明能够对HTTP中POST和GET使用与预定的语义特征分析条件相匹配互联网内容进行审计并产生报警;否则对HTTP中POST和GET的内容进行特殊符号预处理,使用与预定的语义特征分析条件相匹配互联网内容进行审计并产生报警。对于其他应用层协议,比如FTP、SMTP、POP3、QQ,互联网敏感内容审计处理过程涉及的技术方案相同,不再赘述。
步骤S106:上述关键字匹配模块和语义特征分析执行模块所产生的报警信息被发送至审计中心,审计中心对所述关键字匹配模块和语义特征分析执行模块所产生的报警信息进行监控,并以邮件或者手机短信的方式向审计中心管理人员产生通知信息。管理人员根据已知线索审核处理报警信息,调整基于语义特征分析条件中敏感关键字同义词所产生的报警信息的同义词的优先级。
步骤S107:对于步骤S103还原的网络流中应用层内容进行智能聚类。智能聚类方法是将获取的海量网络内容进行聚类,对聚类的结果中的词汇出现频次进行排名,通过排名次序先期获得需要审计的关键字信息。在实际运用中,智能聚类是以审计系统所获取到的互联网内容为依据进行聚类的,这就需要审计系统后台监控模块保存所收集到的海量互联网内容,不论是何种应用层协议,内容都需要保存。在智能聚类方法对这些海量数据进行数据挖掘后,产生出某个事件段内某些词汇出现频次的一个排名,排名按照由高到低的方式进行。本发明可以根据智能聚类给出的排名,深度挖掘未知的敏感关键字。使得审计系统能够及时、高效的对即将出现的事件、尤其是群体性事件有所掌控。
通常现有技术中的敏感关键字审计只能对已知事件的敏感关键字进行审计,对于未知事件则无法获取相应的关键字。本发明可以获取将来发生事件的敏感关键字,为管理人员尽早给出有用的审计信息。
方法实施例2:
如图4所示,本实施例以HTTP协议的BBS应用为例对本发明所述方法进行说明。
步骤S401:根据检索需求初始添加BBS内容敏感关键字。
步骤S402:生成所添加敏感关键字的语义特征条件。
步骤S403:协议分析阶段,用于分析互联网网络流,以HTTP的POST以及网络域名中是否包含BBS特征为依据,产生网友在BBS论坛上所发布内容,作为关键字匹配步骤的输入。
步骤S404:关键字匹配阶段,用于将经过协议分析所获取的互联网BBS内容与敏感关键字进行匹配,如匹配到,保存审计结果并报警;否则,将互联网内容发送给所述语义特征分析执行模块进行处理。
步骤S405:语义特征分析匹配阶段,用于通过预定的语义特征分析条件对互联网BBS内容进行审计,将所述互联网内容中满足所述预定的语义特征分析条件的内容,作为审计结果进行保存并产生报警;
从图4上可以看出,通过步骤S403,S404,S405的三个过程对帖子进行敏感关键字审计后,能够与敏感关键字匹配的或者和语义特征条件匹配的都将产生审计结果并且发送报警到审计中心,审计中心根据审计结果调整语义特征条件中同义词的优先级。
图4中显示出本发明可以针对HTTP、FTP、SMTP及POP3应用层协议内容进行敏感关键字审计,但本应用实例是针对HTTP的BBS来说的,其他三种方式与本实例处理过程相同,不作赘述。
步骤S406:审计中心在收到BBS的敏感关键字审计报警后,通过邮件或者手机短信向管理人员发送报警信息。
步骤S407:智能聚类每天对步骤S403中协议分析阶段产生的BBS内容进行智能聚类,将智能聚类获得排名前5名的聚类结果作为新的BBS新的敏感关键字,添加至步骤S401。
装置实施例:
如图3所述,本发明所述的装置包括:
敏感关键字生成模块S11:用于通过智能聚类的方法或人工选择先期获得需要审计的关键字信息。
条件生成模块S22:用于生成敏感关键字生成模块S11输出的敏感关键字的语义特征条件。当所述预先定义敏感关键字的语义特征条件为输入信息是否能够与关键字拼音匹配时,通过对敏感关键字进行拼音转换,获取敏感关键字的无声标拼音信息。当所述预先定义敏感关键字的语义特征条件为输入信息是否能够与关键字同义词匹配时,通过对敏感关键字进行词汇智能同义变换,获取相对应的同义词汇,作为同义词匹配的特征条件。
协议分析模块S33:用于分析互联网网络流,产生互联网内容,同时将还原内容发送给审计中心模块。
关键字匹配模块S44,用于将协议分析模块S33输出的互联网内容与敏感关键字生成模块S11输出的敏感关键字进行匹配,如匹配到,保存审计结果并报警;否则,将经过关键字匹配模块后的互联网内容发送给所述语义特征分析执行模块进行处理,同时发送给审计中心模块。
语义特征分析执行模块S55:用于通过条件生成模块S22输出的语义特征分析条件对关键字匹配模块S44输出的互联网内容进行审计,将所述互联网内容中满足所述预定的语义特征分析条件的内容,作为审计结果保存并产生报警。所述语义特征分析执行模块具体包括:
匹配单元S551,用于判断互联网内容中是否含有满足预定的语义特征分析条件的内容,输出至处理单元S552;
处理单元S552,用于根据所述匹配单元对互联网内容的匹配结果,将所述互联网内容中满足预定的语义特征分析条件的内容,作为审计结果保存并报警;否则,不做任何处理。
预处理单元S553,用于对互联网内容中包含有特殊符号的内容进行特殊符号处理,删除特殊符号,输出至匹配单元S551。
审计中心模块S66:用于对所述关键字匹配模块和语义特征分析执行模块所产生的报警信息进行后台监控,通过邮件或者手机短信向管理人员发送报警信息。
智能聚类模块S77,用于对协议分析模块S33产生的内容进行智能聚类,将智能聚类获得排名前5名的聚类结果,作为新的关键字,由敏感关键字添加模块S11进行添加。
本发明通过在互联网敏感内容审计中,采用了语义特征分析过程克服了现有技术中敏感内容审计的被动性和覆盖范围的局限性,覆盖面更加广泛,提高了敏感内容的命中率,同时,通过智能聚类的方法,可以自动发现目前网络上的热点、敏感关键字,为早期获得违法事件的线索提供了手段,能够更好的节约劳动力,提高工作效率。

Claims (7)

1.一种互联网敏感内容审计的方法,其特征在于包括下述步骤:
一、根据需要审计的互联网敏感内容确定敏感关键字;
二、生成敏感关键字的语义特征条件,所述的语义特征条件是敏感关键字的拼音或同义词;
三、依据网络协议对互联网网络流进行协议分析,还原网络流中应用层的内容,作为审计输入;
四、将步骤三中得到的审计输入的内容与步骤一所得的所有敏感关键字进行匹配,如匹配到至少任意一个关键字,保存包含有敏感关键字网络流的源IP地址、目标IP地址、MAC地址和匹配时间作为审计结果,并将此审计结果作为报警信息内容进行发送,否则,转下一步;
五、通过敏感关键字的语义特征条件对步骤三得到的审计输入的内容进行匹配,若匹配到至少任意一个所述的语义特征条件,则保存包含有敏感关键字网络流的源IP地址、目标IP地址、MAC地址和匹配时间作为审计结果,并将此审计结果作为报警信息内容进行发送,否则不做处理;
六、监控步骤四和步骤五产生的报警信息,并向管理人员发出通知;
七、间隔设定的时间周期对步骤三产生的内容进行智能聚类,将智能聚类获得排名前5名的聚类结果,作为新的关键字,通过步骤一进行添加。
2.根据权利要求1所述的一种互联网敏感内容审计的方法,其特征在于:所述的时间周期设定为一天。
3.根据权利要求1所述的一种互联网敏感内容审计的方法,其特征在于:所述的步骤一添加已知的敏感关键字进行或添加通过智能聚类的方法获取的敏感关键字。
4.根据权利要求1所述的一种互联网敏感内容审计的方法,其特征在于:步骤二中所述的语义特征条件是敏感关键字的拼音时,通过对敏感关键字进行拼音转换,获取敏感关键字的无声标拼音信息,作为拼音匹配的特征条件;当所述的语义特征条件是敏感关键字的同义词时,对敏感关键字进行同义词转换,当同义词个数大于等于5个时,选取前5个敏感关键字相对应的同义词汇,否则选取所有的同义词汇,作为同义词匹配的特征条件。
5.根据权利要求1所述的一种互联网敏感内容审计的方法,其特征在于:步骤五所述的通过敏感关键字的语义特征条件对步骤三产生的内容进行匹配包括以下步骤:
(a)将步骤三产生的内容与敏感关键字拼音进行匹配,如果匹配到至少任意一个敏感关键字拼音,保存审计结果并发送报警信息,转步骤六;否则转步骤(b);
(b)将步骤三产生的内容与敏感关键字同义词进行匹配,如果匹配到至少任意一个敏感关键字同义词,保存审计结果并发送报警信息,转步骤六;否则转步骤(c);
(c)将步骤三产生的内容删除非中文、字母以及数字的键盘特殊符号,处理完成后继续与敏感关键字进行匹配,如果匹配到至少任意一个敏感关键字同义词,保存审计结果并发送报警信息,转步骤六;否则转步骤(d);
(d)将步骤(c)产生的内容与敏感关键字拼音进行匹配,如果匹配到至少任意一个敏感关键字拼音,保存审计结果并发送报警信息,转步骤六;否则转步骤(e);
(e)将步骤(c)产生的内容与敏感关键字同义词进行匹配,如果匹配到至少任意一个敏感关键字同义词,保存审计结果并发送报警信息,转步骤六。
6.一种实现权利要求1所述互联网敏感内容审计方法的装置,其特征在于包括以下模块:
敏感关键字添加模块,用于生成敏感关键字,可以添加已经知道的敏感关键字和智能聚类模块输出的敏感关键字;
条件生成模块,以敏感关键字添加模块生成的敏感关键字为依据,用于生成语义特征条件,并输出至语义特征分析模块;
协议分析模块,用于协议分析互联网网络流,获取互联网内容,作为关键字匹配模块的输入,同时将还原内容发送给智能聚类模块;
关键字匹配模块,用于将协议分析模块生成的互联网内容与敏感关键字进行匹配,如果匹配到至少任意一个关键字,包含有敏感关键字网络流的源IP地址、目标IP地址、MAC地址和匹配时间作为审计结果并发送报警信息至审计中心模块;否则,将经过关键字匹配模块后的互联网内容发送给所述语义特征分析执行模块进行处理;
语义特征分析执行模块,通过条件生成模块生成的语义特征分析条件对关键字匹配模块输出的互联网内容进行审计,若所述互联网内容中满足所述预定的语义特征分析条件,则将包含有敏感关键字网络流的源IP地址、目标IP地址、MAC地址和匹配时间作为审计结果并发送报警信息至审计中心模块;
审计中心模块,用于对所述关键字匹配模块和语义特征分析执行模块所产生的报警信息进行后台监控,并向审计中心管理人员发出通知信息;
智能聚类模块,间隔设定的时间周期对协议分析模块产生的内容进行智能聚类,将智能聚类获得排名前5名的聚类结果,作为新的关键字添加至敏感关键字添加模块。
7.根据权利要求6的一种互联网敏感内容审计的装置,其特征在于:所述语义特征分析执行模块具体包括:
匹配单元,用于判断关键字匹配模块输出的互联网内容中是否含有满足条件生成模块生成的语义特征分析条件的内容;
处理单元,用于根据匹配单元对互联网内容的匹配结果,将所述互联网内容中满足预定的语义特征分析条件的内容,作为审计结果保存并报警;
预处理单元,用于对关键字匹配模块输出的互联网内容中包含有特殊符号的内容进行键盘特殊符号进行删除,然后输出至匹配单元。
CN200910219438A 2009-12-10 2009-12-10 一种互联网敏感内容审计的方法及其装置 Pending CN101764704A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910219438A CN101764704A (zh) 2009-12-10 2009-12-10 一种互联网敏感内容审计的方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910219438A CN101764704A (zh) 2009-12-10 2009-12-10 一种互联网敏感内容审计的方法及其装置

Publications (1)

Publication Number Publication Date
CN101764704A true CN101764704A (zh) 2010-06-30

Family

ID=42495700

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910219438A Pending CN101764704A (zh) 2009-12-10 2009-12-10 一种互联网敏感内容审计的方法及其装置

Country Status (1)

Country Link
CN (1) CN101764704A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662977A (zh) * 2012-03-13 2012-09-12 网经科技(苏州)有限公司 自学习的发帖审计系统的实现方法
CN103246705A (zh) * 2013-04-09 2013-08-14 无锡安康讯信息科技有限公司 网络文本数据内容探测高速处理方法
CN105989093A (zh) * 2015-02-12 2016-10-05 阿里巴巴集团控股有限公司 敏感词的自动发现方法及其装置和应用
CN106383768A (zh) * 2016-09-14 2017-02-08 江苏北弓智能科技有限公司 基于移动设备操作行为的监管分析系统及其方法
CN103780409B (zh) * 2012-10-19 2017-04-05 任子行网络技术股份有限公司 一种上网行为管理方法和设备
CN106611009A (zh) * 2015-10-26 2017-05-03 任子行网络技术股份有限公司 一种网页关键字审计的方法及装置
CN111093188A (zh) * 2019-12-05 2020-05-01 任子行网络技术股份有限公司 监测蓝牙有害信息的方法及装置
CN111104395A (zh) * 2019-12-30 2020-05-05 武汉英迈信息科技有限公司 数据库审计方法、设备、存储介质及装置
CN111147465A (zh) * 2019-12-18 2020-05-12 深圳市任子行科技开发有限公司 对https内容进行审计的方法及代理服务器
CN111581371A (zh) * 2020-05-07 2020-08-25 中国信息安全测评中心 一种基于出境数据网络流量的网络安全分析方法和装置
CN113946856A (zh) * 2021-12-17 2022-01-18 杭州海康威视数字技术股份有限公司 可编排插件化的大规模动态敏感数据审计方法及系统

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662977A (zh) * 2012-03-13 2012-09-12 网经科技(苏州)有限公司 自学习的发帖审计系统的实现方法
CN103780409B (zh) * 2012-10-19 2017-04-05 任子行网络技术股份有限公司 一种上网行为管理方法和设备
CN103246705A (zh) * 2013-04-09 2013-08-14 无锡安康讯信息科技有限公司 网络文本数据内容探测高速处理方法
CN105989093B (zh) * 2015-02-12 2019-09-10 阿里巴巴集团控股有限公司 敏感词的自动发现方法及其装置和应用
CN105989093A (zh) * 2015-02-12 2016-10-05 阿里巴巴集团控股有限公司 敏感词的自动发现方法及其装置和应用
CN106611009A (zh) * 2015-10-26 2017-05-03 任子行网络技术股份有限公司 一种网页关键字审计的方法及装置
CN106383768A (zh) * 2016-09-14 2017-02-08 江苏北弓智能科技有限公司 基于移动设备操作行为的监管分析系统及其方法
CN111093188A (zh) * 2019-12-05 2020-05-01 任子行网络技术股份有限公司 监测蓝牙有害信息的方法及装置
CN111093188B (zh) * 2019-12-05 2023-04-07 任子行网络技术股份有限公司 监测蓝牙有害信息的方法及装置
CN111147465A (zh) * 2019-12-18 2020-05-12 深圳市任子行科技开发有限公司 对https内容进行审计的方法及代理服务器
CN111104395A (zh) * 2019-12-30 2020-05-05 武汉英迈信息科技有限公司 数据库审计方法、设备、存储介质及装置
CN111104395B (zh) * 2019-12-30 2023-06-06 武汉英迈信息科技有限公司 数据库审计方法、设备、存储介质及装置
CN111581371A (zh) * 2020-05-07 2020-08-25 中国信息安全测评中心 一种基于出境数据网络流量的网络安全分析方法和装置
CN113946856A (zh) * 2021-12-17 2022-01-18 杭州海康威视数字技术股份有限公司 可编排插件化的大规模动态敏感数据审计方法及系统

Similar Documents

Publication Publication Date Title
CN101764704A (zh) 一种互联网敏感内容审计的方法及其装置
CN103327045B (zh) 社交网络中的用户推荐方法和系统
Bengel et al. Chattrack: Chat room topic detection using classification
CN102523274B (zh) 基于核心网侧的无线个性化精准信息主动推送系统及方法
CN108984650B (zh) 计算机可读记录介质及计算机设备
CN106101015A (zh) 一种移动互联网流量类别标记方法和系统
CN104615627B (zh) 一种基于微博平台的事件舆情信息提取方法及系统
CN105814931A (zh) 基于移动网络信号的网络建模
Seymour et al. Generative models for spear phishing posts on social media
CN102035698A (zh) 基于决策树分类算法的http隧道检测方法
CN102129452A (zh) 未来信息获取系统及获取方法
Yan et al. Big data driven wireless communications: A human-in-the-loop pushing technique for 5G systems
DE102017131382A1 (de) Ausgleichen von Modifikationen einer audiobasierten Computerprogrammausgabe
CN105939359A (zh) 检测移动终端隐私泄露的方法及装置
CN113938318B (zh) 确定直播间刷量的方法及装置
DE102017131383A1 (de) Ausgleichen von Modifikationen einer audiobasierten Computerprogrammausgabe
CN106780248A (zh) 基于大数据技术的城市物联网设备运营控制系统及方法
DE102017131381A1 (de) Validieren der Modifikation einer audiobasierten Computerprogrammausgabe
CN104102658A (zh) 文本内容挖掘方法及装置
Lee et al. An automatic topic ranking approach for event detection on microblogging messages
Ye et al. FLAG: Few-shot latent Dirichlet generative learning for semantic-aware traffic detection
CN109309587A (zh) 一种日志采集方法及系统
Zhang et al. Software defined security architecture with deep learning-based network anomaly detection module
CN105491136B (zh) 消息发送方法和装置
Zhou et al. Collection of us extremist online forums: A web mining approach

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20100630