CN101764704A

CN101764704A - 一种互联网敏感内容审计的方法及其装置

Info

Publication number: CN101764704A
Application number: CN200910219438A
Authority: CN
Inventors: 赵安军; 王磊; 王礼; 杨宗良
Original assignee: SHAANXI DEVTEK TECHNOLOGIES DEVELOPMENT Co Ltd
Current assignee: SHAANXI DEVTEK TECHNOLOGIES DEVELOPMENT Co Ltd
Priority date: 2009-12-10
Filing date: 2009-12-10
Publication date: 2010-06-30

Abstract

本发明公开了一种互联网敏感内容审计的方法及其装置，添加敏感关键字并生成其语义特征条件后还原互联网网络流内容，将网络流内容先后与所有敏感关键字及其语义特征条件进行匹配，如匹配成功，则保存包含有敏感关键字网络流的源IP地址、目标IP地址、MAC地址和匹配时间作为审计结果并报警；间隔设定的时间周期对网络流内容进行智能聚类，生成并添加新的关键字。本发明审计的覆盖面更广泛，大量的减少了在人工审核方面投入的人力和物力，可以在极少量人工参与下，完成先期的敏感关键字获取，为事件的处理抢得先机。

Description

一种互联网敏感内容审计的方法及其装置

技术领域

本发明涉及互联网安全审计技术领域，尤其是一种涉及互联网敏感内容审计的方法及装置。

背景技术

目前国家的政策规定，对于网络服务单位和网络使用单位都应该实施网络安全保护及审计措施。互联网安全审计技术中针对网络流敏感内容审计的手段，一般采用两种方式：传统的基于敏感关键字审计方式和人工上网审计方式。传统的基于敏感关键字审计方式如图1所示，互联网用户所产生的网络流流经部署有审计设备的网络节点时，经过协议分析模块还原用户所输入的原始内容。原始内容首先要经过敏感关键字匹配审计，将原始内容中与敏感关键字匹配的词汇、来源以及时间等相关信息作为审计内容进行保存，并产生报警信息，管理人员通过审计后台审核审计结果并做出相应的处理。对于在基于敏感关键字审计方式未能审计到的网络内容，只能依靠人工上网审计方式。人工上网审计方式通过大量的人力不间断的浏览网页或者利用搜索引擎等工具进行敏感信息的搜集，以实现对于互联网敏感内容的审计。

采用传统的基于敏感关键字审计方式对互联网用户所产生的网络流进行审计时，只能通过将网络流中的内容与敏感关键字数据库中的现有敏感词汇进行一对一完全匹配的方式进行审计，若网络流中存在一些敏感关键字数据库中未保存的新的敏感词汇，就无法通过传统的敏感关键字审计方式进行审计。上述敏感关键字需要人为的预先定义，但往往某些事件尤其是安全类群体事件在早期是不可预知的，缺乏相应的敏感关键字对审计系统进行支撑，这样就丧失了对于此类事件处理的最佳时机。

采用人工上网审计方式对互联网用户所产生的网络流进行审计时，单纯的依靠人工进行敏感关键字的匹配，主要存在以下三个方面的缺陷：

首先人工审计的方式只能对互联网当中的一些特定协议的内容，比如HTTP中不需要身份认证的网络内容进行审计，对于邮件、聊天等采用身份认证的方式的应用层协议则无从下手。

其次，人工审核采用被动的、非实时、局部的方式进行，由于投入的人力有限，不可能对所有的可浏览网络内容进行，只能采用随机审计、重点审计的方式对互联网内容进行审计。

另外，虽然大量的人力投入可以解决关键字预定义的问题，但随着互联网应用的发展和普及，所需的人力、时间数量越来越庞大，这种方式显然是不可行的。

发明内容

为了克服现有技术不能及时发现敏感关键字以及所需工作量大等不足，本发明提供一种互联网敏感内容审计的方法，能够有效地实现互联网内容中敏感词汇的审计，节约了人力和物力的投入资本。

本发明解决其技术问题所采用的技术方案包括以下步骤：

一、根据需要审计的互联网敏感内容确定敏感关键字。

二、生成敏感关键字的语义特征条件，所述的语义特征条件是敏感关键字的拼音或同义词。

三、依据相应的网络协议对互联网网络流进行协议分析，还原网络流中应用层的内容，作为审计输入。

四、将步骤三中得到的审计输入的内容与步骤一所得的所有敏感关键字进行匹配，如匹配到至少任意一个关键字，保存包含有敏感关键字网络流的源IP地址、目标IP地址、MAC地址和匹配时间作为审计结果，并将此审计结果作为报警信息内容进行发送，否则，转下一步。

五、通过敏感关键字的语义特征条件对步骤三得到的审计输入的内容进行匹配，若匹配到至少任意一个所述的语义特征条件，则保存包含有敏感关键字网络流的源IP地址、目标IP地址、MAC地址和匹配时间作为审计结果，并将此审计结果作为报警信息内容进行发送，否则不做处理。

六、监控步骤四和步骤五产生的报警信息，并向管理人员发出通知。

七、间隔设定的时间周期对步骤三产生的内容进行智能聚类，将智能聚类获得排名前5名的聚类结果，作为新的关键字，通过步骤一进行添加。所述的时间周期可以设定为一天。

所述的步骤一可以采用以下两种方式：

(a)对已知的敏感关键字进行添加；

(b)对智能聚类的方法获取的敏感关键字进行添加。

步骤二中当所述的语义特征条件是敏感关键字的拼音时，通过对敏感关键字进行拼音转换，获取敏感关键字的无声标拼音信息，作为拼音匹配的特征条件。当所述的语义特征条件是敏感关键字的同义词时，对敏感关键字进行同义词转换，当同义词个数大于等于5个时，选取前5个敏感关键字相对应的同义词汇，否则选取所有的同义词汇，作为同义词匹配的特征条件。

步骤五所述的通过敏感关键字的语义特征条件对步骤三产生的内容进行匹配包括以下步骤：

(a)将步骤三产生的内容与敏感关键字拼音进行匹配，如果匹配到至少任意一个敏感关键字拼音，保存审计结果并发送报警信息，转步骤六；否则转步骤(b)。

(b)将步骤三产生的内容与敏感关键字同义词进行匹配，如果匹配到至少任意一个敏感关键字同义词，保存审计结果并发送报警信息，转步骤六；否则转步骤(c)。

(c)将步骤三产生的内容进行特殊符号预处理，即删除互联网内容中非中文、字母以及数字的键盘特殊符号，处理完成后继续与敏感关键字进行匹配，如果匹配到至少任意一个敏感关键字同义词，保存审计结果并发送报警信息，转步骤六；否则转步骤(d)。

(d)将步骤(c)产生的内容与敏感关键字拼音进行匹配，如果匹配到至少任意一个敏感关键字拼音，保存审计结果并发送报警信息，转步骤六；否则转步骤(e)。

(e)将步骤(c)产生的内容与敏感关键字同义词进行匹配，如果匹配到至少任意一个敏感关键字同义词，保存审计结果并发送报警信息，转步骤六。

本发明还提供一种互联网敏感内容审计的装置，包括：

敏感关键字添加模块，用于生成敏感关键字，可以添加已经知道的敏感关键字和智能聚类模块输出的敏感关键字。

条件生成模块，以敏感关键字添加模块生成的敏感关键字为依据，用于生成语义特征条件，并输出至语义特征分析模块。所述的语义特征条件是敏感关键字的拼音以及同义词。当所述的语义特征条件是输入信息能否与关键字拼音匹配时，通过对敏感关键字进行拼音转换，获取敏感关键字的无声标拼音信息，作为拼音匹配的特征条件。当所述的语义特征条件是输入信息能否与关键字同义词匹配时，通过对敏感关键字进行同义词转换，同义词个数大于等于5个时，选取前5个敏感关键字相对应的同义词汇，否则选取所有的同义词汇，作为同义词匹配的特征条件，作为同义词匹配的特征条件。

协议分析模块，用于协议分析互联网网络流，获取互联网内容，作为关键字匹配模块的输入，同时将还原内容发送给智能聚类模块。

关键字匹配模块，用于将协议分析模块生成的互联网内容与敏感关键字进行匹配，如果匹配到至少任意一个关键字，包含有敏感关键字网络流的源IP地址、目标IP地址、MAC地址和匹配时间作为审计结果并发送报警信息至审计中心模块；否则，将经过关键字匹配模块后的互联网内容发送给所述语义特征分析执行模块进行处理。

语义特征分析执行模块，通过条件生成模块生成的语义特征分析条件对关键字匹配模块输出的互联网内容进行审计，若所述互联网内容中满足所述预定的语义特征分析条件，则将包含有敏感关键字网络流的源IP地址、目标IP地址、MAC地址和匹配时间作为审计结果并发送报警信息至审计中心模块。所述语义特征分析执行模块具体包括：

匹配单元，用于判断关键字匹配模块输出的互联网内容中是否含有满足条件生成模块生成的语义特征分析条件的内容；

处理单元，用于根据匹配单元对互联网内容的匹配结果，将所述互联网内容中满足预定的语义特征分析条件的内容，作为审计结果保存并报警；否则，不做任何处理；

预处理单元，用于对关键字匹配模块输出的互联网内容中包含有特殊符号的内容进行键盘特殊符号预处理，即删除特殊符号，然后输出至匹配单元。

审计中心模块，用于对所述关键字匹配模块和语义特征分析执行模块所产生的报警信息进行后台监控，并向审计中心管理人员发出通知信息。

智能聚类模块，间隔设定的时间周期对协议分析模块产生的内容进行智能聚类，将智能聚类获得排名前5名的聚类结果，作为新的关键字，添加至敏感关键字添加模块。

本发明的有益效果是：由于采用语义特征分析过程来对互联网内容进行敏感信息的审计，克服了现有技术中单纯采用关键字匹配进行审计的被动性和局限性，由于预定的语义特征分析条件中保存有大量关于敏感信息内容的特征信息，所以审计的覆盖面更广泛。本发明通过采用语义特征分析过程，大量的减少了在人工审核方面投入的人力和物力，节约了劳动力和资源。本发明通过智能聚类方法，系统可以在极少量人工参与下，完成先期的敏感关键字获取，为事件的处理抢得先机。

下面结合附图和实施例对本发明进一步说明。

附图说明

图1为现有技术中传统的基于敏感关键字审计方式的流程框图；

图2为本发明所述方法的简要流程图：

图3为本发明所述装置的简要框图；

图4为本发明所述方法的一个实施例流程图。

具体实施方式

方法实施例1：如图2所示，本发明所述的方法包括以下步骤：

步骤S101：通过人工方法或者以智能聚类所获取的智能聚类前五名为关键字，添加敏感关键字。

步骤S102：生成敏感关键字的语义特征条件，主要依据敏感关键字的拼音、同义词生成敏感关键字的语义特征条件。

步骤S103：对互联网网络流进行协议分析，还原网络流中应用层的内容。本发明可以对现有流行的互联网应用层协议(包括HTTP、FTP、SMTP、POP3、QQ和MSN等)的内容进行还原，作为敏感关键字匹配输入。

步骤S104：对经过协议分析后的互联网内容进行敏感关键字匹配，如匹配到至少任意一个敏感关键字，则保存包含有敏感关键字网络流的源IP地址、目标IP地址、MAC地址和匹配时间作为审计结果并产生报警；否则，对互联网内容进行语义特征分析。

以HTTP协议为例，本发明能够对HTTP中POST和GET内容中包含的敏感关键字进行审计并产生报警。

步骤S105：通过预定的语义特征分析条件对互联网内容进行审计，如所述互联网内容中匹配到至少任意一个所述预定的语义特征分析条件，则保存包含有敏感关键字网络流的源IP地址、目标IP地址、MAC地址和匹配时间作为审计结果并产生报警。

所述的敏感关键字语义特征条件包括关键字拼音和关键字同义词。

当所述预先定义敏感关键字的语义特征条件为关键字拼音时，通过对敏感关键字进行拼音转换，获取敏感关键字的无声标拼音信息，作为拼音匹配的特征条件。

当所述敏感关键字的语义特征条件为关键字同义词时，通过对敏感关键字进行词汇智能同义变换，获取相对应的同义词汇，作为同义词匹配的特征条件。通常，敏感关键字中同义词的判断会有优先级，在系统初期运行时，各个敏感关键字的优先级是相同的，但随着审计结果的获取，系统根据审计结果中同义词出现频次的大小设定同一敏感关键字不同同义词的优先级。

在本实施例中，所述预定的语义特征分析条件的生成过程包括上述敏感关键字拼音匹配和敏感关键字同义词匹配的单独执行或者两者的组合。

本步骤具体包括以下分步骤：

(a)将步骤S103产生的内容与关键字拼音进行匹配，如果匹配到至少任意一个关键字拼音，保存审计结果并发送报警信息，转步骤S106；否则转步骤(b)。

(b)将步骤S103产生的内容与关键字同义词进行匹配，如果匹配到至少任意一个关键字同义词，保存审计结果并发送报警信息，转步骤S106；否则转步骤(c)。

(c)将步骤S103产生的内容进行特殊符号预处理，即删除互联网内容中非中文、字母以及数字的键盘特殊符号，处理完成后继续与关键字进行匹配，如果匹配到至少任意一个关键字同义词，保存审计结果并发送报警信息，转步骤S106；否则转步骤(d)。

(d)将步骤(c)产生的内容与关键字拼音进行匹配，如果匹配到至少任意一个关键字拼音，保存审计结果并发送报警信息，转步骤S106；否则转步骤(e)。

(e)将步骤(c)产生的内容与关键字同义词进行匹配，如果匹配到至少任意一个关键字同义词，保存审计结果并发送报警信息，转步骤S106。

一般情况下，通过关键字拼音和关键字同义词是可以涵盖目前互联网用户对于敏感关键字的规避，再加上删除特殊符号的处理手段，这两个条件可以获得较为准确的审计结果。

以HTTP协议为例，本发明能够对HTTP中POST和GET使用与预定的语义特征分析条件相匹配互联网内容进行审计并产生报警；否则对HTTP中POST和GET的内容进行特殊符号预处理，使用与预定的语义特征分析条件相匹配互联网内容进行审计并产生报警。对于其他应用层协议，比如FTP、SMTP、POP3、QQ，互联网敏感内容审计处理过程涉及的技术方案相同，不再赘述。

步骤S106：上述关键字匹配模块和语义特征分析执行模块所产生的报警信息被发送至审计中心，审计中心对所述关键字匹配模块和语义特征分析执行模块所产生的报警信息进行监控，并以邮件或者手机短信的方式向审计中心管理人员产生通知信息。管理人员根据已知线索审核处理报警信息，调整基于语义特征分析条件中敏感关键字同义词所产生的报警信息的同义词的优先级。

步骤S107：对于步骤S103还原的网络流中应用层内容进行智能聚类。智能聚类方法是将获取的海量网络内容进行聚类，对聚类的结果中的词汇出现频次进行排名，通过排名次序先期获得需要审计的关键字信息。在实际运用中，智能聚类是以审计系统所获取到的互联网内容为依据进行聚类的，这就需要审计系统后台监控模块保存所收集到的海量互联网内容，不论是何种应用层协议，内容都需要保存。在智能聚类方法对这些海量数据进行数据挖掘后，产生出某个事件段内某些词汇出现频次的一个排名，排名按照由高到低的方式进行。本发明可以根据智能聚类给出的排名，深度挖掘未知的敏感关键字。使得审计系统能够及时、高效的对即将出现的事件、尤其是群体性事件有所掌控。

通常现有技术中的敏感关键字审计只能对已知事件的敏感关键字进行审计，对于未知事件则无法获取相应的关键字。本发明可以获取将来发生事件的敏感关键字，为管理人员尽早给出有用的审计信息。

方法实施例2：

如图4所示，本实施例以HTTP协议的BBS应用为例对本发明所述方法进行说明。

步骤S401：根据检索需求初始添加BBS内容敏感关键字。

步骤S402：生成所添加敏感关键字的语义特征条件。

步骤S403：协议分析阶段，用于分析互联网网络流，以HTTP的POST以及网络域名中是否包含BBS特征为依据，产生网友在BBS论坛上所发布内容，作为关键字匹配步骤的输入。

步骤S404：关键字匹配阶段，用于将经过协议分析所获取的互联网BBS内容与敏感关键字进行匹配，如匹配到，保存审计结果并报警；否则，将互联网内容发送给所述语义特征分析执行模块进行处理。

步骤S405：语义特征分析匹配阶段，用于通过预定的语义特征分析条件对互联网BBS内容进行审计，将所述互联网内容中满足所述预定的语义特征分析条件的内容，作为审计结果进行保存并产生报警；

从图4上可以看出，通过步骤S403，S404，S405的三个过程对帖子进行敏感关键字审计后，能够与敏感关键字匹配的或者和语义特征条件匹配的都将产生审计结果并且发送报警到审计中心，审计中心根据审计结果调整语义特征条件中同义词的优先级。

图4中显示出本发明可以针对HTTP、FTP、SMTP及POP3应用层协议内容进行敏感关键字审计，但本应用实例是针对HTTP的BBS来说的，其他三种方式与本实例处理过程相同，不作赘述。

步骤S406：审计中心在收到BBS的敏感关键字审计报警后，通过邮件或者手机短信向管理人员发送报警信息。

步骤S407：智能聚类每天对步骤S403中协议分析阶段产生的BBS内容进行智能聚类，将智能聚类获得排名前5名的聚类结果作为新的BBS新的敏感关键字，添加至步骤S401。

装置实施例：

如图3所述，本发明所述的装置包括：

敏感关键字生成模块S11：用于通过智能聚类的方法或人工选择先期获得需要审计的关键字信息。

条件生成模块S22：用于生成敏感关键字生成模块S11输出的敏感关键字的语义特征条件。当所述预先定义敏感关键字的语义特征条件为输入信息是否能够与关键字拼音匹配时，通过对敏感关键字进行拼音转换，获取敏感关键字的无声标拼音信息。当所述预先定义敏感关键字的语义特征条件为输入信息是否能够与关键字同义词匹配时，通过对敏感关键字进行词汇智能同义变换，获取相对应的同义词汇，作为同义词匹配的特征条件。

协议分析模块S33：用于分析互联网网络流，产生互联网内容，同时将还原内容发送给审计中心模块。

关键字匹配模块S44，用于将协议分析模块S33输出的互联网内容与敏感关键字生成模块S11输出的敏感关键字进行匹配，如匹配到，保存审计结果并报警；否则，将经过关键字匹配模块后的互联网内容发送给所述语义特征分析执行模块进行处理，同时发送给审计中心模块。

语义特征分析执行模块S55：用于通过条件生成模块S22输出的语义特征分析条件对关键字匹配模块S44输出的互联网内容进行审计，将所述互联网内容中满足所述预定的语义特征分析条件的内容，作为审计结果保存并产生报警。所述语义特征分析执行模块具体包括：

匹配单元S551，用于判断互联网内容中是否含有满足预定的语义特征分析条件的内容，输出至处理单元S552；

处理单元S552，用于根据所述匹配单元对互联网内容的匹配结果，将所述互联网内容中满足预定的语义特征分析条件的内容，作为审计结果保存并报警；否则，不做任何处理。

预处理单元S553，用于对互联网内容中包含有特殊符号的内容进行特殊符号处理，删除特殊符号，输出至匹配单元S551。

审计中心模块S66：用于对所述关键字匹配模块和语义特征分析执行模块所产生的报警信息进行后台监控，通过邮件或者手机短信向管理人员发送报警信息。

智能聚类模块S77，用于对协议分析模块S33产生的内容进行智能聚类，将智能聚类获得排名前5名的聚类结果，作为新的关键字，由敏感关键字添加模块S11进行添加。

本发明通过在互联网敏感内容审计中，采用了语义特征分析过程克服了现有技术中敏感内容审计的被动性和覆盖范围的局限性，覆盖面更加广泛，提高了敏感内容的命中率，同时，通过智能聚类的方法，可以自动发现目前网络上的热点、敏感关键字，为早期获得违法事件的线索提供了手段，能够更好的节约劳动力，提高工作效率。

Claims

1.一种互联网敏感内容审计的方法，其特征在于包括下述步骤：

一、根据需要审计的互联网敏感内容确定敏感关键字；

二、生成敏感关键字的语义特征条件，所述的语义特征条件是敏感关键字的拼音或同义词；

三、依据网络协议对互联网网络流进行协议分析，还原网络流中应用层的内容，作为审计输入；

四、将步骤三中得到的审计输入的内容与步骤一所得的所有敏感关键字进行匹配，如匹配到至少任意一个关键字，保存包含有敏感关键字网络流的源IP地址、目标IP地址、MAC地址和匹配时间作为审计结果，并将此审计结果作为报警信息内容进行发送，否则，转下一步；

五、通过敏感关键字的语义特征条件对步骤三得到的审计输入的内容进行匹配，若匹配到至少任意一个所述的语义特征条件，则保存包含有敏感关键字网络流的源IP地址、目标IP地址、MAC地址和匹配时间作为审计结果，并将此审计结果作为报警信息内容进行发送，否则不做处理；

六、监控步骤四和步骤五产生的报警信息，并向管理人员发出通知；

七、间隔设定的时间周期对步骤三产生的内容进行智能聚类，将智能聚类获得排名前5名的聚类结果，作为新的关键字，通过步骤一进行添加。

2.根据权利要求1所述的一种互联网敏感内容审计的方法，其特征在于：所述的时间周期设定为一天。

3.根据权利要求1所述的一种互联网敏感内容审计的方法，其特征在于：所述的步骤一添加已知的敏感关键字进行或添加通过智能聚类的方法获取的敏感关键字。

4.根据权利要求1所述的一种互联网敏感内容审计的方法，其特征在于：步骤二中所述的语义特征条件是敏感关键字的拼音时，通过对敏感关键字进行拼音转换，获取敏感关键字的无声标拼音信息，作为拼音匹配的特征条件；当所述的语义特征条件是敏感关键字的同义词时，对敏感关键字进行同义词转换，当同义词个数大于等于5个时，选取前5个敏感关键字相对应的同义词汇，否则选取所有的同义词汇，作为同义词匹配的特征条件。

5.根据权利要求1所述的一种互联网敏感内容审计的方法，其特征在于：步骤五所述的通过敏感关键字的语义特征条件对步骤三产生的内容进行匹配包括以下步骤：

(a)将步骤三产生的内容与敏感关键字拼音进行匹配，如果匹配到至少任意一个敏感关键字拼音，保存审计结果并发送报警信息，转步骤六；否则转步骤(b)；

(b)将步骤三产生的内容与敏感关键字同义词进行匹配，如果匹配到至少任意一个敏感关键字同义词，保存审计结果并发送报警信息，转步骤六；否则转步骤(c)；

(c)将步骤三产生的内容删除非中文、字母以及数字的键盘特殊符号，处理完成后继续与敏感关键字进行匹配，如果匹配到至少任意一个敏感关键字同义词，保存审计结果并发送报警信息，转步骤六；否则转步骤(d)；

(d)将步骤(c)产生的内容与敏感关键字拼音进行匹配，如果匹配到至少任意一个敏感关键字拼音，保存审计结果并发送报警信息，转步骤六；否则转步骤(e)；

6.一种实现权利要求1所述互联网敏感内容审计方法的装置，其特征在于包括以下模块：

敏感关键字添加模块，用于生成敏感关键字，可以添加已经知道的敏感关键字和智能聚类模块输出的敏感关键字；

条件生成模块，以敏感关键字添加模块生成的敏感关键字为依据，用于生成语义特征条件，并输出至语义特征分析模块；

协议分析模块，用于协议分析互联网网络流，获取互联网内容，作为关键字匹配模块的输入，同时将还原内容发送给智能聚类模块；

关键字匹配模块，用于将协议分析模块生成的互联网内容与敏感关键字进行匹配，如果匹配到至少任意一个关键字，包含有敏感关键字网络流的源IP地址、目标IP地址、MAC地址和匹配时间作为审计结果并发送报警信息至审计中心模块；否则，将经过关键字匹配模块后的互联网内容发送给所述语义特征分析执行模块进行处理；

语义特征分析执行模块，通过条件生成模块生成的语义特征分析条件对关键字匹配模块输出的互联网内容进行审计，若所述互联网内容中满足所述预定的语义特征分析条件，则将包含有敏感关键字网络流的源IP地址、目标IP地址、MAC地址和匹配时间作为审计结果并发送报警信息至审计中心模块；

审计中心模块，用于对所述关键字匹配模块和语义特征分析执行模块所产生的报警信息进行后台监控，并向审计中心管理人员发出通知信息；

智能聚类模块，间隔设定的时间周期对协议分析模块产生的内容进行智能聚类，将智能聚类获得排名前5名的聚类结果，作为新的关键字添加至敏感关键字添加模块。

7.根据权利要求6的一种互联网敏感内容审计的装置，其特征在于：所述语义特征分析执行模块具体包括：

处理单元，用于根据匹配单元对互联网内容的匹配结果，将所述互联网内容中满足预定的语义特征分析条件的内容，作为审计结果保存并报警；

预处理单元，用于对关键字匹配模块输出的互联网内容中包含有特殊符号的内容进行键盘特殊符号进行删除，然后输出至匹配单元。