CN102542063A

CN102542063A - 内容过滤的方法、装置及系统

Info

Publication number: CN102542063A
Application number: CN2011104564673A
Authority: CN
Inventors: 张辉; 姜南; 范家星
Original assignee: Huawei Technologies Co Ltd
Current assignee: XFusion Digital Technologies Co Ltd
Priority date: 2011-12-30
Filing date: 2011-12-30
Publication date: 2012-07-04
Anticipated expiration: 2031-12-30
Also published as: WO2013097597A1; CN102542063B

Abstract

本发明公开了一种内容过滤的方法、装置及系统，涉及网络通信安全技术领域，提高内容过滤的准确率和效率。该方法包括：获取待过滤的网络内容片断；根据事件元素提取规则，对所述待过滤的网络内容片断进行事件元素提取，并按照事件模板将提取的事件元素生成对应于所述待过滤的网络内容片断的语义特征向量；根据事件分类模型，对所述语义特征向量进行正负类类别判断；若判定为负类，则对所述待过滤的网络内容片断对应的网络内容进行过滤处理。本发明主要应用于网络内容过滤的过程中。

Description

内容过滤的方法、装置及系统

技术领域

本发明涉及通信技术领域，尤其涉及一种内容过滤的方法、装置及系统。

背景技术

随着互联网的发展，人们通过互联网能够获得越来越多的信息。为了在大量的信息中过滤有害信息，为人们提供有益信息，目前使用的现有技术为基于词与词频统计分类的内容过滤方法。所述基于词与词频统计分类的内容过滤方法，主要根据网络信息中词与对应词频特征提取语义特征向量，根据对语义特征向量的分析来对网络内容进行控制，用以过滤有害信息。

在实现上述网络内容过滤的过程中，发明人发现现有技术中至少存在如下问题：基于词与词频统计分类的内容过滤方法，由于使用基于词与词频的统计方法而导致不能理解文本信息的语义，不能处理词与词频特征相似，但语义相反的网络信息，降低了内容过滤的准确率；而且，这种方法由于处理的信息过多而导致使用的语义特征向量维度巨大，加剧文本分类的训练时间，增加过滤时的运算代价，降低了内容过滤的效率。

发明内容

本发明的实施例提供一种内容过滤的方法、装置及系统，提高内容过滤的准确率和效率。

为达到上述目的，本发明的实施例采用如下技术方案：

一种内容过滤的方法，包括：

获取待过滤的网络内容片断；

根据事件元素提取规则，对所述待过滤的网络内容片断进行事件元素提取，并按照事件模板将提取的事件元素生成对应于所述待过滤的网络内容片断的语义特征向量；

根据事件分类模型，对所述语义特征向量进行正负类类别判断；

若所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类，则对所述待过滤的网络内容片断对应的网络内容进行过滤处理。

一种内容过滤的装置，包括：

获取单元，用于获取待过滤的网络内容片断；

特征向量生成单元，用于根据事件元素提取规则，对所述待过滤的网络内容片断进行事件元素提取，并按照事件模板将提取的事件元素生成对应于所述待过滤的网络内容片断的语义特征向量；

第一判断单元，用于根据事件分类模型，对所述语义特征向量进行正负类类别判断；

过滤单元，用于在所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类时，对所述待过滤的网络内容片断对应的网络内容进行过滤处理。

一种通信系统，包括：

深度报文检测DPI设备，用于获取待过滤的网络内容片断；根据事件元素提取规则，对所述待过滤的网络内容片断进行事件元素提取，并按照事件模板将提取的事件元素生成对应于所述待过滤的网络内容片断的语义特征向量；根据事件分类模型，对所述语义特征向量进行正负类类别判断；若所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类，则对所述待过滤的网络内容片断对应的网络内容进行过滤处理。

计费服务器，用于对所述DPI设备进行过滤处理后且传输过来的网络内容进行计费。

本发明实施例提供的内容过滤的方法、装置及系统，通过使用对应于待过滤的所述网络内容片断的语义特征向量，并结合事件分类模型对所述待过滤的所述网络内容片断进行过滤处理，能够准确理解网络内容，提高了内容过滤的准确率；并且，与根据网络内容整体提取语义特征向量相比，网络内容片断的语义特征向量的使用，降低了过滤时的运算代价。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1中的一种内容过滤的方法流程图；

图2为本发明实施例2中的一种内容过滤的方法流程图；

图3为本发明实施例3中的一种内容过滤的方法流程图；

图4为本发明实施例4中的一种内容过滤的装置的组成框图；

图5为本发明实施例4中的另一种内容过滤的装置的组成框图；

图6为本发明实施例4中的另一种内容过滤的装置的组成框图；

图7为本发明实施例4中的另一种内容过滤的装置的组成框图；

图8为本发明实施例4中的另一种内容过滤的装置的组成框图；

图9为本发明实施例4中的另一种内容过滤的装置的组成框图；

图10为本发明实施例4中的另一种内容过滤的装置的组成框图；

图11为本发明实施例4中的另一种内容过滤的装置的组成框图；

图12为本发明实施例4中的网络设备的组成框图；

图13为本发明实施例4中的一种通信系统的组成框图；

图14为本发明实施例4中的上网应用场景的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本发明提供了一种内容过滤的方法，如图1所示，该方法包括：

101、获取待过滤的网络内容片断。

其中，所述待过滤的网络内容片断可以为动态文本数据，也可以为静态文本数据，本发明实施例对此不进行限制；若为动态文本数据时，可以为若干个携带有待过滤的网络内容的数据包；若为静态文本数据时可以是文本文档中的一段文字或全篇文字，本发明在此不进行限制。

102、根据事件元素提取规则，对所述待过滤的网络内容片断进行事件元素提取，并按照事件模板将提取的事件元素生成对应于所述待过滤的网络内容片断的语义特征向量。

其中，所述事件元素提取规则是指在一段文字中选取名词、动词等词性的词，而不选取语气词、助词等词性的词，所述事件元素提取规则的具体实现方式可以由用户自行设定，也可以是从事件元素提取规则库中动态获取对应的事件元素提取规则，本发明对此不再赘述。例如，以待过滤的网络内容片断为“一批法轮功练习者闯入我驻美使馆，围攻我驻美使馆人员，导致多名工作人员受伤”这一句话为例，具体为：

上述待过滤的网络内容片断根据事件元素提取规则提取出的事件元素为法轮功练习者、驻美使馆人员、闯入、围攻、工作人员受伤；对应使用的事件模板为暴力事件模板，所述暴力事件模板包括行为主体、对象、语言特征以及导致相关结果；根据所述暴力事件模板将上述事件元素生成的对应于所述待过滤的网络内容片断的语义特征向量的内容如表1所示。

表1语义特征向量表

行为主体	对象	语言特征	导致相关结果
				法轮功练习者	驻美使馆人员	闯入、围攻	工作人员受伤

对于其他待过滤的网路内容片断及使用其他事件模板生成语义特征向量的实现方法，与上述例子中的实现方法类似，本发明实施例对此不再赘述。

另外，需要说明的是，对语义特征向量表格式的设置根据处理的网络内容不同，实现方法也不同，本发明实施例提供的技术方法不局限于上述例子。

103、根据事件分类模型，对所述语义特征向量进行正负类类别判断。

其中，所述事件分类模型用于判断语义特征向量的正负类别。

104、若所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类，则对所述待过滤的网络内容片断对应的网络内容进行过滤处理。

其中，所述过滤处理可以为丢弃，也可以为拦截并存储，本发明实施例对此不进行限制。

另外，需要说明的是，本发明实施例所处理的网络内容对应的语言种类可以但不局限于中文，也可以为其它语种，例如英语、阿拉伯语、德语、法语等，对应于其它语种的网络内容的过滤处理的实现方式与对应于中文的网络内容的过滤处理的实现方法类似，本发明实施例在此不再详细描述。

另外，需要说明的是，上述技术方案可以在一种网络设备上实现，所述网络设备用于监听网络数据，包括处理器和传输器；其中，

所述处理器，通过所述传输器获取待过滤的网络内容片断，根据事件元素提取规则，对所述待过滤的网络内容片断进行事件元素提取，并按照事件模板将提取的事件元素生成对应于所述待过滤的网络内容片断的语义特征向量，根据事件分类模型，对所述语义特征向量进行正负类类别判断，并所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类时，对所述待过滤的网络内容片断对应的网络内容进行过滤处理。

其中，所述网络设备可以包括但不限于网关设备，如DPI(Deep PacketInspection，深度数据检测技术)网关和3G核心网网关设备，如PDSN(PacketData Serving Node，分组数据服务节点)、GGSN(Gateway GPRS Support Node，网关GPRS支持节点)、网络防火墙等设备，本发明实施例在此不一一列举。

本发明实施例提供的内容过滤的方法，通过使用对应于待过滤的所述网络内容片断的语义特征向量，并结合事件分类模型对所述待过滤的所述网络内容片断进行过滤处理，能够准确理解网络内容，提高了内容过滤的准确率；并且，与根据网络内容整体提取语义特征向量相比，网络内容片断的语义特征向量的使用，降低了过滤时的运算代价。

实施例2

本发明实施例提供了一种内容过滤的方法，如图2所示，该方法为过滤动态文本数据的方法，包括：

201、获取第一粗语料，并对所述第一粗语料进行事件聚类处理，生成第二粗语料、事件模板及事件触发词词表，其中，一个所述事件模板对应事件触发词词表中的多个事件触发词。

其中，该获取第一粗语料，并对所述第一粗语料进行事件聚类处理，生成第二粗语料、事件模板及事件触发词词表可以通过以下方式实现，具体为：

获取第一粗语料，所述第一粗语料为存放在计算机里的原始文本或经过加工后带有语言学信息标注的语料文本，这些文本的来源可以为目前常见的各个门户网站上展出的网络内容。在获取第一粗语料之后，还需要对所述第一粗语料进行自然语言处理NLP，所述NLP包括分词、词性标注、句法分析等。

对所述第一粗语料按照政治、经济、文化、军事等类别分别进行处理，生成第二粗语料、事件模板及事件触发词词表，对所述第一粗语料进行处理所参照的类别不局限于此，用户可根据实际情况自行设置和添加。

其中，所述事件模板与事件触发词的对应关系为个所述事件模板对应事件触发词词表中的多个事件触发词，例如，事件模板为暴力事件模板，则对应的事件触发词为闯入、猛闯、砸烂、扔等。

202、根据所述事件触发词词表中的事件触发词，在所述第二粗语料中识别出包含所述事件触发词的事件句，并对所述事件句进行标注生成动态文本事件分类训练语料。

203、从所述动态文本事件分类训练语料的事件句中根据所述事件句中的事件触发词对应的事件模板提取语义特征向量，并根据所述语义特征向量进行模型训练，生成动态文本事件分类模型，所述动态文本事件分类模型，用于指示语义特征向量的正负类别。

其中，在处理动态文本数据时，所述从所述动态文本事件分类训练语料的事件句中根据所述事件句中的事件触发词对应的事件模板提取语义特征向量的实现方法与步骤102的相关描述相同，本发明实施例对此不再赘述。

需要说明的是，所述根据语义特征向量进行分类，生成的动态文本事件分类模型，以实现对应于一个事件模板都存在包含正类模型和负类模型的动态文本事件分类模型，以使得计算机等设备可以根据所述包含正类模型和负类模型的动态文本事件分类模型判断语义特征向量的正负类别。

另外，需要说明的是，步骤201至步骤203为动态文本数据过滤的使用的动态文本事件分类模型的训练过程，在对动态文本数据进行过滤处理时，可以重新执行步骤201至步骤203，也可以直接使用已经生成的动态文本事件分类模型，本发明实施例对此不进行限制。

204、获取当前数据包以及所述当前数据包的前驱数据包。

其中，所述前驱数据包为所述当前数据包的前一个相邻的数据包。

205、对所述当前数据包及所述前驱数据包进行解封装，得到所述当前数据包及所述前驱数据包的内容。

其中，所述对所述当前数据包及所述前驱数据包进行解封装，得到所述当前数据包及所述前驱数据包的内容的实现方法为本领域技术人员公知的技术，可以采用现有技术中的任一种方法实现，本发明实施例在此不再详细说明。

206、判断所述当前数据包及所述前驱数据包的内容中是否存在事件触发词，所述事件触发词用于指示进行网络内容过滤时使用事件模板的类型。若所述当前数据包或所述前驱数据包中任意一个的内容中存在事件触发词，则执行步骤207；若所述当前数据包和所述前驱数据包的内容中均不存在所述事件触发词，则执行步骤208。

其中，所述事件模板与所述触发词的对应关系与所述步骤201的相关描述相同，本发明实施例对此不再赘述。

207、将所述当前数据包和所述前驱数据包重组，生成待过滤的网络内容片断，并执行步骤209。

其中，所述待过滤的网络内容片断的相关描述与步骤101中的相关描述相同，本发明实施例对此不再赘述。

208、直接转发所述前驱数据包并缓存所述当前数据包。

其中，缓存所述当前数据包用于在后继数据包到来时，作为后继数据包的前驱数据包进行处理。

其中，所述后继数据包为与当前数据包相邻的后一个数据包。

209、从所述待过滤的网络内容片断中提取事件句，并对所述事件句进行自然语言处理。

需要说明的是，由于组成所述待过滤的网络内容片断的数据包只有两个，通常情况下，两个数据包的存储容量可以承载一个事件句。

210、根据事件元素提取规则，对经过自然语言处理后的事件句进行事件元素提取，并按照事件模板将提取的事件元素生成对应于所述待过滤的网络内容片断的特征向量。

其中，所述根据事件元素提取规则，对经过自然语言处理后的事件句进行事件元素提取，并按照事件模板将提取的事件元素生成对应于所述待过滤的网络内容片断的语义特征向量的实现方式与步骤102的相关描述相同，本发明实施例对此不再赘述。

211、根据所述动态文本事件分类模型，对所述语义特征向量进行正负类类别判断。

需要说明的是，所述动态文本事件分类模型包括正类模型和负类模型，其中正类模型可以如表2所示，负类模型可以如表3所示，所述正类模型与所述负类模型均对应于暴力事件模板，其他类型的事件模板也设置有对应的正类模型和负类模型，用户可根据实际需求自行设置。

表2正类模型

表3负类模型

所述根据动态文本事件分类模型，对所述语义特征向量进行正负类类别判断的实现方法具体为根据正类模型和负类模型，对语义特征向量进行词性及语义匹配，若所述语义特征向量与正类模型的词性及语义匹配则判定为正类；若所述语义特征向量与负类模型的词性及语义匹配则判定为负类。

212、于第一阈值时间段内，对判定为负类事件的次数进行统计，得到统计值，并判断所述统计值是否大于第一阈值。若所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类且系统当前统计值大于第一阈值，则执行步骤213；否则执行步骤214。

应当理解的是，统计操作可以是定时触发，也可以是事件触发，本发明对此不做限定。在一种实现方式下，可以理解为：系统启动后进行持续的统计，换言之，第一阈值时间段即系统启动起直到一个时间点，满足第一阈值时间段；在另一种实现方式下，可以理解为：定时或事件触发开始起直到一个时间点，满足第一阈值时间段。

第一阈值时间段是可以根据实际需要灵活设置，本发明对此不做限定。

第一阀值是可以根据实际应用或经验值灵活设置，例如可以是10次。

其中，所述第一阈值与所述负类网路内容片断所对应的分类(如政治、经济、文化等)有关，不同的分类设置不同的阈值，具体实现方式可由用户自行设置，本发明实施例对此不进行限制。

其中，所述判定为负类事件的次数可以显示在控制端的控制面板上，用户也可以按照实际需求设置其他处理方式，本发明实施例对此不进行限制。

213、将所述负类网络内容片断对应的网络内容的进行过滤处理。

其中，所述过滤处理的相关描述与步骤104的相关描述相同，本发明实施例不再赘述。

214、将所述负类网络内容片断对应的网络内容的进行转发。

本发明实施例提供的过滤动态文本数据的方法，通过使用对应于待过滤的所述网络内容片断的语义特征向量，并结合事件分类模型对所述待过滤的所述网络内容片断进行过滤处理，能够准确理解网络内容，提高了内容过滤的准确率。

并且，与根据网络内容整体提取语义特征向量相比，动态文本数据片断的语义特征向量的使用，降低了过滤时的运算代价，同时也缩短了事件分类模型的建立时间，进而降低了对文本分类的训练时间。

而且，在获取带过滤的网络内容片断时，只缓存两个数据包的内容，与缓存整个网页进行过滤处理相比，降低了内存资源消耗，提高资源利用率。

同时，对于待过滤的网络内容的过滤处理会根据待过滤的网络内容片断的负类情况进行相应的处理，保证了过滤处理的准确性。

实施例3

本发明实施例中提供了一种内容过滤的方法，如图3所示，该方法为过滤静态文本数据的方法，包括：

301、获取第一粗语料，并对所述第一粗语料进行事件聚类处理，生成第二粗语料、事件模板及事件触发词词表，其中，一个所述事件模板对应事件触发词词表中的多个事件触发词。

其中，所述获取第一粗语料，并对所述第一粗语料进行事件聚类处理，生成第二粗语料、事件模板及事件触发词词表的实现方法与步骤201的相关描述相同，本发明实施例对此不再赘述。

302、根据所述事件触发词词表中的事件触发词，在所述第二粗语料中识别出包含所述事件触发词的事件句，并对所述事件句进行标注，生成静态文本事件分类训练语料。

303、从所述静态文本事件分类训练语料的事件句中，根据所述事件句中的事件触发词对应的事件模板提取语义特征向量，并根据所述语义特征向量进行模型训练，生成静态文本事件分类模型，所述静态文本事件分类模型，用于指示语义特征向量的正负类别。

其中，在处理静态文本数据时，从所述静态文本事件分类训练语料的事件句中根据所述事件句中的事件触发词对应的事件模板提取语义特征向量可以通过以下方式实现，举例说明：

假设静态文本为“1月23日午后，北京天安门广场祥和平静。就在这个时候，一起人们意想不到的几名“法轮功”痴迷者自焚事件。

事件发生后，虽经民警奋力扑救，但仍有一名痴迷“法轮功”邪教的妇女当场被烧死，4人严重灼伤，目前正在医院全力救治。另有两名“法轮功”痴迷者自焚未遂，正接受调查。

公安机关初步调查证实，这7名参与自焚事件的人来自河南省开封市，都是痴迷“法轮功”、中毒很深的人。”

上述静态文本包括多个事件句，根据每个事件句对应的事件模板获得的语义特征向量为：{(“法轮功”痴迷者，自焚，“法轮功”痴迷者)，(民警，扑救，自焚人员)，(医院，救治，自焚人员)，(公安机关，证实，自焚者为“法轮功”痴迷者)}。

其中，(“法轮功”痴迷者，自焚，“法轮功”痴迷者)、(民警，扑救，自焚人员)、(医院，救治，自焚人员)及(公安机关，证实，自焚者为“法轮功”痴迷者)为语义特征向量的一维，每一维由一个事件句通过对应的事件模板及事件元素生成。

需要说明的是，根据静态文本数据内容的不同，提取出的语义特征向量的内容也不同，但实现方式都是类似的，本发明实施例对此不再赘述。

其中，所述静态文本事件分类模型包括正类模型和负类模型，其中对所述正类模型和负类模型的相关描述与所述步骤211中的相关描述类似，本发明实施例对此不再赘述。

另外，需要说明的是，步骤301至步骤303为静态文本数据过滤的使用的静态文本事件分类模型的训练过程，在对静态文本数据进行过滤处理时，可以重新执行步骤301至步骤303，也可以直接使用已经生成的静态文本事件分类模型，本发明实施例对此不进行限制。

304、获取待过滤的网路内容片断。

其中，所述待过滤的网络内容片断可以为静态文本数据片断，也可以为静态文本数据的全部数据，例如文本文档的一部分文字或所述文本文档的全部文字，本发明实施例对此不进行限制。

305、从所述待过滤的网络内容片断中提取多个事件句，并对多个事件句分别进行自然语言处理。

需要说明的是，由于组成所述待过滤的网络内容片断的数据为一段文字，通常情况下，可以包括多个事件句。

306、根据事件元素提取规则，对经过自然语言处理后的多个事件句进行事件元素提取，并按照事件模板将提取的事件元素生成对应于所述待过滤的网络内容片断的语义特征向量。

其中，所述语义特征向量的格式与步骤303中的相关描述相同，所述根据事件元素提取规则，对经过自然语言处理后的多个事件句进行事件元素提取，并按照事件模板将提取的事件元素生成对应于所述待过滤的网络内容片断的语义特征向量的实现方式与所述步骤303中的相关描述类似，本发明实施例对此不再赘述。

307、根据静态文本事件分类模型，对所述语义特征向量进行正负类类别判断。若判定为负类，则执行步骤308；若判定为正类，则执行步骤309。

其中，所述根据静态文本事件分类模型，对所述语义特征向量进行正负类类别判断的实现方式与步骤211的相关描述类似，都是依照对应于语义特征向量的格式建立的事件分类模型进行语义特征向量的正负类别判断，具体实现方式本发明实施例对此不再赘述。

308、对所述待过滤的网络内容片断对应的所述网络内容的进行过滤处理。

309、将对所述待过滤的网络内容片断进行转发。

值得说明的是，在308、对所述待过滤的网络内容片断对应的所述网络内容的进行过滤处理之前，为了提高内容过滤的准确性，该方法还可以包括：

判断所述待过滤的网络内容片断对应的网络内容长度是否超过第二阈值。

若所述待过滤的网络内容片断对应的网络内容长度没有超过第二阈值，则执行步骤308。

若超过第二阈值，则于第二阈值时间段内，对判定为负类事件的次数进行统计，得到第二统计值。

若所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类且所述第二统计值等于或小于第三阈值，则执行步骤309。

若所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类且所述第二统计值大于第三阀值，则执行步骤308。

其中，所述第二阈值、第二阈值时间段和第三阈值都可以根据实际情况和需要，灵活进行设置，本发明实施例对此不进行限制。

另外，需要说明的是，在处理静态文本数据时，也可以依次提取出静态文本文档中事件句的语义特征向量，并根据动态文本事件分类模型对所述事件句语义特征向量，进行正负类判断，统计负类事件数，判断负类事件数是否大于预设置的阈值，并根据判断结果做出相应的处理，具体实现方法与对动态文本数据进行过滤处理的实现方式类似，本发明实施例对此不再赘述。

本发明实施例提供的过滤静态文本数据的方法，通过使用对应于待过滤的所述网络内容片断的语义特征向量，并结合事件分类模型对所述待过滤的所述网络内容片断进行过滤处理，能够准确理解网络内容，提高了内容过滤的准确率。

并且，与根据网络内容整体提取语义特征向量相比，静态文本数据的片断的语义特征向量的使用，降低了过滤时的运算代价，同时也缩短了事件分类模型的建立时间，进而降低了对文本分类的训练时间。

实施例4

本发明实施例中提供了一种内容过滤的装置，如图4所示，该装置包括：获取单元41、特征向量生成单元42、第一判断单元43、过滤单元44。

获取单元41，用于获取待过滤的网络内容片断。

特征向量生成单元42，用于根据事件元素提取规则，对所述待过滤的网络内容片断进行事件元素提取，并按照事件模板将提取的事件元素生成对应于所述待过滤的网络内容片断的语义特征向量。

第一判断单元43，用于根据事件分类模型，对所述语义特征向量进行正负类类别判断。

过滤单元44，用于在所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类时，对所述待过滤的网络内容片断对应的网络内容进行过滤处理。

进一步的，如图5所示，所述获取单元41包括：获取模块411、解封装模块412、判断模块413、生成模块414。

获取模块411，用于获取当前数据包以及所述当前数据包的前驱数据包。

解封装模块412，用于对所述当前数据包及所述前驱数据包进行解封装，获取所述当前数据包及所述前驱数据包的内容。

判断模块413，用于判断所述当前数据包及所述前驱数据包的内容中是否存在事件触发词，所述事件触发词用于指示进行网络内容过滤时使用事件模板的类型。

生成模块414，用于在所述当前数据包或所述前驱数据包中任意一个的内容中存在事件触发词时，将所述当前数据包和所述前驱数据包重组，生成待过滤的网络内容片断。

进一步的，如图6所示，该装置还包括：转发单元45。

转发单元45，用于在所述当前数据包和所述前驱数据包的内容中均不存在所述事件触发词时，直接转发所述前驱数据包并缓存所述当前数据包。

进一步的，如图7所示，所述特征向量生成单元包括42：第一提取模块421、第二提取模块422。

第一提取模块421，用于在所述待过滤的网络内容片断为静态文本数据时，从所述待过滤的网络内容片断中提取事件句，并对所述事件句进行自然语言处理；

第二提取模块422，用于根据事件元素提取规则，对经过自然语言处理后的事件句进行事件元素提取。

可选的，如图8所示，所述语义特征向量生成单元包括42还包括：第三提取模块423、第四提取模块424、第一生成模块425、第二生成模块426。

第三提取模块423，用于在所述待过滤的网络内容片断为静态文本数据时，从所述待过滤的网络内容片断中提取多个事件句，并对多个事件句分别进行自然语言处理。

第四提取模块424，用于根据事件元素提取规则，对经过自然语言处理后的多个事件句进行事件元素提取。

第一生成模块425，用于根据事件模板，将提取的对应于事件句的事件元素生成对应的语义特征向量。

第二生成模块426，用于将所述对应于多个事件句的语义特征向量组合生成对应于待过滤的所述网络内容片断的语义特征向量。

进一步的，如图9所示，该装置还包括：第一生成单元46、第二生成单元47、第三生成单元48。

第一生成单元46，用于获取第一粗语料，并对所述第一粗语料进行事件聚类处理，生成第二粗语料、事件模板及事件触发词词表，其中，一个所述事件模板对应事件触发词词表中的多个事件触发词。

第二生成单元47，用于根据所述事件触发词词表中的事件触发词，在所述第二粗语料中识别出包含所述事件触发词的事件句，并对所述事件句进行标注生成事件分类训练语料。

第三生成单元48，用于从所述事件分类训练语料的事件句中根据所述事件句中的事件触发词对应的事件模板提取语义特征向量，并根据所述语义特征向量进行模型训练，生成事件分类模型，所述事件分类模型，用于指示语义特征向量的正负类别。

进一步的，所述转发单元45还用于在判断为正类时，直接转发所述待过滤的网络内容片断。

进一步的，如图10所示，该装置还包括：统计单元50。

统计单元50，用于在所述待过滤的网络内容片断为动态文本数据时，在于第一阈值时间段内，对判定为负类事件的次数进行统计，得到第一统计值。

所述转发单元45，还可以用于在所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类且所述第一统计值等于或小于第一阈值时，将所述负类网络内容片断对应的网络内容进行转发。

所述过滤单元44，还可以用于在所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类且系统当前统计值大于第一阀值时，对所述待过滤的网络内容片断对应的网络内容进行过滤处理。

进一步的，如图11所示，该装置还包括：第二判断单元51。

第二判断单元51，用于在所述待过滤的网络内容片断为静态文本数据时，判断所述待过滤的网络内容片断对应的网络内容长度是否超过第二阈值。

所述统计单元50，还可以用于于第二阈值时间段内，对判定为负类事件的次数进行统计，得到第二统计值。

所述转发单元45，还可以用于在所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类且所述第二统计值等于或小于第三阈值时，则将所述负类网络内容片断对应的网络内容进行转发。

所述过滤单元44，还可以用于在所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类且所述第二统计值大于第三阀值时，对所述待过滤的网络内容片断对应的网络内容进行过滤处理。

所述过滤单元44，还可以用于在所述待过滤的网络内容片断对应的网络内容长度没有超过第二阈值时，对所述待过滤的网络内容片断对应的网络内容进行过滤处理。

在实际应用中，在一种实现方式下，本发明实施例的内容过滤的装置可以为独立的物理装置，即DPI设备；在另一种实现方式下，本发明实施例的内容过滤的装置可以是具有本发明实施例的内容过滤功能的网元设备，其产品形态可以是路由器，网关设备，GGSN，PDSN，网络防火墙设备等等；具体的，本发明实施例的内容过滤的装置也可以为软件设备，以功能加强的形式安装在旧网或现网中的网元设备上。

可见，本发明实施例提供的内容过滤的装置，通过使用对应于待过滤的所述网络内容片断的语义特征向量，并结合事件分类模型对所述待过滤的所述网络内容片断进行过滤处理，能够准确理解网络内容，提高了内容过滤的准确率。

并且，与根据网络内容整体提取语义特征向量相比，对应于所述待过滤的网络内容片断的语义特征向量的使用，降低了过滤时的运算代价，同时也缩短了事件分类模型的建立时间，进而降低了对文本分类的训练时间。

而且，在获取带过滤的网络内容片断时，只缓存两个数据包的内容，与缓存整个网页进行过滤处理相比，减少了处理时间，提高了过滤处理的效率。

本发明实施例中提供了一种网络设备，如图12所示，该网络设备包括：处理器51和传输器52；其中，

所述处理器51，通过所述传输器52获取待过滤的网络内容片断，根据事件元素提取规则，对所述待过滤的网络内容片断进行事件元素提取，并按照事件模板将提取的事件元素生成对应于所述待过滤的网络内容片断的语义特征向量，根据事件分类模型，对所述语义特征向量进行正负类类别判断，并所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类时，对所述待过滤的网络内容片断对应的网络内容进行过滤处理。

本发明实施例的网络设备具体可以是路由器，网关设备，GGSN，PDSN，网络防火墙设备等等。

本实施例中没有详述的部分，可以参见其他实施例的相关描述。

可见，本发明实施例中提供的网络设备，通过使用对应于待过滤的所述网络内容片断的语义特征向量，并结合事件分类模型对所述待过滤的所述网络内容片断进行过滤处理，能够准确理解网络内容，提高了内容过滤的准确率；并且，与根据网络内容整体提取语义特征向量相比，网络内容片断的语义特征向量的使用，降低了过滤时的运算代价。

本发明实施例中提供了一种通信系统，如图13所示，该通信系统包括：深度报文检测DPI设备61、计费服务器62、报表服务器63、用户设备64。

深度报文检测DPI设备61，用于获取用户设备64(64-1，64-2，…，64-n)发送的待过滤的网络内容片断；根据事件元素提取规则，对所述待过滤的网络内容片断进行事件元素提取，并按照事件模板将提取的事件元素生成对应于所述待过滤的网络内容片断的语义特征向量；根据事件分类模型，对所述语义特征向量进行正负类类别判断；若所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类，则对所述待过滤的网络内容片断对应的网络内容进行过滤处理。

计费服务器62，用于对所述DPI设备进行过滤处理后且传输过来的网络内容进行计费。

报表服务器63，用于对所述DPI设备进行过滤处理后且传输过来的网络内容进行数据分析统计。

进一步的，所述DPI设备61还用于在所述对应于所述待过滤的网络内容片断的语义特征向量被判定为正类时，转发所述待过滤的网络内容片断。

进一步的，所述计费服务器62具体用于基于事件，对所述DPI设备进行过滤处理后且传输过来的网络内容进行计费。

在实际应用中，本发明实施例的通信系统的一种网络示意图，如图14所示的上网应用场景，在用户设备(UE，User Experience)将网络数据包发送至因特网(Internet)之前需要经过汇聚设备(如BRAS或GGSN或PDSN等)，并传递到DPI设备，其中DPI设备可以与计费服务器，安全防护服务器，知识库升级服务器，报表与分析服务器，行为分析服务器，策略服务器和认证服务器具有通信连接。

上面仅通过一些具体的实例对本发明实施例中通信系统的应用场景进行了说明，可以理解的是，在实际应用中，还可以有更多的应用场景，具体此处不作限定。

本发明实施例的通信系统中，应当理解的是，在一种实现方式下，所述DPI设备可以为独立的物理装置；在另一种实现方式下，DPI设备可以是具有DPI功能的网元设备，其产品形态可以是路由器，网关设备，网络防火墙设备，或GGSN或PDSN等等；应当理解的是，DPI设备支持独立外置，DPI设备能与现有设备进行对接，也可以内置于现网的网元设备上。

可见，本发明实施例中提供的通信系统，通过使用对应于待过滤的所述网络内容片断的语义特征向量，并结合事件分类模型对所述待过滤的所述网络内容片断进行过滤处理，能够准确理解网络内容，提高了内容过滤的准确率；并且，与根据网络内容整体提取语义特征向量相比，网络内容片断的语义特征向量的使用，降低了过滤时的运算代价。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种内容过滤的方法，其特征在于，包括：

获取待过滤的网络内容片断；

2.根据权利要求1所述的内容过滤的方法，其特征在于，所述获取待过滤的网络内容片断，包括：

获取当前数据包以及所述当前数据包的前驱数据包；

对所述当前数据包及所述前驱数据包进行解封装，得到所述当前数据包及所述前驱数据包的内容；

判断所述当前数据包及所述前驱数据包的内容中是否存在事件触发词，所述事件触发词用于指示进行网络内容过滤时使用事件模板的类型；

若所述当前数据包或所述前驱数据包中任意一个的内容中存在事件触发词，则将所述当前数据包和所述前驱数据包重组，得到待过滤的网络内容片断。

3.根据权利要求2所述的内容过滤的方法，其特征在于，在判断所述当前数据包及所述前驱数据包的内容中是否存在事件触发词之后，还包括：

若所述当前数据包和所述前驱数据包的内容中均不存在所述事件触发词，则直接转发所述前驱数据包并缓存所述当前数据包。

4.根据权利要求1或2所述的内容过滤的方法，其特征在于，当所述待过滤的网络内容片断为动态文本数据时，所述根据事件元素提取规则，对所述待过滤的网络内容片断进行事件元素提取包括：

从所述待过滤的网络内容片断中提取事件句，并对所述事件句进行自然语言处理；

根据事件元素提取规则，对经过自然语言处理后的事件句进行事件元素提取。

5.根据权利要求1所述的内容过滤的方法，其特征在于，当所述待过滤的网络内容片断为静态文本数据时，所述根据事件元素提取规则，对所述待过滤的网络内容片断进行事件元素提取还包括：

从所述待过滤的网络内容片断中提取多个事件句，并对多个事件句分别进行自然语言处理；

根据事件元素提取规则，对经过自然语言处理后的多个事件句进行事件元素提取；

所述按照事件模板将提取的事件元素生成对应于所述待过滤的网络内容片断的语义特征向量为：

根据事件模板，将提取的对应于事件句的事件元素生成对应的语义特征向量；

将所述对应于多个事件句的语义特征向量组合生成对应于待过滤的所述网络内容片断的语义特征向量。

6.根据权利要求1所述的内容过滤的方法，其特征在于，在所述获取待过滤的网络内容片断之前，还包括：

获取第一粗语料，并对所述第一粗语料进行事件聚类处理，生成第二粗语料、事件模板及事件触发词词表，其中，一个所述事件模板对应事件触发词词表中的多个事件触发词。

根据所述事件触发词词表中的事件触发词，在所述第二粗语料中识别出包含所述事件触发词的事件句，并对所述事件句进行标注生成事件分类训练语料；

从所述事件分类训练语料的事件句中根据所述事件句中的事件触发词对应的事件模板提取语义特征向量，并根据所述语义特征向量进行模型训练，生成事件分类模型，所述事件分类模型，用于指示语义特征向量的正负类别。

7.根据权利要求1所述的内容过滤的方法，其特征在于，在所述根据事件分类模型，对所述语义特征向量进行正负类类别判断之后，还包括：

若所述对应于所述待过滤的网络内容片断的语义特征向量被判断为正类，则直接转发所述待过滤的网络内容片断。

8.根据权利要求1所述的内容过滤的方法，其特征在于，当所述待过滤的网络内容片断为动态文本数据时，在对所述待过滤的网络内容片断对应的网络内容进行过滤处理之前，还包括：

于第一阈值时间段内，对判定为负类事件的次数进行统计，得到第一统计值；

若所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类且所述第一统计值等于或小于第一阈值，则将所述负类网络内容片断对应的网络内容进行转发；

若所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类且所述第一统计值大于第一阀值，则执行所述对所述待过滤的网络内容片断对应的网络内容进行过滤处理。

9.根据权利要求1所述的内容过滤的方法，其特征在于，当所述待过滤的网络内容片断为静态文本数据时，在对所述待过滤的网络内容片断对应的网络内容进行过滤处理之前，还包括：

判断所述待过滤的网络内容片断对应的网络内容长度是否超过第二阈值；

若超过第二阈值，则于第二阈值时间段内，对判定为负类事件的次数进行统计，得到第二统计值；

若所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类且所述第二统计值等于或小于第三阈值，则将所述负类网络内容片断对应的网络内容进行转发；

若所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类且所述第二统计值大于第三阀值，则执行所述对所述待过滤的网络内容片断对应的网络内容进行过滤处理。

10.根据权利要求9所述的内容过滤的方法，其特征在于，在判断所述待过滤的网络内容片断对应的网络内容长度是否超过第二阈值之后，还包括：

若所述待过滤的网络内容片断对应的网络内容长度没有超过第二阈值，则执行所述对所述待过滤的网络内容片断对应的网络内容进行过滤处理。

11.一种内容过滤的装置，其特征在于，包括：

获取单元，用于获取待过滤的网络内容片断；

过滤单元，用于在所述对应于所述待过滤的网络内容片断的语义特征向量被判断为负类时，对所述待过滤的网络内容片断对应的网络内容进行过滤处理。

12.根据权利要求11所述的内容过滤的方法，其特征在于，所述获取单元包括：

获取模块，用于获取当前数据包以及所述当前数据包的前驱数据包；

解封装模块，用于对所述当前数据包及所述前驱数据包进行解封装，获取所述当前数据包及所述前驱数据包的内容；

判断模块，用于判断所述当前数据包及所述前驱数据包的内容中是否存在事件触发词，所述事件触发词用于指示进行网络内容过滤时使用事件模板的类型；

生成模块，用于在所述当前数据包或所述前驱数据包中任意一个的内容中存在事件触发词时，将所述当前数据包和所述前驱数据包重组，生成待过滤的网络内容片断。

13.根据权利要求12所述的内容过滤的装置，其特征在于，该装置还包括：

转发单元，用于在所述当前数据包和所述前驱数据包的内容中均不存在所述事件触发词时，直接转发所述前驱数据包并缓存所述当前数据包。

14.根据权利要求11或12所述的内容过滤的装置，其特征在于，所述特征向量生成单元包括：

第一提取模块，用于在所述待过滤的网络内容片断为动态文本数据时，从所述待过滤的网络内容片断中提取事件句，并对所述事件句进行自然语言处理；

第二提取模块，用于根据事件元素提取规则，对经过自然语言处理后的事件句进行事件元素提取。

15.根据权利要求11或12所述的内容过滤的装置，其特征在于，所述特征向量生成单元还包括：

第三提取模块，用于在所述待过滤的网络内容片断为静态文本数据时，从所述待过滤的网络内容片断中提取多个事件句，并对多个事件句分别进行自然语言处理。

第四提取模块，用于根据事件元素提取规则，对经过自然语言处理后的多个事件句进行事件元素提取；

第一生成模块，用于根据事件模板，将提取的对应于事件句的事件元素生成对应的语义特征向量；

第二生成模块，用于将所述对应于多个事件句的语义特征向量组合生成对应于待过滤的所述网络内容片断的语义特征向量。

16.根据权利要求11所述的内容过滤的装置，其特征在于，该装置还包括：

第一生成单元，用于获取第一粗语料，并对所述第一粗语料进行事件聚类处理，生成第二粗语料、事件模板及事件触发词词表，其中，一个所述事件模板对应事件触发词词表中的多个事件触发词；

第二生成单元，用于根据所述事件触发词词表中的事件触发词，在所述第二粗语料中识别出包含所述事件触发词的事件句，并对所述事件句进行标注生成事件分类训练语料；

第三生成单元，用于从所述事件分类训练语料的事件句中根据所述事件句中的事件触发词对应的事件模板提取语义特征向量，并根据所述语义特征向量进行模型训练，生成事件分类模型，所述事件分类模型用于指示语义特征向量的正负类别。

17.根据权利要求11所述的内容过滤的装置，其特征在于，所述转发单元还用于在所述对应于所述待过滤的网络内容片断的语义特征向量被判断为正类时，直接转发所述待过滤的网络内容片断。

18.根据权利要求11所述的内容过滤的装置，其特征在于，当所述待过滤的网络内容片断为动态文本数据时，该装置还包括：

统计单元，用于于第一阈值时间段内，对判定为负类事件的次数进行统计，得到第一统计值；

所述转发单元，还用于在所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类且所述第一统计值等于或小于第一阈值时，将所述负类网络内容片断对应的网络内容进行转发；

所述过滤单元，还用于在所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类且所述第一统计值大于第一阀值时，对所述待过滤的网络内容片断对应的网络内容进行过滤处理。

19.根据权利要求11所述的内容过滤的装置，其特征在于，当所述待过滤的网络内容片断为静态文本数据时，该装置还包括：

第二判断单元，用于判断所述待过滤的网络内容片断对应的网络内容长度是否超过第二阈值，若所述待过滤的网络内容片断对应的网络内容长度超过第二阈值，触发所述统计单元；若所述待过滤的网络内容片断对应的网络内容长度没有超过第二阈值，触发所述过滤单元；

所述统计单元，还用于于第二阈值时间段内，对判定为负类事件的次数进行统计，得到第二统计值；

所述转发单元，还用于在所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类且所述第二统计值等于或小于第三阈值时，则将所述负类网络内容片断对应的网络内容进行转发；

所述过滤单元，还用于在所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类且所述第二统计值大于第三阀值时，对所述待过滤的网络内容片断对应的网络内容进行过滤处理；还用于在所述待过滤的网络内容片断对应的网络内容长度没有超过第二阈值时，对所述待过滤的网络内容片断对应的网络内容进行过滤处理。

20.一种网络设备，所述网络设备用于监听网络数据，其特征在于，包括：处理器和传输器；其中，

21.一种通信系统，其特征在于，包括：

深度报文检测DPI设备，用于获取待过滤的网络内容片断；根据事件元素提取规则，对所述待过滤的网络内容片断进行事件元素提取，并按照事件模板将提取的事件元素生成对应于所述待过滤的网络内容片断的语义特征向量；根据事件分类模型，对所述语义特征向量进行正负类类别判断；若所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类，则对所述待过滤的网络内容片断对应的网络内容进行过滤处理；

22.根据权利要求21所述的系统，其特征在于，所述DPI设备还用于若所述对应于所述待过滤的网络内容片断的语义特征向量被判定为正类，则转发所述待过滤的网络内容片断。

23.根据权利要求21或22所述的系统，其特征在于，所述计费服务器具体用于基于事件，对所述DPI设备进行过滤处理后且传输过来的网络内容进行计费。

24.根据权利要求21或22所述的系统，其特征在于，进一步包括：

报表服务器，用于对所述DPI设备进行过滤处理后且传输过来的网络内容进行数据分析统计。