CN107679075B

CN107679075B - 网络监控方法和设备

Info

Publication number: CN107679075B
Application number: CN201710743043.2A
Authority: CN
Inventors: 李智博; 李宝环; 董旭
Original assignee: Beijing Deta Jingyao Information Technology Co ltd
Current assignee: Beijing Deta Jingyao Information Technology Co ltd
Priority date: 2017-08-25
Filing date: 2017-08-25
Publication date: 2020-06-02
Anticipated expiration: 2037-08-25
Also published as: CN107679075A

Abstract

本发明提供网络监控方法和设备用于解决需要提供一种不持续依赖于专业人员收集敏感词的上网行为监控方法的问题。其中方法包括获得预设语料中具有正向标记和负向标记的句子/短语；其中若句子/短语具有负向标记，表示该句子/短语包含负向敏感信息，若句子/短语具有正向标记，则该句子/短语不包含负向敏感信息；对预设语料进行分词处理，获得分词，根据预设语料计算分词向量；根据组成句子/短语的分词所对应的分词向量，及其他步骤。相比于现有技术中的关键词过滤方法，本方法不依赖于敏感词的更新和筛选，从而随着时间的推进，若不更新关键词库，这关键词过滤方法的识别率会降低，而本方法的识别率会更高。

Description

网络监控方法和设备

技术领域

本发明涉及通信技术/计算机技术，具体涉及网络监控方法和设备。

背景技术

现有技术中，采用关键词过滤对上网行为进行监控。关键字过滤，指网络应用中，对传输信息进行预先的程序过滤、嗅探指定的关键字词(例如网络)，并进行智能识别，检查网络中是否有违反指定策略的行为。类似于IDS的过滤管理，这种过滤机制是主动的，通常对包含关键词的信息进行阻断连接、取消或延后显示、替换、人工干预等处理。

关键词过滤的主要布置在路由器、应用服务器、终端软件上，对应的应用场合主要有：网络访问、论坛、网志、即时通讯、电子邮件等。例如将敏感词作为关键词过滤上网行为。敏感词一般是指带有敏感政治倾向(或反执政党倾向)、暴力倾向、不健康色彩的词或不文明语，也有一些网站根据自身实际情况，设定一些只适用于本网站的特殊敏感词。

但是上述基于敏感词的关键词过滤依赖于与敏感词库，要想保持过滤的准确性，需要及时更新敏感词库，且敏感词库的覆盖范围取决于收集敏感词的专业人员，专业人员收集敏感信息的能力直接影响对敏感词匹配的质量。

因此需要提供一种不持续依赖于专业人员收集敏感词的上网行为监控方法。

发明内容

鉴于上述问题，本发明提出了克服上述问题或者至少部分地解决上述问题的网络监控方法和设备。

为此目的，第一方面，本发明提出一种网络监控方法，包括：

获得预设语料中具有正向标记和负向标记的句子/短语；其中若句子/短语具有负向标记，表示该句子/短语包含负向敏感信息，若句子/短语具有正向标记，则该句子/短语不包含负向敏感信息；

对预设语料进行分词处理，获得分词，根据预设语料计算分词向量；

根据组成句子/短语的分词所对应的分词向量，计算具有正向标记和负向标记的句子/短语的句子向量；

根据中具有正向标记和负向标记的句子/短语，以及句子/短语对应的句子向量训练分类器；

按预设规则从用户上网数据中提取出的句子、短语和/或词，根据提取出的句子、短语和/或词所对应的向量，使用所述分类器对待检测的向量进行分类；

若待检测的向量的分类结果与包含敏感信息的句子/短语对应的句子向量的分类结果相同，则判断用户上网数据中包含敏感信息。

可选的，所述根据组成句子的分词对应的分词向量，计算句子向量，包括：

计算组成句子的分词对应的分词向量的平均值，将所述平均值作为句子向量。

可选的，所述分类器是基于随机森林算法构建的。

可选的，所述用户上网数据包括用户请求的Url；

所述按预设规则从用户上网数据中提取出的句子、短语和/或词，包括：从用户请求的Url中按照预设的Url识别规则提取中Url中包括的句子、短语和/或词；待检测的向量等于用户上网数据中提取出的句子、短语和/或词所对应的向量的平均值；

其中提取出的句子所对应的向量等于构成句子的分词的向量的平均值；

提取出的短语所对应的向量等于构成短语的分词的向量的平均值。

可选的，所述预设语料包括维基百科、新闻信息。

可选的，所述用户上网数据包括以下一种或多种：

请求Url、请求方式、用户代理信息、上一级Url、响应数据；向目的IP提交的数据。

第二方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上任一所述方法的步骤。

第三方面，本发明提供一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上执行的计算机程序，所述处理器执行所述程序时实现如上任一所述方法的步骤。

第四方面，本发明提供一种网络监控设备，包括：

语料标记模块，用于获得预设语料中具有正向标记和负向标记的句子/短语；其中若句子/短语具有负向标记，表示该句子/短语包含负向敏感信息，若句子/短语具有正向标记，则该句子/短语不包含负向敏感信息；

分词处理模块，用于对预设语料进行分词处理，获得分词，根据预设语料计算分词向量；

句子向量计算模块，用于根据组成句子/短语的分词所对应的分词向量，计算具有正向标记和负向标记的句子/短语的句子向量；

分类器训练模块，用于根据中具有正向标记和负向标记的句子/短语，以及句子/短语对应的句子向量训练分类器；待检测向量计算模块，用于按预设规则从用户上网数据中提取出的句子、短语和/或词，根据提取出的句子、短语和/或词所对应的向量，构建待检测的向量；

分类模块，用于使用所述分类器对待检测的向量进行分类；

分类结果判定模块，用于若待检测的向量的分类结果与包含敏感信息的句子/短语对应的句子向量的分类结果相同，则判断用户上网数据中包含敏感信息。

可选的，所述句子向量计算模块用于根据组成句子的分词对应的分词向量，计算句子向量，包括：

计算组成句子/短语的分词对应的分词向量的平均值，将所述平均值作为句子向量。

由上述技术方案可知，相比于现有技术中的关键词过滤方法，本方法不依赖于敏感词的更新和筛选，从而随着时间的推进，若不更新关键词库，这关键词过滤方法的识别率会降低，而本方法的识别率会更高。而且由于词语在句子中常常是多意的，而且句子中即使包含敏感词，也可能不包含敏感信息，例如“如何煮人参”，其中虽然包含“煮人”但是这个句子并不含有暴力倾向，而本方法通过语料中包含的句子或短语构建分类器，从而更准确的识别用户的语义，从而更准确的识别用户的上网行为是否是敏感的。

前面是提供对本发明一些方面的理解的简要发明内容。这个部分既不是本发明及其各种实施例的详尽表述也不是穷举的表述。它既不用于识别本发明的重要或关键特征也不限定本发明的范围，而是以一种简化形式给出本发明的所选原理，作为对下面给出的更具体的描述的简介。应当理解，单独地或者组合地利用上面阐述或下面具体描述的一个或多个特征，本发明的其它实施例也是可能的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一个实施例中执行的流程示意图。

具体实施方式

下面将结合示例性的实施例描述本发明。

本发明提出一种网络监控方法，包括：

S101、获得预设语料中具有正向标记和负向标记的句子/短语，其中若句子/短语具有负向标记，表示该句子/短语包含敏感信息，若句子/短语具有正向标记，则该句子/短语不包含敏感信息。S102、对预设语料进行分词处理，获得分词，根据预设语料计算分词向量；

S103、根据组成句子/短语的分词所对应的分词向量，计算具有正向标记和负向标记的句子/短语的句子向量；

S104、根据中具有正向标记和负向标记的句子/短语，以及句子/短语对应的句子向量训练分类器；

S105、按预设规则从用户上网数据中提取出的句子、短语和/或词，根据提取出的句子、短语和/或词所对应的向量，构建待检测的向量；

S106、使用所述分类器对待检测的向量进行分类；

S107、若待检测的向量的分类结果与包含敏感信息的句子/短语对应的句子向量的分类结果相同，则判断用户上网数据中包含敏感信息。

在上述步骤S101中，具有敏感信息的句子或短语，标记为标签1，不具有敏感信息的句子或短语标记为标签0。可以理解的是正向和负向只是相互区别的一对标记，在具体的实施例中，可以只对语料中的句子作一种标记，而未标记的句子则相当于另一种标记。

在上述步骤S102中可以使用现有的分词方法对预设语料进行分词处理，获得分词，并通过word2Vvec计算分词的分词向量。

word2vec是Google在2013年年中开源的一款将词表征为实数值向量的高效工具,其利用深度学习的思想，可以通过训练，把对文本内容的处理简化为K维向量空间中的向量运算，而向量空间上的相似度可以用来表示文本语义上的相似度。word2vec输出的词向量可以被用来做很多NLP(自然语言处理)相关的工作，比如聚类、找同义词、词性分析等等。如果换个思路，把词当做特征，那么Word2vec就可以把特征映射到K维向量空间，可以为文本数据寻求更加深层次的特征表示。

在上述步骤S103中，本文中句子向量即句子的向量表示。词向量即分词的向量表示。句子是有分词构成的，所以是根据分词的向量计算句子的向量。在一些实施例中，可以通过分词向量之和作为句子的向量，在另一些实施例中，可以通过分别计算分词向量各维度的数据的方差，将各维度的方差重新组成的向量作为句子的向量，也可以是统计计算分词向量的平均值作为句的向量。可以理解的是，在步骤S105中用的是与步骤S103一致的方法计算获得待检测的向量的。

在步骤S104中，是使用具有正向标记和负向标记的句子/短语，以及句子/短语对应的句子向量作为训练分类器的样本，而训练分类器采用的是机器学习算法，例如随机森林算法。根据不同情况，可以构建

在步骤S105中，用户上网数据包括用户上网时的行为所产生的、在交换机或路由中能捕获数据，例如用户的IP地址(即源IP地址)和服务器IP地址(即目标IP地址)、服务器端口地址(也称为目标端口)、用户端口地址(也称为用户端口)、用户请求的Url，用户请求Url时向服务器发送的cookie、请求类型(例如post或get)、提交数据(例如post或get带的数据)、服务器发送给用户的数据(也称为响应数据)。

而本方法通过预设的规则识别出用户数据中上述数据的一种或几种，并将其中的词语、短语、句子用于构造待检测的向量。例如对于用户访问搜索引擎例如百度，搜狗等，通过获得用户请求的Url，并通过明码匹配Url，获得用户的搜索关键词，最作为提取出的句子、短语和/或词中的一部分。除此之外通过整理了一套正则表达式(一组)，能匹配到url中常见的携带用户的访问信息如(赶集等)，并将这些文字信息也作为提取出的句子、短语和/或词的一部分。

可以理解的是，随着预设的规则越丰富，获得的用户数据也越多，所能提取出的句子、短语和/或词可能也越多，但可以根据实际的应用场景选择只从哪些用户数据中提取文本(句子、短语和/或词)，用于构建待检测的向量。

可以理解的是步骤S104和S105的执行顺序并无限制。

在步骤S106中，使用步骤S104中通过样本训练获得的分类器对待检测的向量进行分类。

在步骤S107中，根据分类器的预先设计，该分类器可以是只产生两个分类的分类器，也可能是产生多个分类的分类器，而若待检测的向量的分类结果与包含敏感信息的句子/短语对应的句子向量的分类结果相同，则判断用户上网数据中包含敏感信息。

本方案根据预先整理的带标记的句子或短语训练分类器，带标记的句子或短语包括带正向敏感信息(即非负向敏感信息)的日常用户上网搜索和访问的句子或短语，和包括负向敏感信息的具有暴力，色情或自杀倾向等方面的上网搜索和访问的句子或短语，通过训练好的分类器对用户的上网行为进行识别。

相比于现有技术中的关键词过滤方法，本方法不依赖于敏感词的更新和筛选，从而随着时间的推进，若不更新关键词库，这关键词过滤方法的识别率会降低，而本方法的识别率会更高。而且由于词语在句子中常常是多意的，而且句子中即使包含敏感词，也可能不包含敏感信息，例如“如何煮人参”，其中虽然包含“煮人”但是这个句子并不含有暴力倾向，而本方法通过语料中包含的句子或短语构建分类器，从而更准确的识别用户的语义，从而更准确的识别用户的上网行为是否是敏感的。

在本发明的一个实施例中，通过计算组成句子/短语的分词对应的分词向量的平均值，将所述平均值作为句子向量。从而在不压缩句子向量中语义信息的情况下，减少训练分类器的计算量。即在本发明的一个实施例中，包括下列步骤：

S201、获得预设语料中具有正向标记和负向标记的句子/短语，其中若句子/短语具有负向标记，表示该句子/短语包含敏感信息，若句子/短语具有正向标记，则该句子/短语不包含敏感信息。

S202、对预设语料进行分词处理，获得分词，根据预设语料计算分词向量；

S203、通过计算组成句子/短语的分词对应的分词向量的平均值，将所述平均值作为句子向量；

S204、根据中具有正向标记和负向标记的句子/短语，以及句子/短语对应的句子向量训练分类器；

S205、按预设规则从用户上网数据中提取出的句子、短语和/或词，根据提取出的句子、短语和/或词所对应的向量，构建待检测的向量；

S206、使用所述分类器对待检测的向量进行分类；

S207、若待检测的向量的分类结果与包含敏感信息的句子/短语对应的句子向量的分类结果相同，则判断用户上网数据中包含敏感信息。

在本发明的一个实施例中，通过随机森林算法训练分类器，即使用具有正向标记和负向标记的句子/短语，以及句子/短语对应的句子向量作为训练随机森林算法的训练样本，训练获得分类器。即在一个实施例中，包括步骤：

S301、获得预设语料中具有正向标记和负向标记的句子/短语，其中若句子/短语具有负向标记，表示该句子/短语包含敏感信息，若句子/短语具有正向标记，则该句子/短语不包含敏感信息。

S302、对预设语料进行分词处理，获得分词，根据预设语料计算分词向量；

S303、通过计算组成句子/短语的分词对应的分词向量的平均值，将所述平均值作为句子向量；

S304、根据中具有正向标记和负向标记的句子/短语，以及句子/短语对应的句子向量作为随机森林算法的输入，训练获得分类器；

S305、按预设规则从用户上网数据中提取出的句子、短语和/或词，根据提取出的句子、短语和/或词所对应的向量，构建待检测的向量；

S306、使用所述分类器对待检测的向量进行分类；

S307、若待检测的向量的分类结果与包含敏感信息的句子/短语对应的句子向量的分类结果相同，则判断用户上网数据中包含敏感信息。

在本发明的一个实施例中，从用户请求的Url中按照预设的Url识别规则提取中Url中包括的句子、短语和/或词；并将提取出的句子、短语或词用于构建待检测的向量，在步骤S105中用的是与步骤S103中构建句子向量一致的方法计算获得待检测的向量的，即若步骤S103中使用各分词的向量平均值作为句子向量，这在步骤S105中使用构成各句子、短语的分词的向量平均值作为待检测向量。

即在一个实施例中，本方法包括步骤：

S401、获得预设语料中具有正向标记和负向标记的句子/短语，其中若句子/短语具有负向标记，表示该句子/短语包含敏感信息，若句子/短语具有正向标记，则该句子/短语不包含敏感信息。

S402、对预设语料进行分词处理，获得分词，根据预设语料计算分词向量；

S403、通过计算组成句子/短语的分词对应的分词向量的平均值，将所述平均值作为句子向量；

S404、根据中具有正向标记和负向标记的句子/短语，以及句子/短语对应的句子向量作为随机森林算法的输入，训练获得分类器；

S405、从用户请求的Url中按照预设的Url识别规则提取中Url中包括的句子、短语和/或词；并将提取出的句子、短语或词用于构建待检测的向量，根据提取出的句子、短语和/或词所对应的向量，构建待检测的向量；

S406、使用所述分类器对待检测的向量进行分类；

S407、若待检测的向量的分类结果与包含敏感信息的句子/短语对应的句子向量的分类结果相同，则判断用户上网数据中包含敏感信息。

在本发明的一个实施例中，预设语料包括维基百科、新闻信息等，以及用户收集的其他信息。维基百科和新闻信息可以通过网络爬虫工具爬取的，可以理解的是，在爬取之后，还需要对爬取获得的数据进行清洗，以获得待标记的句子/短语。待标记中标记指的是正向标记和负向标记。

可以理解的是，机器学习算法的效率和语料的选取有比较大的相关，同时在构建机器学习算法时，也涉及一些算法参数的设定，例如分类器的分类数量，而这些参数的设定也可能是影响算法性能的因数。

在一个实施例中，用户上网数据包括如下表1的中在交换器中记载的内容：

表1

而在学校上网的核心交换机中会保存学生的上网信息.通过对这些信息进用户认证信息实名认证.可以得到学生实名的上网数据信息。

本发明提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上任一所述方法的步骤。

本发明提供一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上执行的计算机程序，所述处理器执行所述程序时实现如上任一所述方法的步骤。

本发明提供一种网络监控设备，包括：

分类模块，用于使用所述分类器对待检测的向量进行分类；

在一个是实施例中，所述句子向量计算模块用于根据组成句子的分词对应的分词向量，计算句子向量，包括：

本文中使用的“至少一个”、“一个或多个”以及“和/或”是开放式的表述，在使用时可以是联合的和分离的。例如，“A、B和C中的至少一个”，“A、B或C中的至少一个”，“A、B和C中的一个或多个”以及“A、B或C中的一个或多个”指仅有A、仅有B、仅有C、A和B一起、A和C一起、B和C一起或A、B和C一起。

术语“一个”实体是指一个或多个所述实体。由此术语“一个”、“一个或多个”和“至少一个”在本文中是可以互换使用的。还应注意到术语“包括”、“包含”和“具有”也是可以互换使用的。

本文中使用的术语“自动的”及其变型是指在执行处理或操作时没有实质的人为输入的情况下完成的任何处理或操作。然而，即使在执行处理或操作时使用了执行所述处理或操作前接收到的实质的或非实质的人为输入，所述处理或操作也可以是自动的。如果输入影响所述处理或操作将怎样进行，则视该人为输入是实质的。不影响所述处理或操作进行的人为输入不视为是实质的。

本文中使用的术语“计算机可读介质”是指参与将指令提供给处理器执行的任何有形存储设备和/或传输介质。计算机可读介质可以是在IP网络上的网络传输(如SOAP)中编码的串行指令集。这样的介质可以采取很多形式，包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质包括例如NVRAM或者磁或光盘。易失性介质包括诸如主存储器的动态存储器(如RAM)。计算机可读介质的常见形式包括例如软盘、柔性盘、硬盘、磁带或任何其它磁介质、磁光介质、CD-ROM、任何其它光介质、穿孔卡、纸带、任何其它具有孔形图案的物理介质、RAM、PROM、EPROM、FLASH-EPROM、诸如存储卡的固态介质、任何其它存储芯片或磁带盒、后面描述的载波、或计算机可以读取的任何其它介质。电子邮件的数字文件附件或其它自含信息档案或档案集被认为是相当于有形存储介质的分发介质。当计算机可读介质被配置为数据库时，应该理解该数据库可以是任何类型的数据库，例如关系数据库、层级数据库、面向对象的数据库等等。相应地，认为本发明包括有形存储介质或分发介质和现有技术公知的等同物以及未来开发的介质，在这些介质中存储本发明的软件实施。

本文中使用的术语“确定”、“运算”和“计算”及其变型可以互换使用，并且包括任何类型的方法、处理、数学运算或技术。更具体地，这样的术语可以包括诸如BPEL的解释规则或规则语言，其中逻辑不是硬编码的而是在可以被读、解释、编译和执行的规则文件中表示。

本文中使用的术语“模块”或“工具”是指任何已知的或以后发展的硬件、软件、固件、人工智能、模糊逻辑或能够执行与该元件相关的功能的硬件和软件的组合。另外，虽然用示例性实施方式来描述本发明，但应当理解本发明的各方面可以单独要求保护。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括……”或“包含……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外，在本文中，“大于”、“小于”、“超过”等理解为不包括本数；“以上”、“以下”、“以内”等理解为包括本数。

尽管已经对上述各实施例进行了描述，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改，所以以上所述仅为本发明的实施例，并非因此限制本发明的专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围之内。

Claims

1.网络监控方法，其特征在于，包括：

按预设规则从用户上网数据中提取出的句子、短语和/或词，根据提取出的句子、短语和/或词所对应的向量，构建待检测的向量；

使用所述分类器对待检测的向量进行分类；

若待检测的向量的分类结果与包含敏感信息的句子/短语对应的句子向量的分类结果相同，则判断用户上网数据中包含敏感信息；

其中，所述用户上网数据包括用户请求的Url；

所述按预设规则从用户上网数据中提取出的句子、短语和/或词，包括：从用户请求的Url中按照预设的Url识别规则提取中Url中包括的句子、短语和/或词；

待检测的向量等于用户上网数据中提取出的句子、短语和/或词所对应的向量的平均值；

2.根据权利要求1的方法，其特征在于，所述根据组成句子/短语的分词所对应的分词向量，计算具有正向标记和负向标记的句子/短语的句子向量，包括：

3.根据权利要求1所述的方法，其特征在于，所述分类器是基于随机森林算法构建的。

4.根据权利要求1所述的方法，其特征在于，所述预设语料包括维基百科、新闻信息。

5.根据权利要求1所述的方法，其特征在于，所述用户上网数据包括以下一种或多种：

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至5任一所述方法的步骤。

7.一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上执行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一所述方法的步骤。

8.一种网络监控设备，其特征在于，包括：

分类模块，用于使用所述分类器对待检测的向量进行分类；

分类结果判定模块，用于若待检测的向量的分类结果与包含敏感信息的句子/短语对应的句子向量的分类结果相同，则判断用户上网数据中包含敏感信息；

所述用户上网数据包括用户请求的Url；

9.根据权利要求8所述的设备，其特征在于，所述句子向量计算模块用于根据组成句子的分词对应的分词向量，计算句子向量，包括：