CN109284441B

CN109284441B - 动态自适应网络敏感信息检测方法及装置

Info

Publication number: CN109284441B
Application number: CN201811085661.3A
Authority: CN
Inventors: 魏晗; 陈刚; 郭志刚; 唐永旺; 席耀一; 袁江林
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2018-09-18
Filing date: 2018-09-18
Publication date: 2020-12-04
Anticipated expiration: 2038-09-18
Also published as: CN109284441A

Abstract

本发明属于网络数据处理技术领域，特别涉及一种动态自适应网络敏感信息检测方法及装置，该方法包含：针对采集到的网络敏感文本流，通过构建倒排索引和进行多关键字检索获取满足过滤规则文档列表；针对获取到的文档列表，依据用户需求程度并通过关键字评分获取文档综合得分，依据综合得分对互联网敏感信息进行检测。本发明利用关键字和过滤规则，对目标对象网站、博客和论坛进行监控，实现敏感信息过滤，便于及时进行智能提示与报警；通过互联网中敏感信息快速、准确侦查，大幅提高互联网监测侦查工作效率；同时，通过人机结合方式，为扩线侦查工作提供便利，保证网络舆情发展合理性和健康性，有效净化网络环境，对通信网络安全具有重要指导意义。

Description

动态自适应网络敏感信息检测方法及装置

技术领域

本发明属于网络数据处理技术领域，特别涉及一种动态自适应网络敏感信息检测方法及装置。

背景技术

由于互联网中数据量大类杂、形象各异，有效信息内容隐藏在各种网络数字媒介当中，给互联网监测侦查工作带来了巨大的困难，主要表现在以下三个方面：(1)敏感舆情动态发现难。互联网的海量数据环境使得各种敏感信息淹没其中，监测网站数量非常庞大并且数据格式复杂，普通人工监测方式无法满足全天候、实时性的要求，无法实现及时发现、有效预警。(2)敏感违法信息处置难。由于互联网的异构特性，各个网站的访问和查询方式存在差异，大量的时间用于切换和等待；对于目标信息，依靠人工从大量数据中筛选比对，难以高效准确确定信息来源和归属管理，严重影响了网络信息处置效率。(3)敏感案件线索侦查难。重大敏感违法案件线索往往隐匿于论坛、博客和微博等形式多样的自媒体之中，单纯依靠人工翻查联想往往效率低下、准确性差，缺乏专门技术手段进行关联比对、扩线侦查和海量数据挖掘，实现落地查人。为了克服各类不利因素的影响，保障监测侦查任务顺利高效完成，需要引入相关技术实现信息的智能化处理。而现有的搜索引擎和网络舆情监测系统难以保证采集分析以及敏感事件发现等任务的时效性要求。

基于关键词的过滤是目前网络信息过滤的基本手段。但由于互联网敏感信息繁多，需要配置的过滤关键词数量庞大，对处理的每条文档利用过滤关键词进行逐条匹配会导致过滤效率低下，难以实现大规模文档集的快速过滤。另一方面，由于单个关键词的描述能力有限，利用单个关键词进行过滤会导致过滤结果中包含大量无关信息。传统关键词过滤是基于逻辑规则的，因此过滤结果仅能表示文档是否命中某一规则，但未必是真正需要关注的信息。为解决上述难题，亟需研制一种互联网敏感信息监测侦查系统，借助高性能并行计算平台从互联网站、论坛、博客等大数据环境中，发现敏感有害信息，汇聚分析敏感事件发展态势，监控跟踪敏感事件处置动态，自动关联涉网案件问题线索，大幅提高网络安全保卫工作的质量和效益。

发明内容

为此，本发明提供一种动态自适应网络敏感信息检测方法及装置，实现互联网敏感信息高效过滤，并对命中文档符合用户需求的程度进行评分，提高互联网敏感信息发现的准确性，进而增强网络敏感事件监管的及时性和有效性，有效净化互联网环境。

按照本发明所提供的设计方案，一种动态自适应网络敏感信息检测方法，包含如下内容：

针对采集到的网络敏感文本流，通过构建倒排索引和进行多关键词检索获取满足过滤规则的文档列表；

针对获取到的文档列表，依据用户需求程度并通过关键词评分获取文档综合得分，依据综合得分对互联网敏感信息进行检测。

上述的，设置启动开关，满足批处理操作条件时，通过触发启动开关对采集到的网络敏感文本流进行批量处理获取满足过滤规则的文档列表。

优选的，批处理操作条件为预设批处理操作时间间隔，或为未处理文档达到预设规模。

上述的，多关键词检索过程中，通过逻辑运算进行关键词组合来构建过滤规则。

上述的，对采集到的网络敏感文本流，首先进行预处理，过滤出包含敏感词变形体的文本信息，其中，敏感词变形体至少包含敏感词火星文变形和敏感词散光字变形；敏感词火星文变形的过滤中，通过面向信息检索的中文分词，并以同时包含单字和多字的分词结果作为索引词项来构建文档的倒排索引，在综合过滤规则查询结果时，自动过滤火星文变形；敏感词散光字变形的过滤中，通过构建散光字字典，将过滤规则进行变形扩展后再进行检索过滤。

上述的，依据用户需求程度并通过关键词评分获取文档综合得分，包含如下内容：

针对样本数据库中文档集合，利用词频逆文档频率获取关键词在文档集合中的权重，并通过该权重和过滤规则中预先设定的关键词预设分值来获取过滤规则中关键词的基础得分；

针对实际获取到的文档列表，通过文档列表中包含关键词的文档数及样本数据库文档集合包含关键词的文档数来修正关键词的基础评分；

依据关键词基础评分，并通过过滤规则中关键词组合逻辑来获取最终判定的文档得分。

优选的，依据过滤规则中关键词组合逻辑获取最终判定的文档得分中，对于只包含两个关键词的文档，若过滤规则中关键词是逻辑与的关系，则最终判定的文档得分为修正后的两个关键词基础得分之和；若过滤规则中关键词是逻辑或的关系，则最终判定的文档得分为在修正后的两个关键词基础得分中选取最大值；对于包含多个关键词的文档，则按照过滤规则中关键词逻辑关系顺序依次推导来获取最终判定的文档得分；对于存在多个过滤规则的文档，则分别计算每个过滤规则的得分，然后取其中最大值作为最终判定的文档得分。

一种动态自适应网络敏感信息检测装置，包含：

过滤模块，针对采集到的网络敏感文本流，通过构建倒排索引和进行多关键词检索获取满足过滤规则的文档列表；

评分模块，针对获取到的文档列表，依据用户需求程度并通过关键词评分获取文档综合得分，依据综合得分对互联网敏感信息进行检测。

上述的装置中，所述的过滤模块包含索引子模块、开关子模块和检索子模块，其中，

索引子模块，将采集到的网络敏感文本流作为检索文档数据集，以词项为键值建立检索文档数据集的内存倒排索引；

开关子模块，用于通过设置启动开关，针对满足预设批处理操作条件的情形，通过启动开关触发检索子模块；

检索子模块，用于通过对过滤规则中关键词进行逻辑组合来获取满足过滤规则的文档列表。

上述的装置中，所述的评分模块包含基础评分子模块，评分修正子模块和综合判定子模块，其中，

基础评分子模块，用于针对样本数据库中文档集合，利用词频逆文档频率获取关键词在文档集合中的权重，并通过该权重和过滤规则中预先设定的关键词预设分值来获取过滤规则中关键词的基础得分；

评分修正子模块，用于针对实际获取到的文档列表，通过文档列表中包含关键词的文档数及样本数据库文档集合包含关键词的文档数来修正关键词的基础评分；

综合判定子模块，用于依据修正后的关键词基础评分，并通过过滤规则中关键词组合逻辑来获取最终判定的文档得分。

本发明的有益效果：

本发明针对互联网监测侦查需求，以高性能计算平台为依托，利用关键词和过滤规则，对目标对象网站、博客和论坛进行监控，实现了敏感信息的过滤，便于及时进行智能提示与报警；通过互联网中敏感信息的快速、准确侦查，大幅提高互联网监测侦查工作的效率；同时，通过人机结合的方式，为扩线侦查工作提供便利，保证网络舆情发展的合理性和健康性，有效净化网络环境，对通信网络安全具有重要的指导意义。

附图说明：

图1为实施例中网络敏感信息检测方法流程图；

图2为实施例中文档综合得分获取流程图；

图3为实施例中网络敏感信息检测装置示意图；

图4为实施例中过滤模块示意图；

图5为实施例中评分模块示意图；

图6为实施例中网络敏感信息检测原理图。

具体实施方式：

为使本发明的目的、技术方案和优点更加清楚、明白，下面结合附图和技术方案对本发明作进一步详细的说明。

基于关键词的过滤是目前网络信息过滤的基本手段。但由于互联网敏感信息繁多，需要配置的过滤关键词数量庞大，对处理的每条文档利用过滤关键词进行逐条匹配会导致过滤效率低下，难以实现大规模文档集的快速过滤。另一方面，由于单个关键词的描述能力有限，利用单个关键词进行过滤会导致过滤结果中包含大量无关信息。为此，本发明实施例，参见图1所示，提供一种动态自适应网络敏感信息检测方法，包含如下内容：

S101、针对采集到的网络敏感文本流，通过构建倒排索引和进行多关键词检索获取满足过滤规则的文档列表；

S102、针对获取到的文档列表，依据用户需求程度并通过关键词评分获取文档综合得分，依据综合得分对互联网敏感信息进行检测，提高互联网敏感信息发现的准确性。

倒排索引(Inverted index)，也常被称为反向索引、置入档案或反向档案，是一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引，可以根据关键词快速获取包含该关键词的文档列表。相比“签名文件”、“后缀树”等索引结构，“倒排索引”是实现单词到文档映射关系的最佳实现方式和最有效的索引结构。本发明实施例中，针对大规模网络敏感文本信息发现中的过滤效率和精度问题，通过构建倒排索引和多关键词多规则检索，并利用关键词评分对文档进行综合得分判定，实现网络敏感信息高效和准确发现。

基于倒排文档索引的多规则快速过滤过程中，本发明再一个实施例，通过设置启动开关，针对满足批处理操作条件的情形，通过触发启动开关对采集到的网络敏感文本流进行批量处理获取满足过滤规则的文档列表。通过引入启动开关，对采集到的互联网文档进行批量处理；同时，引入逻辑运算组合过滤关键词来构建类似正则表达式的高级过滤规则，利用这些描述能力更强的过滤规则来减低过滤结果中存在的噪声。优选的，批处理操作条件为预设批处理操作时间间隔，或为未处理文档达到预设规模。多关键检索过程中，通过逻辑运算进行关键词组合来构建过滤规则。以一定时间间隔内采集到的互联网文档为检索数据集，以词项为键值构建文档数据集的内存倒排索引，然后以过滤规则为查询对象，解析过滤规则得到多个检索关键词，根据规则的组合方式对多个关键词的检索结果进行融合得到满足该过滤规则的文档列表。遍历过滤规则，即可得到满足过滤规则的文档集合，最后清空内存倒排索引。通过引入启动开关，可以实现批处理操作的灵活运行，当未处理文档达到一定规模(如500篇)，或者距离上次任务启动达到一定时间间隔(如2分钟)，或者当前处理任务已完成，即可触发启动开关。

对于关键词采用完全匹配中无法过滤出包含敏感词变形体的网页。常见的变形体如：火星文(词间插入一个或多个特殊符号，例如“中*#&@#国”)、散光字(将一个字分成多个字的组合，例如“法功”变形为“三去工力”)。为此，本发明另一个实施例中，对采集到的网络敏感文本流，首先进行预处理，过滤出包含敏感词变形体的文本信息，其中，敏感词变形体至少包含敏感词火星文变形和敏感词散光字变形；敏感词火星文变形的过滤中，通过面向信息检索的中文分词，并以同时包含单字和多字的分词结果作为索引词项来构建文档的倒排索引，在综合过滤规则查询结果时，自动过滤火星文变形；敏感词散光字变形的过滤中，通过构建散光字字典，将过滤规则进行变形扩展后再进行检索过滤。以面向信息检索的中文分词技术对待过滤文档进行预处理，并以同时包含单字和多字的分词结果作为索引词项来构建文档的倒排索引，在综合某条规则的查询结果时，字符距离在一定范围的两个字之间存在无意义符号时，自动将其去除，实现火星文的过滤；对于散光字的处理，则通过构建散光字字典，自动将用户输入的规则进行变形扩展，例如将“法功”变形为“法功+三去功+法功+法工力+ 三去工力+三去功+三去工力+……”，再进行相关的检索过滤。

传统关键词过滤是基于逻辑规则的，因此过滤结果仅能表示文档是否命中某一规则，但未必是真正需要关注的信息。为此，本发明再一个实施例中，参见图2所示，依据用户需求程度并通过关键词评分获取文档综合得分，包含如下内容：

S201、针对样本数据库中文档集合，利用词频逆文档频率获取关键词在文档集合中的权重，并通过该权重及关键词在文档集合中出现频次和过滤规则中预先设定的关键词预设分值三个数据来获取过滤规则中关键词的基础得分；

S202、针对实际获取到的文档列表，通过文档列表中包含关键词的文档数及样本数据库文档集合包含关键词的文档数来修正关键词的基础评分；

S203、依据修正后的关键词基础评分，并通过过滤规则中关键词组合逻辑来获取最终判定的文档得分。

通过对命中文档符合用户需求的程度进行评分，以提高互联网敏感信息发现的准确性。本发明又一实施例中，依据过滤规则中关键词组合逻辑获取最终判定的文档得分中，对于只包含两个关键词的文档，若过滤规则中关键词是逻辑与的关系，则最终判定的文档得分为修正后的两个关键词基础得分之和，若过滤规则中关键词是逻辑或的关系，则最终判定的文档得分为在修正后的两个关键词基础得分中选取最大值；对于包含多个关键词的文档，则按照过滤规则中关键词逻辑关系顺序依次推导来获取最终判定的文档得分；对于存在多个过滤规则的文档，则分别计算每个过滤规则的得分，然后取其中最大值作为最终判定的文档得分。

以前期获取到的网络数据作为样本数据库中的文档集合来获取关键词的基础得分，过滤规则中每个关键词的基础评分，以用户预先在规则中设定的关键词K_j的预设分值(PreScore_j) 为基础，利用TF-IDF(词频-逆文档频率)算法计算关键词K_j在文档d_i中的权重w_ij，将预设分值和权重两者相乘，得到规则中关键词的基础得分BaseScore_j。w_ij的计算公式可表示如下：

w_ij＝f_ij×idf_i (1)

f_ij＝freq_ij/maxf_i (2)

idf_i＝log(N/n_j) (3)

其中，f_ij是局部权值，freq_ij关键词K_j在文档d_i中出现的频次，maxf_i是文档d_i中关键词出现的最大频次；idf_i是全局权值，N是文档集合中文档的数量，n_j是文档集合中包含关键词 K_j的文档数量。

BaseScore_j＝w_ij×PreScore_j (4)

基础评分是一个静态数值，只与文档集合和用户预设值有关，无法反映关键词在实际工作中的真实重要程度，因此需要利用实际工作得到的样本数据集，即实时获取到的网络敏感文本流对其进行动态修正。修正公式如下：

其中，Score_j是修正后的分值，Sn_j是样本数据集中包含关键词K_j的文档数。如果该关键词在样本集合中没有出现过，则认为没有其先验知识，Sn_j取值为0.5。

利用文档命中的关键词规则的逻辑，按照如下原则进行文档得分的最终判定：

对于简单的逻辑关系，假设文档只包含两个关键词K_x和K_y，修正后的得分分别为Score_x和Score_y，如果两者之间是“与”的关系，则文档得分为：

DocScore＝Score_x+Score_y (6)

如果两者之间是“或”的关系，则文档得分为：

DocScore＝max(Score_x,Score_y) (7)

对于复杂的组合逻辑，则参照简单逻辑进行计算。如果一篇文档命中多个规则，则分别计算对于每个规则的得分，并取其中的最大值作为文档的最终得分，进而根据该文档得分判定网络监控目标对象。

基于上述的检查方法，本发明实施例还提供一种动态自适应网络敏感信息检测装置，参见图3所示，包含：

过滤模块101，针对采集到的网络敏感文本流，通过构建倒排索引和进行多关键词检索获取满足过滤规则的文档列表；

评分模块102，针对获取到的文档列表，依据用户需求程度并通过关键词评分获取文档综合得分，依据综合得分对互联网敏感信息进行检测。

上述的装置中，参见图4所示，过滤模块101包含索引子模块1001、开关子模块1002和检索子模块1003，其中，

索引子模块1001，将采集到的网络敏感文本流作为检索文档数据集，以词项为键值建立检索文档数据集的内存倒排索引；

开关子模块1002，用于通过设置启动开关，针对满足预设批处理操作条件的情形，通过启动开关触发检索子模块；

检索子模块1003，用于通过对过滤规则中关键词进行逻辑组合来获取满足过滤规则的文档列表。

上述的装置中，参见图5所示，评分模块102包含基础评分子模块2001，评分修正子模块2002和综合判定子模块2003，其中，

基础评分子模块2001，用于针对样本数据库中文档集合，利用词频逆文档频率获取关键词在文档集合中的权重，并通过该权重和过滤规则中预先设定的关键词预设分值来获取过滤规则中关键词的基础得分；

评分修正子模块2002，用于针对实际获取到的文档列表，通过文档列表中包含关键词的文档数及样本数据库文档集合包含关键词的文档数来修正关键词的基础评分；

综合判定子模块2003，用于依据修正后的关键词基础评分，并通过过滤规则中关键词组合逻辑来获取最终判定的文档得分。

本发明实施例中，借助高性能并行计算平台从互联网站、论坛、博客等大数据环境中，参见图6所示，通过快速过滤和自适应评分两部分来发现敏感有害信息，汇聚分析敏感事件发展态势，监控跟踪敏感事件处置动态，自动关联涉网案件问题线索，大幅提高网络安全保卫工作的质量和效益，有效净化网络环境，对网络舆情发展趋势进行及时掌控，对网络通信安全具有重要意义。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的各实例的单元及方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已按照功能一般性地描述了各示例的组成及步骤。这些功能是以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不认为超出本发明的范围。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如：只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现，相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种动态自适应网络敏感信息检测方法，其特征在于，包含如下内容：

针对获取到的文档列表，依据用户需求程度并通过关键词评分获取文档综合得分，依据综合得分对互联网敏感信息进行检测；

通过构建倒排索引和进行多关键词检索获取满足过滤规则的文档列表，包括如下内容：

设置启动开关，满足批处理操作条件时，通过触发启动开关对采集到的网络敏感文本流进行批量处理获取满足过滤规则的文档列表；批处理操作条件为预设批处理操作时间间隔，或为未处理文档达到预设规模；多关键检索过程中，通过逻辑运算进行关键词组合来构建过滤规则；

以词项为键值构建文档数据集的内存倒排索引，然后以过滤规则为查询对象，解析过滤规则得到多个检索关键词，根据过滤规则的组合方式对多个关键词的检索结果进行融合得到满足该过滤规则的文档列表；遍历过滤规则，得到满足过滤规则的文档集合，清空内存倒排索引；

依据用户需求程度并通过关键词评分获取文档综合得分，包含如下内容：

针对样本数据库中文档集合，利用词频逆文档频率获取关键词在文档集合中的权重，并通过该权重及关键词在文档集合中出现频次和过滤规则中预先设定的关键词预设分值来获取过滤规则中关键词的基础得分；

针对实际获取到的文档列表，通过文档列表中包含关键词的文档数及样本数据库文档集合包含关键词的文档数来修正关键词的基础评分，通过实时获取到的网络敏感文本流来动态修正关键词基础评分，动态修正公式表示为：

其中，Score_j为修正后的分值，Sn_j为样本数据集中包含关键词K_j的文档数，BaseScore_j为关键词的基础得分,n_j为文档集合中包含关键词K_j的文档数量；

2.根据权利要求1所述的动态自适应网络敏感信息检测方法，其特征在于，对采集到的网络敏感文本流，首先进行预处理，过滤出包含敏感词变形体的文本信息，其中，敏感词变形体至少包含敏感词火星文变形和敏感词散光字变形；敏感词火星文变形的过滤中，通过面向信息检索的中文分词，并以同时包含单字和多字的分词结果作为索引词项来构建文档的倒排索引，在综合过滤规则查询结果时，自动过滤火星文变形；敏感词散光字变形的过滤中，通过构建散光字字典，将过滤规则进行变形扩展后再进行检索过滤。

3.根据权利要求2所述的动态自适应网络敏感信息检测方法，其特征在于，依据过滤规则中关键词组合逻辑获取最终判定的文档得分中，对于只包含两个关键词的文档，若过滤规则中关键词是逻辑与的关系，则最终判定的文档得分为修正后的两个关键词基础得分之和；若过滤规则中关键词是逻辑或的关系，则最终判定的文档得分为在修正后的两个关键词基础得分中选取最大值；对于包含多个关键词的文档，则按照过滤规则中关键词逻辑关系顺序依次推导来获取最终判定的文档得分；对于存在多个过滤规则的文档，则分别计算每个过滤规则的得分，然后取其中最大值作为最终判定的文档得分。

4.一种动态自适应网络敏感信息检测装置，其特征在于，基于权利要求1所述的动态自适应网络敏感信息检测方法实现，包含：

5.根据权利要求4所述的动态自适应网络敏感信息检测装置，其特征在于，所述的过滤模块包含索引子模块、开关子模块和检索子模块，其中，

6.根据权利要求4所述的动态自适应网络敏感信息检测装置，其特征在于，所述的评分模块包含基础评分子模块，评分修正子模块和综合判定子模块，其中，

基础评分子模块，用于针对样本数据库中文档集合，利用词频逆文档频率获取关键词在文档集合中的权重，并通过该权重及关键词在文档集合中出现频次和过滤规则中预先设定的关键词预设分值来获取过滤规则中关键词的基础得分；