CN108920710B

CN108920710B - 一种对互联网信息进行涉密涉敏信息监测方法及系统

Info

Publication number: CN108920710B
Application number: CN201810815712.7A
Authority: CN
Inventors: 汪敏; 刘鹏飞; 严妍; 周键; 王静; 林珂珉
Original assignee: Cape Cloud Information Technology Co Ltd; Beijing Puyun Mdt Infotech Ltd
Current assignee: Cape Cloud Information Technology Co Ltd; Beijing Puyun Mdt Infotech Ltd
Priority date: 2018-07-20
Filing date: 2018-07-20
Publication date: 2019-07-09
Anticipated expiration: 2038-07-20
Also published as: CN108920710A

Abstract

本发明提供了一种对互联网信息进行涉密涉敏信息监测的方法，具体包括以下步骤：S1、构建涉密涉敏信息识别模型；S2、构建涉密涉敏词库和规则库：对政务网站进行分析，将涉及到的涉密涉敏信息加入到涉密涉敏词库中，构建涉密涉敏词库，并根据词库特点定义规则库；S3、采集互联网信息，对其进行涉密涉敏信息检测，判断其涉密涉敏信息泄漏级别；S4、将涉密涉敏信息泄漏级别为严重以及重大级别的互联网信息通过短信、和\或微信、和\或邮件的方式通知用户。另外，本发明还提供了一种对互联网信息进行涉密涉敏信息监测的系统，本发明的技术方案解决了当前对海量互联网信息进行涉密涉敏信息监测无法实时过滤，并且高误报得问题，能够高效、快速、准确地对互联网中的涉密涉敏相关信息进行识别。

Description

一种对互联网信息进行涉密涉敏信息监测方法及系统

技术领域

本发明属于互联网内容安全检测领域，尤其涉及一种互联网信息涉密涉敏监测信息方法及系统。

背景技术

随着信息时代的到来，互联网成为政府进行信息公开的主要窗口。但在政府信息公开的同时，一些涉密涉敏信息也正面临着日益突出的网络及信息安全问题。目前，内容安全已经上升为网络安全一级大类，国务院办公厅和网信办对内容安全工作提出更高要求。而在互联网web端、移动端的网页/扫描件/附件内容，其中可能存在一些涉及到公民个人隐私、涉密信息、内部不宜公开信息、军队番号等不希望被公开、违反法律法规、易引起侵权投诉、或限制发布的涉密涉敏信息，政府网站一旦泄露或发布不应该被公开的信息，或者是限制发布的信息，可能会违反国家法律，或者会给网站带来麻烦，或者影响网站的声誉。因此如何准确及时地对互联网涉密涉敏信息进行监测成为信息安全管理以及政务信息化过程中一个重要课题。

目前，传统的互联网涉密涉敏信息监测主要是基于文本多模式串匹配算法，经典的如Aho-Corasick多模式匹配算法、Wu-Manber经典多模式匹配算法，对互联网网页内容进行涉密涉敏信息监测，但是这些信息监测方法存在许多问题，比如内存开销过大，数据结构复杂，执行时间速度慢等问题。另外，单纯依赖一种经典算法，缺乏良好的预处理和事后信息过滤等手段时，易造成误报率较高，导致系统的实用性较差。在如今的大数据时代，政府对全互联网监控提出了更高的要求，传统的涉密涉敏信息监测方法，不管从准确度还是处理速度，都难以满足现实应用的需求。如何对海量网页进行实时过滤，并且减少机械匹配中产生的高误报问题，高效快速地对政府网站中涉密涉敏相关信息进行识别，这是本领域所亟待解决的问题。

发明内容

为了对海量的互联网信息进行涉密涉敏信息的实时监控，提高涉密涉敏信息识别的准确率，本发明提供了一种对互联网信息进行涉密涉敏信息监测的方法及系统，其基于大数据和机器学习技术，对政务网站大规模网页训练，提取预处理特征，加快涉密涉敏信息的检查速度；另外，通过广泛分析政务网站环境下的语料库，构建全面专业的语料库；并在经典的多模式串匹配算法的基础上，基于双数组Tries(DoubleArrayTries)技术重构涉密涉敏词典，提高词典的检索效率，并且降低系统所占资源；最后，通过使用规则引擎降低涉密涉敏信息的误报率，提高了对互联网信息进行涉密涉敏信息监测的准确性。

本发明提供的一种对互联网信息进行涉密涉敏信息监测的方法，具体包括以下步骤：

S1、构建涉密涉敏信息识别模型；

S2、构建涉密涉敏词库和规则库：对政务网站进行分析，将涉及到的涉密涉敏信息加入到涉密涉敏词库中，构建涉密涉敏词库，并根据词库特点定义规则库；

S3、采集互联网信息，对其进行涉密涉敏信息检测，得到其涉密涉敏信息泄漏级别；

S4、将涉密涉敏信息泄漏级别为严重以及重大级别的互联网信息通过短信、和\或微信、和\或邮件的方式通知用户。

其中，所述步骤S1进一步包括：

S1.1、收集大量包含涉密涉敏信息互联网信息，所述互联网信息包括网页、扫描件以及附件；

S1.2、从互联网信息中提取出涉密涉敏特征；所述涉密涉敏特征包括文章页特征、网页table特征、关键词特征、图片特征等；

S1.3、通过不断的机器学习训练，构建基于SVM的涉密涉敏信息识别模型。

其中，所述步骤S3进一步包括：

S3.1、从互联网信息中提取出涉密涉敏特征，使用步骤S1生成的涉密涉敏信息识别模型，判断该涉密涉敏特征是否包含涉密涉敏信息，如果包含，则该特征为有效特征，需要进行涉密涉敏信息分析，否则该特征为无效特征；

S3.2、通过步骤S2构建的词库、规则库，对从互联网信息中提取到的有效特征进行如下分析，分析是否存在涉密涉敏信息；在进行分析时具体可采用经典的多模式串匹配算法，如Aho-Corasick多模式匹配算法、Wu-Manber经典多模式匹配算法进行涉密涉敏信息分析；

S3.3、对互联网信息中分析出的涉密涉敏信息按照涉密涉敏词库以及规则库判断该互联网信息涉密涉敏信息的泄漏级别；所述泄漏级别包括一般、严重和重大级别。

另外，本发明还提供了一种对互联网信息进行涉密涉敏信息监测的系统，该系统具体包括以下模块：

涉密涉敏信息识别模型构建模块；

涉密涉敏词库和规则库构建模块：对政务网站进行分析，将涉及到的涉密涉敏信息加入到涉密涉敏词库中，构建涉密涉敏词库，并根据词库特点定义规则库；

涉密涉敏信息检测模块：采集互联网信息，对其进行涉密涉敏信息检测，得到其涉密涉敏信息泄漏级别；

预警模块：将涉密涉敏信息泄漏级别为严重以及重大级别的互联网信息通过短信、和\或微信、和\或邮件的方式通知用户。

其中，所述涉密涉敏信息识别模型构建模块进一步包括：

信息采集子模块：收集大量包含涉密涉敏信息互联网信息；

特征提取子模块：从互联网信息中提取出涉密涉敏特征；

模型生成子模块：通过不断的机器学习训练，构建基于SVM的涉密涉敏信息识别模型。

其中，所述涉密涉敏词库和规则库构建模块中“根据词库特点定义规则库”进一步包括：根据不同业务需要，构建相应双数组trie树；根据双数组true树制定规则，分为分词规则、不分词规则。

其中，所述涉密涉敏信息检测模块进一步包括：

有效涉密涉敏特征提取子模块：从互联网信息中提取出涉密涉敏特征，使用步骤S1生成的涉密涉敏信息识别模型，判断该涉密涉敏特征是否包含涉密涉敏信息，如果包含，则该特征为有效特征，需要进行涉密涉敏信息分析，否则该特征为无效特征；

涉密涉敏信息分析子模块：通过涉密涉敏词库和规则库构建模块构建的词库、规则库，对从互联网信息中提取到的有效特征进行分析，分析是否存在涉密涉敏信息；

涉密涉敏信息的泄漏级别判断子模块：对互联网信息中分析出的涉密涉敏信息按照涉密涉敏词库以及规则库判断该互联网信息涉密涉敏信息的泄漏级别；所述泄漏级别包括一般、严重和重大级别。

其中，所述涉密涉敏信息检测模块中进行涉密涉敏信息分析采用的算法为Aho-Corasick多模式匹配算法或Wu-Manber经典多模式匹配算法。

根据本发明的一种对互联网信息进行涉密涉敏信息监测的方法和系统可以看出，本发明解决了当前对海量互联网信息进行涉密涉敏信息监测无法实时过滤，并且高误报得问题，能够高效、快速、准确地对政府网站中涉密涉敏相关信息进行识别。

附图说明

图1为本发明一种对互联网信息进行涉密涉敏信息监测的方法的流程图。

图2为本发明对互联网信息进行涉密涉敏信息监测具体流程。

图3为本发明一种对互联网信息进行涉密涉敏信息监测的系统的功能模块图。

具体实施方式

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可以找说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和有点能够更明显易懂，以下为本发明的具体实施方式。

实施例一

图1为本发明一种对互联网信息进行涉密涉敏信息监测的方法的具体流程：

S1、构建涉密涉敏信息识别模型；

S1.1、收集大量包含涉密涉敏信息互联网信息，具体包括网页、扫描件以及附件；

S1.2、从网页、扫描件、附件中提取出涉密涉敏特征；具体特征包括文章页特征、网页table特征、关键词特征、图片特征等；

S1.3、通过不断的机器学习训练，构建基于SVM的涉密涉敏信息识别模型，该模型用于判断涉密涉敏特征是否包含涉密涉敏信息；

S2、构建涉密涉敏词库和规则库：通过对政务网站进行分析将涉及到的涉密涉敏信息加入到涉密涉敏词库中，构建“知识面”全面且专业的涉密涉敏词库，并根据词库特点定义规则库；在本实施例中通过识别网页中的涉密涉敏词，将其加入涉密涉敏词库中，构建涉密涉敏词库，并根据不同业务需要，构建相应双数组trie树；根据双数组trie树制定规则，分为分词规则、不分词规则，得到规则库。

S3、涉密涉敏信息识别：采集互联网信息，对其进行涉密涉敏信息检测，得到其涉密涉敏信息泄漏级别。该步骤进一步包括：

S3.1、采集web端、移动端网页以及其扫描件、附件内容，利用步骤S1生成的涉密涉敏信息识别模型，判断是否需要进行涉密涉敏信息分析；所述web端是指pc端；

对于web端、移动端网页具体包括：从网页中提取出涉密涉敏特征，使用步骤S1生成的涉密涉敏信息识别模型，判断该特征是否包含涉密涉敏信息，如果包含，则该特征为有效特征，需要进行涉密涉敏信息分析，否则该特征为无效特征；

对于扫描件/附件具体包括：下载扫描件、附件，从扫描件、附件中提取出涉密涉敏特征，使用步骤S1生成的涉密涉敏信息识别模型，判断该特征是否包含涉密涉敏信息，如果包含，则该特征为有效特征，需要进行涉密涉敏信息分析，否则该特征为无效特征。

S3.2、涉密涉敏信息分析：通过步骤S2构建的词库、规则库，对从网页、扫描件、附件中提取到的有效特征进行如下分析，分析是否存在涉密涉敏信息；在进行分析时具体可采用经典的多模式串匹配算法，如Aho-Corasick多模式匹配算法、Wu-Manber经典多模式匹配算法进行涉密涉敏信息分析。

身份证号、通讯信息、银行卡信息、家庭地址、未成年的个人信息、个人身体健康信息，病史等

婚姻家庭、继承纠纷案件中的当事人及其法定代理人

被判处三年有期徒刑以下刑罚以及免于刑事处罚，且不属于累犯或者惯犯的被告人

刑事案件中被害人及其法定代理人、证人、鉴定人/犯罪嫌疑人家属/案件涉及的未成年人

采用人工授精等辅助生育手段的孕、产妇

严重传染病患者/精神病患者/艾滋病患者/有吸毒史或强迫戒毒的人员

被暴力胁迫卖淫的妇女

军队番号

涉密文件

内部日常性信息：应急预案/工资/奖金/福利/补贴/报销/招待费/清单/流水/经费等容易引发网络舆情的信息。

S3.3、对互联网信息中分析出的涉密涉敏信息按照涉密涉敏词库以及规则库判断出该互联网信息涉密涉敏信息的泄漏级别；泄漏级别包括一般、严重和重大。

该方法进一步包括S4、将涉密涉敏信息泄漏级别为严重以及重大级别的网页通过短信、或微信、或邮件的方式通知用户。

实施例二

图2为本发明对互联网信息进行涉密涉敏信息监测具体流程。

首先，通过爬虫获取待监测的互联网信息，对于其中的网页信息进行DOM解析，对于扫描件、附件则尽心下载；

然后，对得到的互联网信息进行涉密涉敏特征提取，具体特征包括文章页特征、网页table特征、关键词特征、图片特征等；

接下来，对得到的特征利用涉密涉敏信息识别模型，对互联网信息进行涉密涉敏的初步分析，得到包含涉敏涉敏信息的有效特征，并构建涉敏涉敏词库以及规则库；

对得到的包含涉敏涉敏信息的有效特征，利用多模式匹配算法进行涉密涉敏信息二次校验，并利用涉敏涉敏词库以及规则库确定涉密涉敏信息泄露等级；

对较为严重的涉密涉敏互联网信息，通过邮件、短信、微信等方式通知用户。

实施例三

图3为本发明提供的一种对互联网信息进行涉密涉敏信息监测的系统，该系统具体包括以下模块：

涉密涉敏信息识别模型构建模块；

其中，所述涉密涉敏信息识别模型构建模块进一步包括：

信息采集子模块：收集大量包含涉密涉敏信息互联网信息；

特征提取子模块：从互联网信息中提取出涉密涉敏特征；

其中，所述涉密涉敏信息检测模块进一步包括：

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围不局限于此，任何熟悉本技术领域的技术人员在本发明的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种对互联网信息进行涉密涉敏信息监测的方法，具体包括以下步骤：

S1、构建涉密涉敏信息识别模型；

S3、采集互联网信息，对其进行涉密涉敏信息检测，判断其涉密涉敏信息泄漏级别；

S4、将涉密涉敏信息泄漏级别为严重以及重大级别的互联网信息通过短信、和\或微信、和\或邮件的方式通知用户；

其中，所述步骤S1进一步包括：

S1.1、收集大量包含涉密涉敏信息互联网信息；

S1.2、从互联网信息中提取出涉密涉敏特征；

S1.3、通过不断的机器学习训练，构建基于SVM的涉密涉敏信息识别模型；

所述步骤S2中“根据词库特点定义规则库”进一步包括：根据不同业务需要，构建相应双数组trie树；根据双数组trie树制定规则，分为分词规则、不分词规则；

所述步骤S3进一步包括：

对于扫描件/附件具体包括：下载扫描件、附件，从扫描件、附件中提取出涉密涉敏特征，使用步骤S1生成的涉密涉敏信息识别模型，判断该特征是否包含涉密涉敏信息，如果包含，则该特征为有效特征，需要进行涉密涉敏信息分析，否则该特征为无效特征；

S3.2、涉密涉敏信息分析：通过步骤S2构建的词库、规则库，对从网页、扫描件、附件中提取到的有效特征进行多模式串匹配算法分析，分析是否存在涉密涉敏信息；

2.如权利要求1所述的一种对互联网信息进行涉密涉敏信息监测的方法，其特征在于：所述步骤S3.2中进行多模式串匹配算法分析采用的算法为Aho-Corasick多模式匹配算法或Wu-Manber经典多模式匹配算法。

3.一种对互联网信息进行涉密涉敏信息监测的系统，该系统具体包括以下模块：

涉密涉敏信息识别模型构建模块；

预警模块：将涉密涉敏信息泄漏级别为严重以及重大级别的互联网信息通过短信、和\或微信、和\或邮件的方式通知用户；

其中，所述涉密涉敏信息识别模型构建模块进一步包括：

信息采集子模块：收集大量包含涉密涉敏信息互联网信息；

特征提取子模块：从互联网信息中提取出涉密涉敏特征；

模型生成子模块：通过不断的机器学习训练，构建基于SVM的涉密涉敏信息识别模型；

所述涉密涉敏词库和规则库构建模块中“根据词库特点定义规则库”进一步包括：根据不同业务需要，构建相应双数组trie树；根据双数组trie树制定规则，分为分词规则、不分词规则；

所述涉密涉敏信息检测模块进一步包括：

有效涉密涉敏特征提取子模块：采集web端、移动端网页以及其扫描件、附件内容，利用涉密涉敏信息识别模型构建模块生成的涉密涉敏信息识别模型，判断是否需要进行涉密涉敏信息分析；所述web端是指pc端；

对于web端、移动端网页具体包括：从网页中提取出涉密涉敏特征，使用涉密涉敏信息识别模型构建模块生成的涉密涉敏信息识别模型，判断该特征是否包含涉密涉敏信息，如果包含，则该特征为有效特征，需要进行涉密涉敏信息分析，否则该特征为无效特征；

对于扫描件/附件具体包括：下载扫描件、附件，从扫描件、附件中提取出涉密涉敏特征，使用涉密涉敏信息识别模型构建模块生成的涉密涉敏信息识别模型，判断该特征是否包含涉密涉敏信息，如果包含，则该特征为有效特征，需要进行涉密涉敏信息分析，否则该特征为无效特征；

涉密涉敏信息分析子模块：涉密涉敏信息分析：通过涉密涉敏词库和规则库构建模块构建的词库、规则库，对从网页、扫描件、附件中提取到的有效特征进行多模式串匹配算法分析，分析是否存在涉密涉敏信息；

涉密涉敏信息的泄漏级别判断子模块：对互联网信息中分析出的涉密涉敏信息按照涉密涉敏词库以及规则库判断出该互联网信息涉密涉敏信息的泄漏级别；泄漏级别包括一般、严重和重大。

4.如权利要求3述的一种对互联网信息进行涉密涉敏信息监测的方法，其特征在于：所述涉密涉敏信息分析子模块中进行涉密涉敏信息分析采用的算法为Aho-Corasick多模式匹配算法或Wu-Manber经典多模式匹配算法。