CN113449199B

CN113449199B - 一种基于综合安全审计的文档监控管理系统

Info

Publication number: CN113449199B
Application number: CN202111021148.XA
Authority: CN
Inventors: 徐艳红
Original assignee: Shenzhen Zhiku Information Technology Co ltd
Current assignee: Shenzhen Zhiku Information Technology Co ltd
Priority date: 2021-09-01
Filing date: 2021-09-01
Publication date: 2021-11-26
Anticipated expiration: 2041-09-01
Also published as: CN113449199A

Abstract

本发明涉及文档敏感字监控技术领域，解决文档编辑者在敏感词的字符当中加入特殊字符，采用现有的敏感词检测、过滤方法无法对其进行有效检测的问题，具体为一种基于综合安全审计的文档监控管理系统，包括文档监管平台，所述文档监管平台通信连接有敏感检测模块、敏感补入模块、敏感词库、词库管理模块、文档管理模块以及存储模块，所述敏感词库用于存储文档敏感词，敏感检测模块用于对文档进行敏感词检测；本发明通过将文档进行断句形成待测语句的方式逐一对待测语句进行敏感词比对，防止在敏感词的敏感字符之间插入特殊字符以使得敏感词躲避传统敏感词检测方法的检测，对敏感词加工过之后的“敏感词”也能够进行检测。

Description

一种基于综合安全审计的文档监控管理系统

技术领域

本发明涉及文档敏感字监控技术领域，具体为一种基于综合安全审计的文档监控管理系统。

背景技术

文档在上传时需要对文档内容进行敏感词检测，在多数网站，敏感词一般是指带有暴力倾向、不健康色彩的词或不文明语，也有一些网站根据自身实际情况，设定一些只适用于本网站的特殊敏感词，文档在检测到敏感词后不予上传或直接用符号对敏感词进行替换，以对带有敏感词的文档进行拦截的目的。

公告号为CN105956180B的发明专利揭示了一种敏感词过滤方法，该敏感词过滤方法将多种敏感词过滤手段以链式组合，形成敏感词过滤链并逐个执行，如此，该敏感词过滤方法能够更全面彻底地过滤各种经过干扰、修饰过的敏感词，大大增强垃圾信息的拦截效果；然而，现有的敏感词通常会在敏感字之间插入*、&等特殊符号，使组合后的词语能够躲过敏感词检测，因此当文档编辑者在敏感词的字符当中加入特殊字符，采用现有的敏感词检测、过滤方法无法对其进行有效检测，而在敏感词的字符当中加入特殊字符的方式在显示时不会影响敏感词的正常阅读，因此在敏感词当中插入特殊字符的方式既能够躲避敏感词检测也不影响敏感词的信息输出。

针对上述技术问题，本申请提出一种解决方案。

发明内容

本发明的目的就在于为了解决文档编辑者在敏感词的字符当中加入特殊字符，采用现有的敏感词检测、过滤方法无法对其进行有效检测的问题，而提出一种基于综合安全审计的文档监控管理系统。

本发明的目的可以通过以下技术方案实现：一种基于综合安全审计的文档监控管理系统，包括文档监管平台，所述文档监管平台通信连接有敏感检测模块、敏感补入模块、敏感词库、词库管理模块、文档管理模块以及存储模块，所述敏感词库用于存储文档敏感词，敏感检测模块用于对文档进行敏感词检测，敏感词检测过程为：

将被检测的文档进行文字提取并标记为待测文档，将待测文档通过标点符号断句获得的若干个短句标记为待测语句，选取第一个待测语句，将敏感词库中的敏感词逐一与第一个待测语句进行比对：

若待测语句中存在与敏感词完全相同的词语，则将对应的待测语句标记为敏感语句，对应敏感词的选中次数加一；若待测语句中不存在与敏感词完全相同的词语，则将对应的待测语句标记为正常语句并对下一个待测语句与敏感词进行比对；

若所有的待测语句均为正常语句，若标记敏感词中的字符在待测语句中出现的次数为一，则判定对应的待测语句为正常语句；若标记敏感词中的字符在待测语句中出现的次数大于一，则对待测语句中出现的标记敏感词的多个字符之间是否存在特殊符号进行判定，若不存在特殊字符，则判定对应的待测语句为正常语句；若存在特殊字符，则判定对应的待测语句为敏感语句，对应敏感词的选中次数加一；

当所有的待测语句均为正常语句时，通过文档的敏感比判定待测文档的敏感词检测结果是否为合格；

敏感词检测结果为合格的文档被存入存储模块当中。

作为本发明的一种优选实施方式，所述标记敏感词的获取过程包括：将所有的敏感词打散形成由敏感字组成的敏感字集合，选取第一个待测语句，将敏感字集合中的敏感字逐一与第一个待测语句进行比对，若待测语句中与敏感字相同的字符数量小于一，则判定对应的待测语句为正常语句；若待测语句中与敏感字相同的字符数量不小于一，则将对应的待测语句标记为审核语句，将对应的字符标记为标记字符，在敏感词库中筛选出所有带有标记字符的敏感词并标记为标记敏感词。

作为本发明的一种优选实施方式，敏感比的获取过程为：获取所有待测语句的字符总数与敏感字符出现的总次数，将敏感字符出现的总次数与待测语句的字符总数的比值标记为敏感比，将敏感比与敏感比阈值进行比较，通过比较结果对文档的敏感词检测结果是否合格进行判定。

作为本发明的一种优选实施方式，敏感比与敏感比阈值的比较过程为：

若敏感比小于敏感比阈值，则判定对应的待测文档的敏感词检测结果为合格；

若敏感比大于等于敏感比阈值，则判定对应的待测文档的敏感词检测结果为不合格。

作为本发明的一种优选实施方式，所述词库管理模块用于对敏感词库中的敏感词进行管理，具体的管理过程包括：

将敏感词库中的敏感词标记为i，i=1，2，…，n，n为正整数，将近L1天内敏感词的选中次数标记为MZi，L1为设定时间常量，将敏感词以MZi的大小进行排序，选取前百分之三十的敏感词标记为优先敏感词，在进行敏感词检测时优先提取优先敏感词进行检测比对，当待测语句中出现与优先敏感词完全相同的词语时，剩余敏感词不再检测，直接将待测文档的敏感词检测结果标记为不合格。

作为本发明的一种优选实施方式，所述敏感补入模块用于在敏感词检测完成后，将待测文档输入补入模型当中进行敏感字检测，通过补入模型输出新的敏感词补入到敏感词库中。

作为本发明的一种优选实施方式，补入模型对待测文档的敏感字进行分析输出新的敏感词的过程包括：

选取待测文档中所有的审核语句，将审核语句中出现的标记字符标记为u，u=1，2，…，m，m为正整数，将审核语句中标记字符与前后相邻标记字符之间的字符数分别标记为Qu与Hu；

将Qu=0或Hu=0的标记字符标记为拼接字符，当Qu=0时，选取拼接字符前一位的字符与拼接字符组成考核词语，当Hu=0时，选取拼接字符后一位的字符与拼接字符组成考核词语，当Qu与Hu均等于0时，选取拼接字符前一位、后一位的字符与拼接字符组成考核词语；

将考核词语发送至文档监管平台进行人工审核，若人工审核通过，则将考核词语标记为正常词语，若人工审核不通过，则将考核词语标记为新的敏感词补入到敏感词库当中。

作为本发明的一种优选实施方式，所述文档管理模块用于对敏感词检测结果为合格的文档进行适用性管理，将敏感词检测结果为合格的文档标记为合格文档t，t=1，2，…p，p为正整数，获取合格文档t在近L2天内被点击的次数并标记为DCt，获取合格文档在近L2天内被浏览的总时长并标记为LSt，单位为分钟，获取合格文档在近L2天内被收藏的总次数并标记为SCt；

通过对DCt、LSt以及SCt进行分析得到合格文档的使用系数SYt，通过存储模块获取使用系数阈值SYmin与SYmax，将合格文档的使用系数SYt与使用系数阈值SYmin、SYmax进行比较，通过比较结果对待测文档进行分级。

作为本发明的一种优选实施方式，使用系数SYt与使用系数阈值SYmin、SYmax的比较过程包括：

若SYt≤SYmin，则判定对应的合格文档为三级文档；

若SYmin＜SYt＜SYmax，则判定对应的合格文档为二级文档；

若SYt≥SYmax，则判定对应的合格文档为一级文档。

作为本发明的一种优选实施方式，通过存储模块获取点击次数阈值DCmin，将点击次数DCt与点击次数阈值DCmin进行比较，将点击次数小于点击次数阈值的合格文档从存储模块中进行删除。

与现有技术相比，本发明的有益效果是：

1、通过敏感检测模块对文档进行敏感词检测，通过将文档进行断句形成待测语句的方式逐一对待测语句进行敏感词比对，敏感词打散形成敏感字集合，对待测语句中同一个敏感词的多个敏感字之间是否存在特殊字符进行检测，防止在敏感词的敏感字之间插入特殊字符以使得敏感词躲避传统敏感词检测方法的检测，因此本申请除了可以对常规敏感词进行检测之外，对敏感词加工过之后的“敏感词”依然能够进行检测。

2、通过敏感管理模块可以根据敏感词库中敏感词出现的频率确定敏感词的检测优先级，从而使出现频率高的敏感词可以得到优先检测，在存在敏感词的待测语句中，优先对高频敏感词进行检测可以缩短对应待测语句的检测时间，从而提高对待测文档进行敏感词检测的效率。

3、通过敏感词补入模块对完成敏感词检测的正常文档进行疑似敏感词检测，对相邻的敏感字组合形成考核词语，通过人工审核的方式对考核词语进行敏感词判定，从而可以在考核词语判定为敏感词后将其补入到敏感词库内，使敏感词库更加丰富，针对自动检测漏掉的不属于敏感词库当中的敏感词进行补入，提高后续对敏感词检测结果的精确性。

4、通过文档管理模块可以对存储模块中存储的正常文档进行使用频率分析，将使用频次较低的低质量文档从存储模块中删除，释放存储模块的容量，同时对正常文档进行评级，针对于二等级文档进行内容推荐，以提高二等级文档的使用频次，针对一等级的使用系数对存储模块当中的正常文档进行整体质量分级。

附图说明

为了便于本领域技术人员理解，下面结合附图对本发明作进一步的说明。

图1为本发明的原理框图；

图2为本发明敏感检测模块对待测文档进行敏感词检测的流程图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1-2所示，一种基于综合安全审计的文档监控管理系统，包括文档监管平台，文档监管平台通信连接有敏感检测模块、敏感补入模块、敏感词库、词库管理模块、文档管理模块以及存储模块；

敏感词库用于存储文档敏感词，敏感检测模块用于对文档进行敏感词检测，敏感词检测过程包括以下步骤：

步骤S1：将被检测的文档进行文字提取并标记为待测文档，将待测文档通过标点符号断句获得的若干个短句标记为待测语句，将文档内容分隔成多个待测语句再逐个对待测语句进行敏感词分析，选取第一个待测语句，将敏感词库中的敏感词逐一与第一个待测语句进行比对，若待测语句中存在与敏感词完全相同的词语，则表示该待测语句中出现了该敏感词，因此该待测语句以及检测的文档均不能够满足敏感词检测标准，则将对应的待测语句标记为敏感语句，对应敏感词的选中次数加一，对敏感词的选中次数进行统计有利于完成敏感词分析之后再对敏感词的选中频率进行分析，从而筛选出优先敏感词，在后续进行敏感词检测时优先对优先敏感词进行检测比对，在后续检测中若存在敏感词，则敏感词为优先敏感词的概率要高于其他的敏感词，因此优先采取优先敏感词进行检测比对可以缩短待测语句的敏感词检测时间，从而提高敏感词检测效率，同时将待测文档的敏感词检测结果标记为不合格，待测文档的敏感词检测结束，当任一待测语句中出现完整的敏感词时，则停止敏感词检测并判定敏感词检测结果为不合格，被判定为敏感词检测不合格的文档被退回修改，修改提交后再次通过敏感检测模块对文档进行敏感词检测比对；若待测语句中不存在与敏感词完全相同的词语，则将对应的待测语句标记为正常语句并对下一个待测语句与敏感词进行比对；若所有的待测语句均为正常语句，则进行下一步，当所有的待测语句均为正常语句时，表示所有的待测语句均不存在完整的敏感词，下一步对待测语句进行敏感字检测比对；

步骤S2：将所有的敏感词打散形成由敏感字组成的敏感字集合，选取第一个待测语句，将敏感字集合中的敏感字逐一与第一个待测语句进行比对，若待测语句中与敏感字相同的字符数量小于二，则判定对应的待测语句为正常语句，待测语句中与敏感字相同的字符数量为一或零时，对应的敏感字不能够组成敏感词，因此将对应待测语句标记为正常语句；若待测语句中与敏感字相同的字符数量不小于二，则将对应的待测语句标记为审核语句，待测语句中与敏感字相同的字符数量为多个时，多个敏感字具备组成敏感词的可能，因此将待测语句标记为审核语句进行进一步检测比对，将对应的字符标记为标记字符，在敏感词库中筛选出所有带有标记字符的敏感词并标记为标记敏感词，若标记敏感词中的字符在待测语句中出现的次数为一，将标记字符与敏感词进行匹配，匹配的敏感词当中的字符在待测语句中出现的次数为一，则表示该敏感词当中仅有一个敏感字出现在审核语句当中，因此对应的审核语句的字符不能够成敏感词，则判定对应的待测语句为正常语句；若标记敏感词中的字符在待测语句中出现的次数大于一，则表示敏感词的多个字符出现在待测语句当中，对出现的多个字符进行特殊符号检测，判定是否将特殊字符插入到敏感词的字符之间以躲避敏感词检测，对待测语句中出现的标记敏感词的多个字符之间是否存在特殊符号进行判定，若不存在特殊字符，则判定对应的待测语句为正常语句；若存在特殊字符，则判定对应的待测语句为敏感语句，对应敏感词的选中次数加一，同时将待测文档标的敏感词检测结果标记为不合格，待测文档的敏感词检测结束，特殊字符包括但不限于“！”、“@”、“#”、“￥”、“%”、“&”以及“*”；

步骤S3：当所有的待测语句均为正常语句时，获取所有待测语句的字符总数与敏感字符出现的总次数，将敏感字符出现的总次数与待测语句的字符总数的比值标记为敏感比，当所有的待测语句均为正常语句时则通过敏感字符在文档中出现的比例来对文档进行最后一步的敏感词检测，将敏感比与敏感比阈值进行比较：

若敏感比小于敏感比阈值，则表示敏感词的敏感字符在文档中出现的频率不高，判定对应的待测文档的敏感词检测结果为合格；

若敏感比大于等于敏感比阈值，则表示敏感词的敏感字符在文档中出现的频率较高，则判定对应的待测文档的敏感词检测结果为不合格；

敏感词检测结果为合格的文档被存入存储模块当中。

词库管理模块用于对敏感词库中的敏感词进行管理，具体的管理过程包括：

将敏感词库中的敏感词标记为i，i=1，2，…，n，n为正整数，将近L1天内敏感词的选中次数标记为MZi，L1为设定时间常量，将敏感词以MZi的大小进行排序，选取前百分之三十的敏感词标记为优先敏感词，在进行敏感词检测时优先提取优先敏感词进行检测比对，当待测语句中出现与优先敏感词完全相同的词语时，剩余敏感词不再检测，直接将待测文档的敏感词检测结果标记为不合格，根据敏感词库中敏感词出现的频率确定敏感词的检测优先级，从而使出现频率高的敏感词可以得到优先检测，在存在敏感词的待测语句中，优先对高频敏感词进行检测可以缩短对应待测语句的检测时间，从而提高对待测文档进行敏感词检测的效率。

敏感补入模块用于在敏感词检测完成后，将待测文档输入补入模型当中进行敏感字检测，通过补入模型输出新的敏感词补入到敏感词库中；

补入模型对待测文档的敏感字进行分析输出新的敏感词的过程包括：

步骤W1：选取待测文档中所有的审核语句，将审核语句中出现的标记字符标记为u，u=1，2，…，m，m为正整数，将审核语句中标记字符与前后相邻标记字符之间的字符数分别标记为Qu与Hu，通过Qu与Hu可以判定敏感词的字符是否存在交叉组合形成未被收录至敏感词库中的敏感词，当Qu或Hu为零时，表示标记字符前一位或后一位的字符为其他敏感词的敏感字符，因此标记字符与前一位或后一位的字符有可能会组成新的敏感词；

步骤W2：将Qu=0或Hu=0的标记字符标记为拼接字符，当Qu=0时，选取拼接字符前一位的字符与拼接字符组成考核词语，当Hu=0时，选取拼接字符后一位的字符与拼接字符组成考核词语，当Qu与Hu均等于0时，选取拼接字符前一位、后一位的字符与拼接字符组成考核词语；

步骤W3：将考核词语发送至文档监管平台进行人工审核，若人工审核通过，则表示拼接字符前一位、后一位的字符与拼接字符不能够组成新的敏感词，不对该考核语句进行收录，将考核词语标记为正常词语；若人工审核不通过，则表示拼接字符前一位、后一位的字符与拼接字符组成了新的敏感词，将考核词语标记为新的敏感词补入到敏感词库当中，在考核词语判定为敏感词后将其补入到敏感词库内，使敏感词库更加丰富，针对自动检测漏掉的不属于敏感词库当中的敏感词进行补入，提高后续对敏感词检测结果的精确性。

文档管理模块用于对敏感词检测结果为合格的文档进行适用性管理，将敏感词检测结果为合格的文档标记为合格文档t，t=1，2，…p，p为正整数，获取合格文档t在近L2天内被点击的次数并标记为DCt，获取合格文档在近L2天内被浏览的总时长并标记为LSt，单位为分钟，获取合格文档在近L2天内被收藏的总次数并标记为SCt，L2为预设时间常量；

通过存储模块获取点击次数阈值DCmin，将点击次数DCt与点击次数阈值DCmin进行比较，将点击次数小于点击次数阈值的合格文档从存储模块中进行删除，将使用频次较低的低质量文档从存储模块中删除，释放存储模块的容量；

通过公式

得到合格文档的使用系数SYt，需要说明的是，使用系数SYt是一个在L2天内合格文档的使用频率的数值，使用系数的数值越高则表示对应的合格文档在L2天内的使用频率越高，其中α1、α2以及α3均为比例系数，通过存储模块获取使用系数阈值SYmin与SYmax，将合格文档的使用系数SYt与使用系数阈值SYmin、SYmax进行比较：

若SYt≤SYmin，则判定对应的合格文档为三级文档；

若SYmin＜SYt＜SYmax，则判定对应的合格文档为二级文档；

若SYt≥SYmax，则判定对应的合格文档为一级文档；

选取存储模块中所有的一级文档，对一级文档的使用系数SYt进行求和取平均值得到一级文档的平均使用系数，通过存储模块获取到平使阈值，将一级文档的平均使用系数与平使阈值进行比较：

若一级文档的平均使用系数大于等于平使阈值，则判定存储模块中的合格文档为优质文档；若一级文档的平均使用系数小于平使阈值，则判定存储模块中的合格文档为普通文档。

上述公式均是采集大量数据进行软件模拟得出且选取与真实值接近的一个公式，公式中的系数是由本领域技术人员根据实际情况进行设置；

本发明在使用时，通过敏感检测模块对文档进行敏感词检测，将被检测的文档进行文字提取并标记为待测文档，将待测文档通过标点符号断句获得的若干个短句标记为待测语句，选取第一个待测语句，将敏感词库中的敏感词逐一与第一个待测语句进行比对，将不存在与敏感词完全相同的词语的待测语句，标记为正常语句并对下一个待测语句与敏感词进行比对，当出现同一个敏感词当中的多个敏感字符出现在同一个待测语句当中时，通过多个敏感字符之间是否存在特殊字符对待测语句的敏感词检测结果进行判定，最后，通过敏感字在待测文档中出现的频率对待测文档进行最后一步的敏感词检测。

以上内容仅仅是对本发明结构所作的举例和说明，所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于综合安全审计的文档监控管理系统，包括文档监管平台，所述文档监管平台通信连接有敏感检测模块、敏感补入模块、敏感词库、词库管理模块、文档管理模块以及存储模块，其特征在于，所述敏感词库用于存储文档敏感词，敏感检测模块用于对文档进行敏感词检测，敏感词检测过程为：

敏感词检测结果为合格的文档被存入存储模块当中；

所述词库管理模块用于对敏感词库中的敏感词进行管理；

所述敏感补入模块用于在敏感词检测完成后，将待测文档输入补入模型当中进行敏感字检测，通过补入模型输出新的敏感词补入到敏感词库中；

所述文档管理模块用于对敏感词检测结果为合格的文档进行适用性管理。

2.根据权利要求1所述的一种基于综合安全审计的文档监控管理系统，其特征在于，所述标记敏感词的获取过程包括：将所有的敏感词打散形成由敏感字组成的敏感字集合，选取第一个待测语句，将敏感字集合中的敏感字逐一与第一个待测语句进行比对，若待测语句中与敏感字相同的字符数量小于一，则判定对应的待测语句为正常语句；若待测语句中与敏感字相同的字符数量不小于一，则将对应的待测语句标记为审核语句，将对应的字符标记为标记字符，在敏感词库中筛选出所有带有标记字符的敏感词并标记为标记敏感词。

3.根据权利要求1所述的一种基于综合安全审计的文档监控管理系统，其特征在于，敏感比的获取过程为：获取所有待测语句的字符总数与敏感字符出现的总次数，将敏感字符出现的总次数与待测语句的字符总数的比值标记为敏感比，将敏感比与敏感比阈值进行比较，通过比较结果对文档的敏感词检测结果是否合格进行判定。

4.根据权利要求3所述的一种基于综合安全审计的文档监控管理系统，其特征在于，敏感比与敏感比阈值的比较过程为：

5.根据权利要求1所述的一种基于综合安全审计的文档监控管理系统，其特征在于，所述词库管理模块对敏感词库中的敏感词进行管理的具体过程包括：

6.根据权利要求1所述的一种基于综合安全审计的文档监控管理系统，其特征在于，补入模型对待测文档的敏感字进行分析输出新的敏感词的过程包括：

7.根据权利要求1所述的一种基于综合安全审计的文档监控管理系统，其特征在于，所述文档管理模块对敏感词检测结果为合格的文档进行适用性管理的过程包括：将敏感词检测结果为合格的文档标记为合格文档t，t=1，2，…p，p为正整数，获取合格文档t在近L2天内被点击的次数并标记为DCt，获取合格文档在近L2天内被浏览的总时长并标记为LSt，单位为分钟，获取合格文档在近L2天内被收藏的总次数并标记为SCt；

8.根据权利要求7所述的一种基于综合安全审计的文档监控管理系统，其特征在于，使用系数SYt与使用系数阈值SYmin、SYmax的比较过程包括：

若SYt≤SYmin，则判定对应的合格文档为三级文档；

若SYmin＜SYt＜SYmax，则判定对应的合格文档为二级文档；

若SYt≥SYmax，则判定对应的合格文档为一级文档。

9.根据权利要求7所述的一种基于综合安全审计的文档监控管理系统，其特征在于，通过存储模块获取点击次数阈值DCmin，将点击次数DCt与点击次数阈值DCmin进行比较，将点击次数小于点击次数阈值的合格文档从存储模块中进行删除。