CN112287067A

CN112287067A - 一种基于语义分析的敏感事件可视化应用实现方法、系统及终端

Info

Publication number: CN112287067A
Application number: CN202011176705.0A
Authority: CN
Inventors: 卢腾; 魏家辉; 程杰; 苗功勋; 李静; 刘凯乐; 胡威; 刘冬梅; 张书林; 何永远; 李继船; 李明明; 王延国; 于晓欣; 王金国; 刘佃波
Original assignee: State Grid Information and Telecommunication Co Ltd; Zhongfu Information Co Ltd
Current assignee: State Grid Information and Telecommunication Co Ltd; Zhongfu Information Co Ltd
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2021-01-29

Abstract

本发明提供一种基于语义分析的敏感事件可视化应用实现方法、系统及终端，将Hook模块封装到终端的系统中；当终端对文件执行操作行为时，Hook模块通过预先设置的回调模块，将操作行为对应的事件信息通知到敏感处理模块；敏感处理模块对操作行为以及操作行为对应的事件信息进行监控并记录。本发明对办公终端采用技术化手段扫描、监测敏感文件各种行为，按实际业务流程需求建立多个数据采集分析场景模型，对各类数据进行汇总处理分析，将分析结果实时呈现给用户，并根据用户重要级别分级分域进行数据展现。从而实现精准用户行为定位，实时远程在线自动化监测及展示，全面提升敏感事件感知能力，从根源上防范失泄密风险隐患。

Description

一种基于语义分析的敏感事件可视化应用实现方法、系统及终端

技术领域

本发明涉及信息安全技术领域，尤其涉及一种基于语义分析的敏感事件可视化应用实现方法、系统及终端。

背景技术

随着信息化发展已深入到各行各业以及许多应用领域，尤其是新兴移动办公模式，通过信息化数据处理可以提升工作效率，实现无纸化办公，远程办公等形式。

但是，信息化数据处理也给用户的数据保密安全工作带来了新的风险，尤其是涉及用户的秘密文件以及机密数据。具有的泄露风险越来越高。

这样，数据文件的保密安全作为“大安全”的一部分，关系到每个使用数据的切身利益，关系到公司生存发展和长治久安。当前保密工作在观念、制度、手段和力量等方面与面临的形势任务不相适应问题日益凸显，亟需提升网络保密技术支撑能力，确保用户数据文件的安全。

发明内容

为了克服上述现有技术中的不足，本发明基于保密安全工作现状，分析保密工作面临的风险，研究语义分析相关的智能化判定技术，实现了保密安全敏感事件感知及可视化展现，形成一套支撑保密安全监测的平台解决方案，能够精准、高效的服务于企业保密管理工作，提升了企业保密技术支撑水平，有效遏制失泄密事件发生。

具体包括：将Hook模块封装到终端的系统中；

当终端对文件执行操作行为时，Hook模块通过预先设置的回调模块，将操作行为对应的事件信息通知到敏感处理模块；

敏感处理模块对操作行为以及操作行为对应的事件信息进行监控并记录。

进一步需要说明的是，回调模块判断文件执行操作行为是否涉及保密文件；

如未涉及保密文件，则直接执行操作行为；

如涉及保密文件，将操作行为对应的事件信息添加到事件队列中，由敏感处理模块对操作行为以及操作行为对应的事件信息进行监控并记录。

进一步需要说明的是，敏感处理模块对操作行为以及操作行为对应的事件信息进行监控并记录包括：

采取嵌套文档检查方式、文件抽查方式、网络流量抓包方式以及文本提取方式对系统中事件信息进行识别、分析、提取文件全部内容。

进一步需要说明的是，嵌套文档检查方式支持DOC格式办公文档、DOCX格式办公文档、PPT格式办公文档、PPTX格式办公文档、XLS格式办公文档以及XLSX格式办公文档的多层嵌套检查；实现对嵌套隐藏在非保密文件中的涉密文件进行解析检测。

进一步需要说明的是，文件抽查方式为当用户在进行文件遍历操作过程中，根据遍历的文件检查路径，调取文件信息，获取调取文件的大小、类型以及创建时间，并作为参数传递给抽查算法，抽查算法给出文件检查优先级，根据优先级，将文件配置到待检查队列中，依次的由敏感处理模块进行监控；

文本提取方式为提取文件类型格式，基于预设的文件类型格式，对提取的文件进行监控。

进一步需要说明的是，敏感处理模块采用全量数据传输监控方式为通过网络协议分析、Hook、文件过滤驱动方式，实现对QQ、微信、浏览器、邮箱客户端、网盘涉及的网络文件传输方式的实时监控。

进一步需要说明的是，敏感处理模块采用文档内容智能化判定方式，对文件进行处理；

文档内容智能化判定方式采用OCR识别、语义词库过滤、版式文件识别检查、指纹比对相似文件、相同文件自动判定方式实现智能化文件判定。

进一步需要说明的是，方法还包括：

对操作行为进行可视化显示；

对操作行为对应的事件信息进行监控并记录，同时进行可视化显示。

可视化显示方式包括：文本、文本录入、表格、栅格布局、柱状图、饼状图、折线图、地理信息可视化组件、三维效果可视化组件以及数据展示透视表格。

本发明还提供一种基于语义分析的敏感事件可视化应用实现系统，包括：Hook模块、敏感处理模块、回调模块以及可视化显示模块；

Hook模块封装到终端的系统中；

敏感处理模块对操作行为以及操作行为对应的事件信息进行监控并记录；

可视化显示模块用于对系统的数据处理过程以及处理结果进行显示。

本发明还提供一种实现基于语义分析的敏感事件可视化应用实现方法的终端，包括：

存储器，用于存储计算机程序及基于语义分析的敏感事件可视化应用实现方法；

处理器，用于执行所述计算机程序及基于语义分析的敏感事件可视化应用实现方法，以实现基于语义分析的敏感事件可视化应用实现方法的步骤。

从以上技术方案可以看出，本发明具有以下优点：

本发明涉及的基于语义分析的敏感事件可视化应用实现方法及系统，对办公终端采用技术化手段扫描、监测敏感文件违规存储、操作、传递的各种行为，按实际业务流程需求建立多个数据采集分析场景模型，对终端监控采集的各类数据进行汇总处理分析，将分析结果采用各种可视化图表集中实时呈现给用户，并根据用户重要级别分级分域进行数据展现。从而实现精准用户行为定位，实时远程在线自动化监测，大屏可视化告警展示，全面提升敏感事件感知能力，快速响应能力，从根源上防范失泄密风险隐患。

本发明对终端的保密信息或敏感事件进行自动采集，实时上报、实时呈现告警数据。保密信息或敏感事件中可疑文件判定一次后再次发现自动判定，减少人工判定工作量，提高工作效率。对系统的文件相似性对比分析，辅助可疑敏感事件的发现，提高敏感事件发现处置能力。基于语义分析的智能化监测能力，降低保密信息或敏感事件的误报率。驾驶舱式数据呈现，全方面多角度最直观展示已上报敏感事件。

附图说明

为了更清楚地说明本发明的技术方案，下面将对描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为基于语义分析的敏感事件可视化应用实现方法流程图；

图2为Hook监控原理图；

图3为利用Hook技术的事件监控处理流程图；

图4为嵌套文档检查方式示意图；

图5为文件抽查方式示意图；

图6为文本提取方式示意图；

图7为对传输的数据进行监控示意图；

图8为文档内容智能化判定方式示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种基于语义分析的敏感事件可视化应用实现方法，其中本发明中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

如图1所示，方法包括：

S11，将Hook模块封装到终端的系统中；

S12，当终端对文件执行操作行为时，Hook模块通过预先设置的回调模块，将操作行为对应的事件信息通知到敏感处理模块；

S13，敏感处理模块对操作行为以及操作行为对应的事件信息进行监控并记录。本发明涉及的操作行为包括：打开、关闭、复制、粘贴以及删除。

操作行为对应的事件信息包括：文件信息，源文件路径，目标文件路径，操作类型，进程名称，名称命令行以及操作时间等等。也就是对文件的处理过程。

本发明提供的基于语义分析的敏感事件可视化应用实现方法附图中，所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

基于本发明提供的基于语义分析的敏感事件可视化应用实现方法可以对终端进行敏感信息实时监控。敏感信息可以是用户设置的保密信息，或者系统的文件信息，或根据使用环境以及使用对象，基于预设条件作为保密处理的文件等等。如企业内部的商业秘密，个人信息等等。

本发明中，是对敏感信息实时监控，对用户使用的终端执行各类文件操作进行行为监控，捕获过程数据，进而实现监控。本发明可以采用Hook监控、文件过滤驱动技术等实现。

其中，Hook是Windows中提供的一种用以替换DOS下“中断”的系统机制，一旦发生Hook事件，对该事件进行Hook的程序就会收到系统通知，这时程序就能在第一时间对该事件做出响应。Hook监控原理图2所示。

通过Hook技术既可以实现对产品文件的保护，防止文件被篡改，同时可以对操作系统进程进行监控，即可对合规进程进行保护，又可以对违规进程强制关闭，比如可以保护产品进程不被恶意终止，同时针对违规进程比如涉密机器上链接互联网的进程发现后可强制阻断。

对Hook技术进行封装设计，实现模块化的Hook平台。当终端发生对文件执行常规操作行为，如打开、关闭、复制、粘贴、删除等，Hook平台即通过预先设置好的回调函数，将发生的事件通知到敏感终端，敏感终端对操作行为进行监控并记录。Hook平台提供了事件详细信息，例如：事件的进程、事件的操作类型等等。在回调函数中，敏感终端将Hook接口返回的事件类型，转化成业务中事件类型，对不关心的操作类型直接返回。将业务需要处理的事件类型，结合业务构造事件详细参数(进程访问的源文件路径，目标文件路径，操作类型，进程名称，名称命令行，操作时间)，并添加到事件队列中，由另一个线程负责进行继续处理。利用Hook技术的事件监控处理流程如图3所示。

作为本发明提供的实施方式，对监控到的文件进行基于语义分析的智能化检查及判定。

其中，对监控的文件进行检查及判定操作，采取嵌套文档检查、文件抽查、网络流量抓包、文本提取等方式先对系统中各式各样文件进行识别、分析、提取文件全部内容，然后再使用OCR识别、语义词库过滤、版式文件识别检查、指纹比对相似文件、相同文件自动判定等技术实现智能化文件判定。

具体的：

本发明提供的嵌套文档检查方式为：如图4所示，实现了文件嵌套检查技术，解决了之前涉密文件嵌套隐藏在非密文件中的问题，该技术支持DOC、DOCX、PPT、PPTX、XLS、XLSX等办公文档多层嵌套检查。

本发明提供的文件抽查方式为：如图5所示，在文件遍历流程中，给出文件检查路径，取出文件路径、文件大小、类型、创建时间等要素作为参数传递给抽查算法，算法给出文件检查优先级，根据优先级进入文件待检查队列。抽查算法可以是先进先出的算法，可以是按照文件的重要级别进行处理，可以是按照使用用户的权限进行处理等等。

本发明提供的文本提取方式为：如图6所示，常规文件检查手段会遗漏掉破坏文件头和改后缀的文件，因为常规文件检查是以文件后缀作为文件选项、以二进制文件头作为文件类型标志，针对此特殊情况我们针对每种文件类型格式进行输入分析，最终实现了破坏文件头及改后缀文档检查，填补了此项技术空白，文件检查更加全面准确无遗漏。

作为本发明提供的实施方式，可以对传输的数据进行监控。如图7所示。通过网络协议分析、Hook、文件过滤驱动等多种技术手段的有机组合，实现了对QQ、微信、浏览器、邮箱客户端、网盘等软件涉及的文件网络传输行为的实时监控。其中对网络数据抓取采用的是网络协议分析技术(winpcap)。winpcap是windows平台下的一个公共的网络访问系统，其主要功能在于独立于主机协议(如TCP-IP)而发送和接收原始数据包。winpcap不会阻塞、过滤或控制其他应用程序数据包的发收，但它可以监听共享网络上传送的数据包，将数据包截取，按协议、数据包编号进行逆序拼装，还原出原始文件。

这样，通过网络协议分析技术实时抓取网络传输流量，进而对其进行数据组包、传输协议分析、文本内容截取、检查策略分析，对文件的发送接收等行为进行记录，以此达到实时监控网络传输流量的目的，对文件的追根溯源提供文件传输数据的支撑。

作为本发明提供的实施方式，本发明的方法还涉及文档内容智能化判定方式，对文件进行处理；如图8所示。这里，采用OCR识别、语义词库过滤、版式文件识别检查、指纹比对相似文件、相同文件自动判定等技术实现智能化文件判定。

作为本发明提供的实施方式，本发明涉及的OCR识别方式可以通过对图片图像文件识别并转换成文本格式，从而实现对图片图像文件的检查。

首先对图像进行预处理，对图像的成像效果进行调整。常见的预处理过程包括：几何变换(扭曲、倾斜、旋转等)、畸变校正、去除模糊、图像增强和光线校正等。接下来对文字版面进行分析；先将每一行进行行分割，这样把每行的字符切割下来；然后再对每行文本进行列的分割，最后切割成一个一个的字符；我们将字符送入到训练好的OCR识别模型里进行最重要的字符识别，得到最终识别结果。

作为本发明提供的实施方式，语义词库过滤方式为：终端执行检查任务时，对每次发起检查任务策略做记录，对检查的合规性词语自动过滤，诸如电脑“开机密码”等此类短语。逐步积累补充完善，构建合规词汇专家知识库，实现自动过滤，降低系统误报率。

作为本发明提供的实施方式，版式文件检查方式为：通过对政府机关下发的红头文件机要文件等相关文件的格式进行分析、总结归纳后对此类特定格式文件形成统一可量化的各类指标，终端检查工具检查过程中分析各个指标匹配程度进而对标准版式文件进行检查，发现真正符合指标的版式文件，同时页面单独展示，提高文件操作人员对该类型文件的关注程度，辅助判定工作。

作为本发明提供的实施方式，指纹比对相似文件方式为：文件指纹匹配技术是从样本文档中生成指纹特征库，然后以同样的方法从待检测文档或内容中提取指纹；将得到的指纹与指纹库进行匹配，获得其相似度。

终端通过指纹算法计算出文件的指纹特征码，在报告上传过程中将文件指纹信息一并上报管理端，通讯服务器接收到文件信息后，CPU进行计算处理以文件指纹信息作为基础数据，通过分词技术、tf-idf(用于信息检索与数据挖掘的常用加权技术)，借助simHash(局部敏感哈希)、minHash(最小哈希)算法，以敏感文件库中的违规文件做为比对源，从比对源数据中找出符合一定相似度临界值的特定文件。在历史报告查看展示时对该文件信息着重标注提醒，辅助文件判定操作。

作为本发明提供的实施方式，相同文件自动判定方式为：终端检查文件时通过MD5信息摘要算法计算文件MD5值，上报报告时作为文件唯一标识信息，通讯服务器接收报告时将文件MD5值与敏感文件库文件的MD5值进行比对，发现一致时自动以敏感文件库中文件的判定结果判定当前文件，从而实现文件自动判定，简化判定人员工作量。

作为本发明提供的实施方式，对操作行为进行可视化显示；对操作行为对应的事件信息进行监控并记录，同时进行可视化显示。可视化显示方式包括：文本、文本录入、表格、栅格布局、柱状图、饼状图、折线图、地理信息可视化组件、三维效果可视化组件以及数据展示透视表格。

具体的，可视化展现方式是通过丰富的组件来支持大屏可视化需求的实现。利用可视化展现技术可将底层监控检查分析的数据充分、方便、一目了然的呈现给用户。可视化展现技术组件主要包括文本、文本录入、表格、栅格布局、柱状图、饼状图、折线图、地理信息可视化组件、三维效果可视化组件、数据展示透视表格等。通过丰富的组件任意组合及各组件间的通信交互可实现多样化个性且可事时交互的功能需求。

可视化展现底层框架通过angular实现，采用BS架构具备良好的兼容性，能够在多系统平台上很好的运行。angular是一种mvvm分层结构程序设计，具备很强的扩展性和可维护性；使用栅格化技术，将屏幕进行虚拟切割，从而可以实现适配多种规格屏幕展示效果；通过WebGL三维技术实现三维效果展示，结合三维模型呈现数据，能够更加直观多角度查看数据；通过WebSocket技术，数据变化实时报送，可有效反应数据的变化；通过数据转换、清洗、分析结合业务呈现需求，提供驾驶舱业务体验。

本发明提供的大屏可视化展示可以展示检查任务中的违规主机以及违规文件，通过分析违规文件分布，统计出违规主机分布情况；结合敏感信息文件操作的抓取对文件的打开关闭、复制粘贴、发送、删除、压缩等操作进行管控，对涉密操作提醒、报警、拦截，及时发现并制止失泄密操作；通过对数据的综合分析绘制文件的流通路线，做到对涉密文件流通追根溯源。主要涉及Hook保护及文件操作抓取技术、网络数据包抓取技术、redis分布式缓存技术及各种前端展示组件等技术。

redis分布式缓存技术：对系统中数据访问较为频繁且数据变动性不大的数据进行缓存，充分利用redis存取数据速度快的优势，从而提高网站响应速度，减少与数据库的不必要交互。

前端展示组件：大屏展示中展示的数据多而杂而且更多的偏向于数据分析汇总后的数据，势必对页面的展示效率造成冲击，页面前端采用less等前端加载技术可提高页面响应速度，带来良好的用户体验。

基于上述基于语义分析的敏感事件可视化应用实现方法，本发明还提供一种基于语义分析的敏感事件可视化应用实现系统，包括：Hook模块、敏感处理模块、回调模块以及可视化显示模块；

Hook模块封装到终端的系统中；当终端对文件执行操作行为时，Hook模块通过预先设置的回调模块，将操作行为对应的事件信息通知到敏感处理模块；敏感处理模块对操作行为以及操作行为对应的事件信息进行监控并记录；可视化显示模块用于对系统的数据处理过程以及处理结果进行显示。

基于上述方法和系统本发明还提供一种实现基于语义分析的敏感事件可视化应用实现方法的终端，其包括：存储器，用于存储计算机程序及基于语义分析的敏感事件可视化应用实现方法；处理器，用于执行所述计算机程序及基于语义分析的敏感事件可视化应用实现方法，以实现基于语义分析的敏感事件可视化应用实现方法的步骤。

终端可以以各种形式来实施。例如，本发明实施例中描述的终端可以包括诸如移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA，Personal DigitalAssistant)、平板电脑(PAD)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。本领域技术人员将理解的是，除了特别用于移动目的的元件之外，根据本发明的实施方式的构造也能够应用于固定类型的终端。

终端可以包括无线通信单元、音频/视频(A/V)输入单元、用户输入单元、感测单元、输出单元、存储器、接口单元、控制器和电源单元等等。但是应理解的是，并不要求实施所有示出的组件。可以替代地实施更多或更少的组件。

这样，本发明对终端的保密信息或敏感事件进行自动采集，实时上报、实时呈现告警数据。

保密信息或敏感事件中可疑文件判定一次后再次发现自动判定，减少人工判定工作量，提高工作效率。

对系统的文件相似性对比分析，辅助可疑敏感事件的发现，提高敏感事件发现处置能力。

基于语义分析的智能化监测能力，降低保密信息或敏感事件的误报率。

驾驶舱式数据呈现，全方面多角度最直观展示已上报敏感事件。

本发明涉及的基于语义分析的敏感事件可视化应用实现方法和系统是结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于语义分析的敏感事件可视化应用实现方法，其特征在于，方法包括：

将Hook模块封装到终端的系统中；

2.根据权利要求1所述的基于语义分析的敏感事件可视化应用实现方法，其特征在于，

回调模块判断文件执行操作行为是否涉及保密文件；

如未涉及保密文件，则直接执行操作行为；

3.根据权利要求1或2所述的基于语义分析的敏感事件可视化应用实现方法，其特征在于，

敏感处理模块对操作行为以及操作行为对应的事件信息进行监控并记录包括：

4.根据权利要求3所述的基于语义分析的敏感事件可视化应用实现方法，其特征在于，

嵌套文档检查方式支持DOC格式办公文档、DOCX格式办公文档、PPT格式办公文档、PPTX格式办公文档、XLS格式办公文档以及XLSX格式办公文档的多层嵌套检查；实现对嵌套隐藏在非保密文件中的涉密文件进行解析检测。

5.根据权利要求3所述的基于语义分析的敏感事件可视化应用实现方法，其特征在于，

文件抽查方式为当用户在进行文件遍历操作过程中，根据遍历的文件检查路径，调取文件信息，获取调取文件的大小、类型以及创建时间，并作为参数传递给抽查算法，抽查算法给出文件检查优先级，根据优先级，将文件配置到待检查队列中，依次的由敏感处理模块进行监控；

6.根据权利要求3所述的基于语义分析的敏感事件可视化应用实现方法，其特征在于，

敏感处理模块采用全量数据传输监控方式为通过网络协议分析、Hook、文件过滤驱动方式，实现对QQ、微信、浏览器、邮箱客户端、网盘涉及的网络文件传输方式的实时监控。

7.根据权利要求1或2所述的基于语义分析的敏感事件可视化应用实现方法，其特征在于，

敏感处理模块采用文档内容智能化判定方式，对文件进行处理；

8.根据权利要求1或2所述的基于语义分析的敏感事件可视化应用实现方法，其特征在于，方法还包括：

对操作行为进行可视化显示；

对操作行为对应的事件信息进行监控并记录，同时进行可视化显示；

9.一种基于语义分析的敏感事件可视化应用实现系统，其特征在于，包括：Hook模块、敏感处理模块、回调模块以及可视化显示模块；

Hook模块封装到终端的系统中；

10.一种实现基于语义分析的敏感事件可视化应用实现方法的终端，其特征在于，包括：

处理器，用于执行所述计算机程序及基于语义分析的敏感事件可视化应用实现方法，以实现如权利要求1至8任意一项所述基于语义分析的敏感事件可视化应用实现方法的步骤。