CN116248412A

CN116248412A - 共享数据资源异常检测方法、系统、设备、存储器及产品

Info

Publication number: CN116248412A
Application number: CN202310466126.7A
Authority: CN
Inventors: 任皓; 刘敏超
Original assignee: Chinese PLA General Hospital
Current assignee: Chinese PLA General Hospital
Priority date: 2023-04-27
Filing date: 2023-04-27
Publication date: 2023-06-09
Anticipated expiration: 2043-04-27
Also published as: CN116248412B

Abstract

本申请公开了一种共享数据资源异常检测方法、系统、设备、存储器及产品，其中，一种共享数据资源异常检测方法，包括：获取agent监控节点中的第一访问数据和链路检测节点中的第二访问数据；对所述第一访问数据和所述第二访问数据进行预处理，以得到第一语义数据和第二语义数据；基于所述第一语义数据和第二语义数据，判断是否存在疑似数据泄露异常行为；当存在疑似数据泄露异常行为时，将所述第一访问数据和所述第二访问数据输入至预先训练好的孪生神经网络模型中，输出相似度结果，以确认是否存在数据泄露异常行为，从而通过语义数据等信息自动筛选疑似异常使用行为，进而对异常行为进行确认，避免数据泄漏同时提高了异常数据确认的准确度。

Description

共享数据资源异常检测方法、系统、设备、存储器及产品

技术领域

本申请一般涉及网络安全领域，具体涉及一种共享数据资源异常检测方法、系统、设备、存储器及产品。

背景技术

近年来，数据已成为人类社会发展的重要一环，数据存储已经渗透到了各个领域之中，从而数据保护也是重中之重。在日常使用过程中，许多机密文件和数据通过截图或其他的方式泄露出去。虽然，采用文件加密方式能做到防护，但是，无法从源头上防止数据泄漏，禁止复制。

在现有技术中，通常需要在使用者的电子设备上安装监控软件，但这种监控方式在各个环节相对比较孤立，容易发生数据泄漏，同时在疑似泄露状况下需要人工进行对比分析，且对比环节需要大量的时间和人力资源，同时确认泄露准确度相对较低。

发明内容

鉴于现有技术中的上述缺陷或不足，期望提供一种共享数据资源异常检测方法、系统、设备、存储器及产品。

一方面，本申请提供了一种共享数据资源异常检测方法，包括：

获取agent监控节点中的第一访问数据和链路检测节点中的第二访问数据；

对所述第一访问数据和所述第二访问数据进行预处理，以得到第一语义数据和第二语义数据；

基于所述第一语义数据和第二语义数据，判断是否存在疑似数据泄露异常行为；

当存在疑似数据泄露异常行为时，将所述第一访问数据和所述第二访问数据输入至预先训练好的孪生神经网络模型中，输出相似度结果，以确认是否存在数据泄露异常行为。

进一步的，获取agent监控节点中的第一访问数据和链路检测节点中的第二访问数据，还包括：

当所述agent监控节点监控到第一预设行为时获取第一访问数据，所述第一预设行为为截图操作，所述第一访问数据至少包括以下一种或多种：第一语义指纹、第一内容信息、第一用户信息。

优选的，获取agent监控节点中的第一访问数据和链路检测节点中的第二访问数据，还包括：

当所述链路检测节点监控到第二预设行为时获取第二访问数据，所述第一预设行为为数据访问操作，所述第二访问数据至少包括以下一种或多种：第二语义指纹、第二内容信息、第二用户信息。

进一步的，对所述第一访问数据和所述第二访问数据进行预处理，以得到第一语义数据和第二语义数据，还包括：

基于所述第一访问数据和所述第二访问数据生成第一文本集合和第二文本集合；

基于第一文本集合和第二文本集合生成第一向量数据和第二向量数据；

基于所述第一向量数据和第二向量数据得到第一语义数据和第二语义数据。

优选的，其特征在于，对所述第一访问数据和所述第二访问数据进行预处理，以得到第一语义数据和第二语义数据，具体为：

所述预处理还包括以下一种或多种：分词、词性词频统计、停用词去除。

进一步的，当存在疑似数据泄露异常行为时，将所述第一访问数据和所述第二访问数据输入至预先训练好的孪生神经网络模型中，输出相似度结果，以确认是否存在数据泄露异常行为，具体为：

当所述相似度大于等于预设阈值时，确认存在异常行为；

当所述相似度小于预设阈值时，确认不存在异常行为。

第二方面，本申请提供了一种共享数据资源异常检测系统，所述系统包括：

获取模块，用于获取agent监控节点中的第一访问数据和链路检测节点中的第二访问数据；

预处理模块，用于对所述第一访问数据和所述第二访问数据进行预处理，以得到第一语义数据和第二语义数据；

判断模块，用于基于所述第一语义数据和第二语义数据，判断是否存在疑似数据泄露异常行为；

确定模块，用于当存在疑似数据泄露异常行为时，将所述第一访问数据和所述第二访问数据输入至预先训练好的孪生神经网络模型中，输出相似度结果，以确认是否存在数据泄露异常行为。

第三方面，本申请提供了一种共享数据资源异常检测装置，包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现本申请实施例中任一所述的共享数据资源异常检测方法。

第四方面，本申请提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行本申请实施例中任一项所述的共享数据资源异常检测方法。

第五方面，本申请提供了一种计算机程序产品，当所述计算机程序产品中的指令由移动终端的处理器执行时，使得移动终端能够执行根据本申请实施例中任一项所述的共享数据资源异常检测方法。

综上，基于本发明的共享数据资源异常检测方法，通过获取agent监控节点和链路检测节点中的数据进行分析，判断是否存在数据异常泄露行为，该方法通过自动筛选的方式，避免数据泄漏同时提高了异常数据确认的准确度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1为本申请的实施例提供的一种共享数据资源异常检测方法的流程图；

图2为本申请的实施例提供的孪生神经网络结构示意图；

图3为本申请的实施例提供的共享数据资源异常检测系统的结构框图；

图4为本申请的实施例提供的共享数据资源异常检测装置的结构示意图。

实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本申请可以涉及一般涉及网络安全领域中，通过获取agent监控节点和链路检测节点中的数据进行分析，判断是否存在数据异常泄露行为，该方法通过自动筛选的方式，避免数据泄漏同时提高了异常数据确认的准确度，本申请以下实施例示例性阐述共享数据资源异常检测方法。

详见图1，本申请提供了一种共享数据资源异常检测方法，包括：

S101，获取agent监控节点中的第一访问数据和链路检测节点中的第二访问数据。

具体的，针对链路上的访问监控通常采用数据库共享的方式。而本申请通过对节点的改造，使agent监控节点具有数据提取功能，从而获取到第一访问数据。同时对链路节点进行改造，使链路检测节点同样具有数据提取功能，从而获得第二访问数据。

在一些实施例中，获取agent监控节点中的第一访问数据和链路检测节点中的第二访问数据，还包括：

具体的，当agent监控节点检测到疑似信息泄露的操作，如进行截图操作后立刻获取agent监控节点的第一访问数据，该第一访问数据包括第一语义指纹、第一内容信息、第一用户信息中的一种或者多种。第一语义指纹包括截图中文字信息，第一内容信息包括截图后的图像信息，第一用户信息包括截图时间、截图用户等信息。

当所述链路检测节点监控到第二预设行为时获取第二访问数据，所述第一预设行为为数据访问操作，所述第二访问数据至少包括以下一种或多种：第二语义指纹、第二内容信息、第二用户ID，第二用户IP信息，从而更准确的获取用户来源。

具体的，当链路检测节点检测到疑似信息泄露的操作，如数据访问操作后立刻获取链路检测节点的第二访问数据，该第二访问数据包括第二语义指纹、第二内容信息、第二用户信息中的一种或者多种。第二语义指纹包括截图中文字信息，第二内容信息包括截图后的图像信息，第二用户信息包括截图时间、截图用户ID，第二用户IP等信息，从而更准确的获取用户来源。

S102，对所述第一访问数据和所述第二访问数据进行预处理，以得到第一语义数据和第二语义数据。

具体的，通过获取第一访问数据和第二访问数据，并对第一访问数据和第二访问数据内的数据进行处理，从而得到第一语义数据和第二语义数据。

在一些实施例中，对所述第一访问数据和所述第二访问数据进行预处理，以得到第一语义数据和第二语义数据，还包括：

具体的，基于第一访问数据和所述第二访问数据中的截图内容提取文本信息，从而获得第一文本集合和第二本文集合。获取第一文本集合和第二本文集合后，使用TF-IDF将文本转化为向量空间表示。使得每一个文本都被表征为m维的特征向量，记作A。在一些实施例方式中，随着但随着文本数量的增多，向量空间存在稀疏性问题，为节省存储空间、去除噪声、实现一义多词合并，可以使用奇异值分解(singular value decomposition,SVD)实现矩阵A的分解，使得

，其中，/>

是对角矩阵，对角线上的元素表示各个“语义”维度的权重，只保留对角线前k个最大的奇异值来达到去噪和同义词归类的目的。LSI是SVD的产物，将原本的特征矩阵转换到LSI空间，矩阵R 为原始高维稀疏矩阵A在LSI空间的低维密度表示，/>

。最后将LSI空间的矩阵转换为二进制数字指纹，从而得到第一语义数据和第二语义数据。其中，转换规则为如下公式所示。

在一些实施例中，对所述第一访问数据和所述第二访问数据进行预处理，以得到第一语义数据和第二语义数据，具体为：

具体的，分词是将文本中的词语按照一定规则切分成一个个单独的词语，是自然语言处理中的一个基本步骤。词性标注是指为分词后的每个词语标注其词性，如名词、动词、形容词等。词频统计是指对文本中每个单词出现的频率进行统计。停用词去除是指去除文本中一些常见但无实际意义的单词，如“的”、“了”、“和”等。通过上述操作提高语义数据的准确性。

S103，基于所述第一语义数据和第二语义数据，判断是否存在疑似数据泄露异常行为。

具体的，将第一语义数据和第二语义数据发送至共享数据资源异常使用智能监测节点，从而进行预设时间内的对比，判断是否存在疑似数据泄露异常行为。所述预设时间通常设置为30分钟，在此并不做具体限制，可以根据具体情况进行相应设置。

S104，当存在疑似数据泄露异常行为时，将所述第一访问数据和所述第二访问数据输入至预先训练好的孪生神经网络模型中，输出相似度结果，以确认是否存在数据泄露异常行为。

具体的，当存在疑似的数据泄露行为后，对第一访问数据和第二访问数据进行内容相似性计算，从而确认数据泄露异常行为。举例说明，对相关的截图内容和访问数据基于孪生神经网络进行内容相似性计算，孪生神经网络(Siamese Neural Networks)的“孪生”是通过共享权值来实现的。基于对比两个数据的相似度，从而进行验证。孪生神经网络结构如图2所示，比较x1与x2的相似程度。举例说明，以第一访问数据X1和第二访问数据X2作为输入，通过神经网络将输入做进一步表征G(x)，通过计算两个表征之间的L2范数度量距离，从而计算得到两个指纹的相似程度。

在一些实施例中，当存在疑似数据泄露异常行为时，将所述第一访问数据和所述第二访问数据输入至预先训练好的孪生神经网络模型中，输出相似度结果，以确认是否存在数据泄露异常行为，具体为：

当所述相似度大于等于预设阈值时，确认存在异常行为；

当所述相似度小于预设阈值时，确认不存在异常行为。

具体的，获取基于孪生神经网络得到的相似程度，当相似度大于等于预设阈值时，则确认存在异常行为；当所述相似度小于预设阈值时，确认不存在异常行为。该预设阈值设置为80%，在此并不做具体限定，可基于数据敏感程度进行适应性调整。

进一步参考图3，其示出了根据本申请一个实施例的共享数据资源异常检测系统200的示意图，包括：获取模块210，预处理模块220，判断模块230，确定模块240。

获取模块210，用于获取agent监控节点中的第一访问数据和链路检测节点中的第二访问数据；

预处理模块220，用于对所述第一访问数据和所述第二访问数据进行预处理，以得到第一语义数据和第二语义数据；

判断模块230，用于基于所述第一语义数据和第二语义数据，判断是否存在疑似数据泄露异常行为；

确定模块240，用于当存在疑似数据泄露异常行为时，将所述第一访问数据和所述第二访问数据输入至预先训练好的孪生神经网络模型中，输出相似度结果，以确认是否存在数据泄露异常行为。

在上文详细描述中提及的若干模块或者单元，这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作指令。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如，两个连接表示的方框实际上可以基本并行地执行，也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作指令的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离前述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其他技术方案。例如上述特征与本申请中公开的（但不限于）具有类似功能的技术特征进行互相替换而形成的技术方案。

进一步参考图4，其示出了根据本申请一个实施例的共享数据资源异常检测装置300的结构示意图。

本实施例的共享数据资源异常检测方法的执行主体为共享数据资源异常检测装置，共享数据资源异常检测装置可以由软件和/或硬件的方式实现，该实施例中的共享数据资源异常检测装置可以配置在电子设备中，也可以配置在用于对电子设备进行控制的服务器中，该服务器与电子设备进行通信进而对其进行控制。

其中，本实施例中的电子设备可以包括但不限于个人计算、平台电脑、智能手机等设备，该实施例对电子设备不作具体限定。

本实施例的共享数据资源异常检测装置300，包括处理器和存储器，所述处理器和所述存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如以上任一项所述的方法。

在本申请实施例中，处理器是具有执行逻辑运算的处理器件，例如中央处理器(CPU)、现场可编程逻辑阵列(FPGA)、数字信号处理器(DSP)、单片机(MCU)、专用逻辑电路(ASIC)、图像处理器(GPU)等具有数据处理能力和/或程序执行能力的器件。容易理解，处理器通常通讯连接存储器，在存储器上存储一个或多个计算机程序产品的任意组合，存储器可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、可擦除可编程只读存储器(EPROM)、USB存储器、闪存等。在存储器上可以存储一个或多个计算机指令，处理器可以运行所述计算机指令，以实现相关的分析功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据，例如应用程序使用和/或产生的各种数据等。

在本申请实施例中，各模块都可以通过处理器执行相关计算机指令实现，例如获取模块可以通过处理器执行获取的指令实现、输入模块可以通过处理器执行规则模型的指令实现、神经网络可以通过处理器执行神经网络算法的指令实现。

在本申请实施例中，各模块可以运行在同一个处理器上，也可以运行在多个处理器上；各模块可以运行在同一架构的处理器上，例如均在X86体系的处理器上运行，也可以运行在不同架构的处理器上，例如图像处理模块运行在X86体系的CPU，机器学习模块运行在GPU。各模块可以封装在一个计算机产品中，例如各模块封装在一个计算机软件并运行在一台计算机(服务器)，也可以各自或部分封装在不同的计算机产品，例如图像处理模块封装在一个计算机软件中并运行在一台计算机(服务器)，机器学习模块分别封装在单独的计算机软件中并运行在另一台或多台计算机(服务器)；各模块执行时的计算平台可以是本地计算，也可以是云计算，还可以是本地计算与云计算构成的混合计算。

计算机系统包括中央处理单元（CPU）301，其可以根据存储在只读存储器（ROM）302中的程序或者从存储部分308加载到随机访问存储器（RAM）303中的程序而执行各种适当的动作和处理。在RAM303中，还存储有系统的操作指令所需的各种程序和数据。CPU301、ROM302以及RAM303通过总线304彼此相连。输入/输出（I/O）接口305也连接至总线304。

以下部件连接至I/O接口305；包括键盘、鼠标等的输入部分306；包括诸如阴极射线管（CRT）、液晶显示器（LCD）等以及扬声器等的输出部分307；包括硬盘等的存储部分308；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至I/O接口305。可拆卸介质311，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器310上，以便于从其上读出的计算机程序根据需要被安装入存储部分308。

特别地，根据本申请的实施例，上文参考流程图图1描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分309从网络上被下载和安装，和/或从可拆卸介质311被安装。在该计算机程序被中央处理单元（CPU）301执行时，执行本申请的系统中限定的上述功能。

本申请实施例提供的电子设备上设置有计算机可读存储介质，其中，计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如以上任一项所述的方法。

需要说明的是，本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以为的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

在一个实施例中，提供了一种计算机程序产品，当计算机程序产品中的指令由电子设备的处理器执行时，使得一种共享数据资源异常检测装置能够执行以下步骤：获取agent监控节点中的第一访问数据和链路检测节点中的第二访问数据；

需要理解的是，术语“ 长度”、“ 宽度”、“ 上”、“ 下”、“ 前”、“ 后”、“ 左”、“ 右”、“ 竖直”、“ 水平”、“ 顶”、“ 底”“ 内”、“ 外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“ 第一”、“ 第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“ 第一”、“ 第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“ 多个”的含义是两个或两个以上，除非另有明确具体的限定。

除非另有定义，本文中所使用的技术和科学术语与本发明的技术领域的技术人员通常理解的含义相同。本文中使用的术语只是为了描述具体的实施目的，不是旨在限制本发明。本文中出现的诸如“ 设置”等术语既可以表示一个部件直接附接至另一个部件，也可以表示一个部件通过中间件附接至另一个部件。本文中在一个实施方式中描述的特征可以单独地或与其它特征结合地应用于另一个实施方式，除非该特征在该另一个实施方式中不适用或是另有说明。

本发明已经通过上述实施方式进行了说明，但应当理解的是，上述实施方式只是用于举例和说明的目的，而非意在将本发明限制于所描述的实施方式范围内。本领域技术人员可以理解的是，根据本发明的教导还可以做出更多种的变型和修改，这些变型和修改均落在本发明所要求保护的范围以内。

Claims

1.一种共享数据资源异常检测方法，其特征在于，包括：

2.根据权利要求1所述的共享数据资源异常检测方法，其特征在于，获取agent监控节点中的第一访问数据和链路检测节点中的第二访问数据，还包括：

3.根据权利要求1所述的共享数据资源异常检测方法，其特征在于，获取agent监控节点中的第一访问数据和链路检测节点中的第二访问数据，还包括：

4.根据权利要求2或3所述的共享数据资源异常检测方法，其特征在于，对所述第一访问数据和所述第二访问数据进行预处理，以得到第一语义数据和第二语义数据，还包括：

5.根据权利要求4所述的共享数据资源异常检测方法，其特征在于，对所述第一访问数据和所述第二访问数据进行预处理，以得到第一语义数据和第二语义数据，具体为：

6.根据权利要求1所述的共享数据资源异常检测方法，其特征在于，当存在疑似数据泄露异常行为时，将所述第一访问数据和所述第二访问数据输入至预先训练好的孪生神经网络模型中，输出相似度结果，以确认是否存在数据泄露异常行为，具体为：

当所述相似度大于等于预设阈值时，确认存在异常行为；

当所述相似度小于预设阈值时，确认不存在异常行为。

7.一种共享数据资源异常检测系统，其特征在于，包括：

8.一种共享数据资源异常检测装置，其特征在于，包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现根据权利要求1-6中任一所述的共享数据资源异常检测方法。

9.一种非临时性计算机可读存储介质，其特征在于，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行根据权利要求1-6中任一项所述的共享数据资源异常检测方法。

10.一种计算机程序产品，其特征在于，当所述计算机程序产品中的指令由移动终端的处理器执行时，使得移动终端能够执行根据权利要求1-6中任一项所述的共享数据资源异常检测方法。