CN115730274A - 文档泄密预警方法及装置 - Google Patents

文档泄密预警方法及装置 Download PDF

Info

Publication number
CN115730274A
CN115730274A CN202211511525.2A CN202211511525A CN115730274A CN 115730274 A CN115730274 A CN 115730274A CN 202211511525 A CN202211511525 A CN 202211511525A CN 115730274 A CN115730274 A CN 115730274A
Authority
CN
China
Prior art keywords
identifier
document
bloom filter
internet
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211511525.2A
Other languages
English (en)
Inventor
王锐
孙亚东
蔚晨
谭咏茂
吴海洋
张荣臻
向小佳
丁永建
李璠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Everbright Technology Co ltd
Original Assignee
Everbright Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Everbright Technology Co ltd filed Critical Everbright Technology Co ltd
Priority to CN202211511525.2A priority Critical patent/CN115730274A/zh
Publication of CN115730274A publication Critical patent/CN115730274A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Storage Device Security (AREA)

Abstract

本申请实施例提供了一种文档泄密预警方法及装置,该方法包括:生成受保护文档的第一标识符并将所述第一标识符插入所述受保护文档;对所述第一标识符进行多次哈希运算以生成多个不同的索引,并基于所述多个不同的索引构造多级布鲁姆过滤器;获取互联网文档的第二标识符,使用通过哈希运算确定的所述互联网文档的第二标识符的索引在多级布鲁姆过滤器中查询;比较所述互联网文档的第二标识符与所述多级布鲁姆过滤器中存放的所述受保护文档的所述第一标识符,并根据比较结果确定所述受保护文档的泄露风险等级。通过本申请,解决了文档泄露后无法及时发现的问题。

Description

文档泄密预警方法及装置
技术领域
本申请涉及计算机信息安全领域,具体而言,涉及一种文档泄密预警方法及装置。
背景技术
机密文档泄露会导致严重后果,当前的文件防泄密技术通常依赖事前预防和事后补救。例如数字水印和数据泄露防护(Data Leakage Loss Prevention,DLP)手段均为事前预防措施,难以及时发现文档被泄露到互联网上。加密文档泄密后自动报警系统依靠第三方数字版权管理(Digital Rights Management,DRM)系统将标识符上传至云端,当阅读器客户端读取文档后,识别到标识符,与云端进行校验,云端则读取到记录,判断该文档是否为合法获取。如不一致则触发报警通知版权方文件可能已经被泄露,依赖文件获取方安装相应的阅读器才能够对泄露文件做出识别和报警。
在传统的插入文档标识符的手段中,通常采用以下方法:密码保护、水印、文档到期自毁设置、电子证书权限设置、文档阅读记录追踪,虽然能在一定程度上防止文档泄密,以及追溯泄密源,但是无法实现文档泄密后的快速发现,避免造成巨大损失。
在传统的文档存储方式中,通常将文档按顺序存放至数据库中,将会占用大量存储空间,并且在寻找匹配过程中占用大量的计算资源。
传统的文件标识符查找匹配方法有二分查找,快速查找等,都需要遍历整个数组,当系统中存在较多的文档,每一次查找都会耗费大量的时间和资源。
发明内容
本申请实施例提供了一种文档泄密预警方法及装置,以至少解决相关技术中无法及时发现文档出现泄密的问题。
根据本申请的一个实施例,提供了一种文档泄密预警方法,包括:生成受保护文档的第一标识符并将所述第一标识符插入所述受保护文档;对所述第一标识符进行多次哈希运算以生成多个不同的索引,并基于所述多个不同的索引构造多级布鲁姆过滤器;获取互联网文档的第二标识符,使用通过哈希运算确定的所述互联网文档的第二标识符的索引在多级布鲁姆过滤器中查询;比较所述互联网文档的第二标识符与所述多级布鲁姆过滤器中存放的所述受保护文档的所述第一标识符,并根据比较结果确定所述受保护文档的泄露风险等级。
在一个示例性实施例中,生成受保护文档的第一标识符并将所述第一标识符插入所述受保护文档,包括:生成所述受保护文档的唯一第一标识符,将所述受保护文档编辑为十六进制形式,并将所述第一标识符插入所述受保护文档的结尾。
在一个示例性实施例中,对所述第一标识符进行多次哈希运算以生成多个不同的索引,并基于所述多个不同的索引构造多级布鲁姆过滤器,包括:使用三种哈希函数分别对所述第一标识符进行运算并生成三个第一标识符索引,将所述第一标识符按照所述三个第一标识符索引的位置分别存入三级布鲁姆过滤器的数组矩阵中。
在一个示例性实施例中,获取互联网文档的第二标识符,包括:使用第三方爬虫工具定期对所述互联网文档进行爬取,对获取的所述互联网文档进行十六进制编译,获取位于所述互联网文档结尾的所述第二标识符。
在一个示例性实施例中,使用通过哈希运算确定的所述互联网文档的第二标识符的索引在多级布鲁姆过滤器中查询,包括:使用三种哈希函数分别对所述互联网文档的第二标识符进行运算并生成三个第二标识符索引,使用所述第二标识符索引在所述多级布鲁姆过滤器中查询。
在一个示例性实施例中,比较所述互联网文档的第二标识符与所述多级布鲁姆过滤器中存放的所述受保护文档的第一标识符,并根据比较结果确定所述受保护文档的泄露风险等级,包括:当查询到使用三种哈希函数运算的第二标识符与所述多级布鲁姆过滤器中存放的所述第一标识符相同时,为最高风险等级泄密警告;当查询到使用两种哈希函数运算的第二标识符与所述多级布鲁姆过滤器中存放的所述第一标识符相同时,为中风险等级泄密警告;当查询到使用一种哈希函数运算的第二标识符与所述多级布鲁姆过滤器中存放的所述第一标识符相同时,为低风险等级泄密警告;当没有查询到使用哈希函数运算的互联网文档标识符与所述多级布鲁姆过滤器中存放的所述第一标识符相同时则无风险。
根据本申请的另一个实施例,提供了一种文档泄密预警装置,包括:生成模块,用于生成受保护文档的第一标识符并将所述第一标识符插入所述受保护文档;运算模块,用于对所述第一标识符进行多次哈希运算以生成多个不同的索引,并基于所述多个不同的索引构造多级布鲁姆过滤器;查询模块,用于获取互联网文档的第二标识符,使用通过哈希运算确定的所述互联网文档的第二标识符的索引在多级布鲁姆过滤器中查询;确定模块,用于比较所述互联网文档的第二标识符与所述多级布鲁姆过滤器中存放的所述受保护文档的所述第一标识符,并根据比较结果确定所述受保护文档的泄露风险等级。
在一个示例性实施例中,所述生成模块包括:生成单元,用于生成所述受保护文档的唯一第一标识符;编辑单元,用于将所述受保护文档编辑为十六进制形式;插入单元,用于将所述第一标识符插入所述受保护文档的结尾。
在一个示例性实施例中,所述运算模块包括:运算单元,用于使用三种哈希函数分别对所述第一标识符进行运算并生成三个第一标识符索引;存储单元,用于将所述第一标识符按照所述三个第一标识符索引的位置分别存入三级布鲁姆过滤器的数组矩阵中。
根据本发明的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本申请实施例,由于根据文档标识符构造了多级布鲁姆过滤器,获取互联网文档标识符并在多级布鲁姆过滤器中查询,与多级布鲁姆过滤器中存放的文档标识符进行比较,根据比较结果确定文档的泄露风险等级,可以在发生文档泄密后及时发现并依据泄露风险等级动态分配资源进行处理,避免产生更大的损失。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是根据本申请实施例的文档泄密预警方法的计算机终端的硬件结构框图;
图2是根据本申请实施例的文档泄密预警方法的流程图;
图3是根据本申请实施例的文档泄密预警装置的结构框图;
图4是根据本申请再一实施例的文档泄密预警装置的结构框图;
图5是根据本申请另一实施例的文档泄密预警装置的结构框图;
图6是根据本申请另一实施例的文档泄密预警方法的流程图;
图7是根据本申请实施例的存储文档标识符的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
以下是本发明实施例的相关术语的说明:
布鲁姆过滤器,是一种节省空间的概率数据结构,用于测试元素是否是集合的成员,通常用来查找目标是否已经存在于当前系统中。
哈希算法,哈希算法是区块链中保证交易信息不被篡改的单向密码机制,在区块链中通常使用安全散列算法-256(Secure Hash Algorithm-256,SHA-256),生成摘要信息,即输入长度256位,输出32字节的随机散列数据。
数组,是有序的元素序列。
爬虫工具,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
隐写术,是一门关于信息隐藏的技巧与科学,所谓信息隐藏指的是不让除预期的接收者之外的任何人知晓信息的传递事件或者信息的内容。
数据泄露防护(Data Leakage Loss Prevention,DLP),其核心能力就是内容识别,通过识别可以扩展到对数据的防控。内容识别应该具备的识别能力具体来说有关键字、正则表达式、文档指纹、确切数据源(数据库指纹)、支持向量机,针对于每一种能力又会衍伸出多种复合能力。
数字版权管理(Digital Rights Management,DRM),指的是出版者用来控制被保护对象的使用权的一些技术,这些技术保护的有数字化内容(例如:软件、音乐、电影)以及硬件,处理数字化产品的某个实例的使用限制。本术语容易和版权保护混淆,版权保护指的应用在电子设备上的数字化媒体内容上的技术,DRM保护技术使用以后可以控制和限制这些数字化媒体内容的使用权,是随着电子音频视频节目在互联网上的广泛传播而发展起来的一种新技术。其目的是保护数字媒体的版权,从技术上防止数字媒体的非法复制,或者在一定程度上使复制很困难,最终用户必须得到授权后才能使用数字媒体。
本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例,图1是本发明实施例的一种文档泄密预警方法的计算机终端的硬件结构框图。如图1所示,计算机终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器(Central Processing Unit,MCU)或可编程逻辑器件(Field Programmable Gate Array,FPGA)等的处理装置)和用于存储数据的存储器104,其中,上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述计算机终端的结构造成限定。例如,计算机终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的文档泄密预警方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
根据本申请实施例的一个方面,提供了一种文档泄密预警方法。图2是根据本申请实施例的文档泄密预警方法的流程图,如图2所示,该方法包括如下步骤:
步骤S202,生成受保护文档的第一标识符并将所述第一标识符插入所述受保护文档;
步骤S204,对所述第一标识符进行多次哈希运算以生成多个不同的索引,并基于所述多个不同的索引构造多级布鲁姆过滤器;
步骤S206,获取互联网文档的第二标识符,使用通过哈希运算确定的所述互联网文档的第二标识符的索引在多级布鲁姆过滤器中查询;
步骤S208,比较所述互联网文档的第二标识符与所述多级布鲁姆过滤器中存放的所述受保护文档的所述第一标识符,并根据比较结果确定所述受保护文档的泄露风险等级。
在本实施例的步骤S202中,包括,生成所述受保护文档的唯一第一标识符,将所述受保护文档编辑为十六进制形式,并将所述第一标识符插入所述受保护文档的结尾。
以此种隐匿方式将第一标识符插入受保护文档,具有较强的隐蔽性,解决了水印易被其他用户去除的问题,并且不会影响文章的正常读取和筛查步骤。
在本实施例的步骤S204中,包括,使用三种哈希函数分别对所述第一标识符进行运算并生成三个第一标识符索引,将所述第一标识符按照所述三个第一标识符索引的位置分别存入三级布鲁姆过滤器的数组矩阵中。
在本实施例中,分别使用三种哈希函数构造三级布鲁姆过滤器结构,使得散列碰撞的几率减小,提升预警准确率。将第一标识符插入三级布鲁姆过滤器结构中,区别于传统布鲁姆过滤器结构写入0/1,使用第一标识符便于更准确识别需要检测的文档;同时可以判断是否发生散列碰撞的问题,以及相应的索引存放的是否为正确的第一标识符。
在本实施例的步骤S206中,获取互联网文档的第二标识符,包括,使用第三方爬虫工具定期对所述互联网文档进行爬取,对获取的所述互联网文档进行十六进制编译,获取位于所述互联网文档结尾的所述第二标识符。
在本实施例的步骤S206中,使用通过哈希运算确定的所述互联网文档的第二标识符的索引在多级布鲁姆过滤器中查询,包括,使用三种哈希函数分别对所述互联网文档的第二标识符进行运算并生成三个第二标识符索引,使用所述第二标识符索引在所述多级布鲁姆过滤器中查询。
在本实施例中,通过第二标识符的索引在多级布鲁姆过滤器中查询,避免了对整个数据结构的遍历,实现了在时间上的优化。
在本实施例的步骤S208中,包括,当查询到使用三种哈希函数运算的第二标识符与所述多级布鲁姆过滤器中存放的所述第一标识符相同时,为最高风险等级泄密警告;当查询到使用两种哈希函数运算的第二标识符与所述多级布鲁姆过滤器中存放的所述第一标识符相同时,为中风险等级泄密警告;当查询到使用一种哈希函数运算的第二标识符与所述多级布鲁姆过滤器中存放的所述第一标识符相同时,为低风险等级泄密警告;当没有查询到使用哈希函数运算的互联网文档标识符与所述多级布鲁姆过滤器中存放的所述第一标识符相同时则无风险;
在本实施例中,通过细化文档泄密的警告来动态分配相应的资源,低风险等级泄密警告代表风险较小,可能是误报,只需要投入少量的资源进行核实即可,高风险等级泄密警告代表风险较大,需要及时投入大量资源进行处理,确保在出现真正文档泄密的时候存在相应的资源满足及时处理的需求。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器(Read-Only Memory/Random Access Memory,ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
在本实施例中还提供了一种文档泄密预警装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”或“单元”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图3是根据本申请实施例的文档泄密预警装置的结构框图,如图3所示,该文档泄密预警装置300包括:生成模块10、运算模块20、查询模块30和确定模块40。
生成模块10,用于生成受保护文档的第一标识符并将所述第一标识符插入所述受保护文档;
运算模块20,用于对所述第一标识符进行多次哈希运算以生成多个不同的索引,并基于所述多个不同的索引构造多级布鲁姆过滤器;
查询模块30,用于获取互联网文档的第二标识符,使用通过哈希运算确定的所述互联网文档的第二标识符的索引在多级布鲁姆过滤器中查询;
确定模块40,用于比较所述互联网文档的第二标识符与所述多级布鲁姆过滤器中存放的所述受保护文档的所述第一标识符,并根据比较结果确定所述受保护文档的泄露风险等级。
图4是根据本申请再一实施例的文档泄密预警装置的结构框图,如图4所示,该系统除包括图3所示的所有模块外,所述生成模块10还包括:
生成单元11,用于生成所述受保护文档的唯一第一标识符;
编辑单元12,用于将所述受保护文档编辑为十六进制形式;
插入单元13,用于将所述第一标识符插入所述受保护文档的结尾。
图5是根据本申请另一实施例的文档泄密预警装置的结构框图,如图5所示,该系统除包括图4所示的所有模块外,所述运算模块20还包括:
运算单元21,用于使用三种哈希函数分别对所述第一标识符进行运算并生成三个第一标识符索引;
存储单元22,用于将所述第一标识符按照所述三个第一标识符索引的位置分别存入三级布鲁姆过滤器的数组矩阵中。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
为了便于对申请实施例所提供的技术方案的理解,下面结合具体场景的实施例进行阐述。
图6是根据本申请另一实施例的文档泄密预警方法的流程图,如图6所示,该方法包括如下步骤:
步骤S602,为每个受保护的文档创建文档编号,并作为标识符,通过隐匿方式插入到文档中;
具体地,在本实施例中,在系统中生成唯一的文档标识符n,并以十六进制的方式编辑文档,将文档标识符插入到最后。
步骤S604,通过构造三级布鲁姆过滤器,将三种哈希值作为索引分别插入文档标识符;
具体地,如图7所示的存储文档标识符的示意图,当生成文档标识符n1后,先使用hash1(文档标识符)生成文档索引,将文档标识符按照索引的位置放入个数为m的数组中,m应当大于n,依次对所有的文档进行hash1算法,将文档标识符全部存放。再以同样的步骤进行hash2和hash3的运算和存放,最后生成3*m的数组矩阵。
步骤S606,通过第三方爬虫定期对互联网进行爬取,通过解码处理,对文件的标识符进行获取;
具体地,采用第三方爬虫工具,定期在互联网上扫描,对获取的文档进行十六进制编译,获取到位于最后的文件标识符。
步骤S608,获取到文档内的标识符后,用上面三种哈希算法求出索引在三级布鲁姆过滤器进行寻找;
具体地,获取到文档标识符后,依次使用hash1、hash2和hash3进行运算,通过hash1(n1)在数组矩阵中查询。
步骤S610,通过查找到三级布鲁姆过滤器结构中的标识符,对标识符进行计数,判断泄露风险等级;
具体地,判断矩阵中存放的文档标识符是否为n1,验证两个值相同记结果s1为1,否则为0;再通过hash2(n1)在数组矩阵中查询,判断矩阵中存放的文档标识符是否为n1,验证两个值相同记结果s2为1,否则为0;再通过hash3(n1)在数组矩阵中查询,判断矩阵中存放的文档标识符是否为n1,验证两个值相同记结果s3为1,否则为0。
具体地,通过对文档标识符的匹配,进行判断:S=s1+s2+s3=3,则为文件最高泄露警告;S=s1+s2+s3=2,则为中风险泄露警告;S=s1+s2+s3=1,则为低风险泄露警告;S=s1+s2+s3=0,则无泄露风险。扫描完成获得风险警告结果,将结果返回到系统中。通过扫描结果返回的警告,动态分配资源处理泄密问题。
从以上的描述中,可以看出,上述实施例实现了如下技术效果:通过根据文档标识符构造了多级布鲁姆过滤器,获取互联网文档标识符并在多级布鲁姆过滤器中查询,与多级布鲁姆过滤器中存放的文档标识符进行比较,根据比较结果确定文档的泄露风险等级,可以在发生文档泄密后及时发现并依据泄露风险等级动态分配资源进行处理,避免产生更大的损失。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (11)

1.一种文档泄密预警方法,其特征在于,包括:
生成受保护文档的第一标识符并将所述第一标识符插入所述受保护文档;对所述第一标识符进行多次哈希运算以生成多个不同的索引,并基于所述多个不同的索引构造多级布鲁姆过滤器;
获取互联网文档的第二标识符,使用通过哈希运算确定的所述互联网文档的第二标识符的索引在多级布鲁姆过滤器中查询;
比较所述互联网文档的第二标识符与所述多级布鲁姆过滤器中存放的所述受保护文档的所述第一标识符,并根据比较结果确定所述受保护文档的泄露风险等级。
2.根据权利要求1所述的方法,其特征在于,生成受保护文档的第一标识符并将所述第一标识符插入所述受保护文档,包括:
生成所述受保护文档的唯一第一标识符,将所述受保护文档编辑为十六进制形式,并将所述第一标识符插入所述受保护文档的结尾。
3.根据权利要求1所述的方法,其特征在于,对所述第一标识符进行多次哈希运算以生成多个不同的索引,并基于所述多个不同的索引构造多级布鲁姆过滤器,包括:
使用三种哈希函数分别对所述第一标识符进行运算并生成三个第一标识符索引,将所述第一标识符按照所述三个第一标识符索引的位置分别存入三级布鲁姆过滤器的数组矩阵中。
4.根据权利要求1所述的方法,其特征在于,获取互联网文档的第二标识符,包括:
使用第三方爬虫工具定期对所述互联网文档进行爬取,对获取的所述互联网文档进行十六进制编译,获取位于所述互联网文档结尾的所述第二标识符。
5.根据权利要求1所述的方法,其特征在于,使用通过哈希运算确定的所述互联网文档的第二标识符的索引在多级布鲁姆过滤器中查询,包括:
使用三种哈希函数分别对所述互联网文档的第二标识符进行运算并生成三个第二标识符索引,使用所述第二标识符索引在所述多级布鲁姆过滤器中查询。
6.根据权利要求1所述的方法,其特征在于,比较所述互联网文档的第二标识符与所述多级布鲁姆过滤器中存放的所述受保护文档的第一标识符,并根据比较结果确定所述受保护文档的泄露风险等级,包括:
当查询到使用三种哈希函数运算的第二标识符与所述多级布鲁姆过滤器中存放的所述第一标识符相同时,为最高风险等级泄密警告;
当查询到使用两种哈希函数运算的第二标识符与所述多级布鲁姆过滤器中存放的所述第一标识符相同时,为中风险等级泄密警告;
当查询到使用一种哈希函数运算的第二标识符与所述多级布鲁姆过滤器中存放的所述第一标识符相同时,为低风险等级泄密警告;
当没有查询到使用哈希函数运算的互联网文档标识符与所述多级布鲁姆过滤器中存放的所述第一标识符相同时则无风险。
7.一种文档泄密预警装置,其特征在于,包括:
生成模块,用于生成受保护文档的第一标识符并将所述第一标识符插入所述受保护文档;
运算模块,用于对所述第一标识符进行多次哈希运算以生成多个不同的索引,并基于所述多个不同的索引构造多级布鲁姆过滤器;
查询模块,用于获取互联网文档的第二标识符,使用通过哈希运算确定的所述互联网文档的第二标识符的索引在多级布鲁姆过滤器中查询;
确定模块,用于比较所述互联网文档的第二标识符与所述多级布鲁姆过滤器中存放的所述受保护文档的所述第一标识符,并根据比较结果确定所述受保护文档的泄露风险等级。
8.根据权利要求7所述的装置,其特征在于,所述生成模块包括:
生成单元,用于生成所述受保护文档的唯一第一标识符;
编辑单元,用于将所述受保护文档编辑为十六进制形式;
插入单元,用于将所述第一标识符插入所述受保护文档的结尾。
9.根据权利要求7所述的装置,其特征在于,所述运算模块包括:
运算单元,用于使用三种哈希函数分别对所述第一标识符进行运算并生成三个第一标识符索引;
存储单元,用于将所述第一标识符按照所述三个第一标识符索引的位置分别存入三级布鲁姆过滤器的数组矩阵中。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现所述权利要求1至6任一项中所述的方法的步骤。
11.一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述权利要求1至6任一项中所述的方法的步骤。
CN202211511525.2A 2022-11-29 2022-11-29 文档泄密预警方法及装置 Pending CN115730274A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211511525.2A CN115730274A (zh) 2022-11-29 2022-11-29 文档泄密预警方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211511525.2A CN115730274A (zh) 2022-11-29 2022-11-29 文档泄密预警方法及装置

Publications (1)

Publication Number Publication Date
CN115730274A true CN115730274A (zh) 2023-03-03

Family

ID=85299012

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211511525.2A Pending CN115730274A (zh) 2022-11-29 2022-11-29 文档泄密预警方法及装置

Country Status (1)

Country Link
CN (1) CN115730274A (zh)

Similar Documents

Publication Publication Date Title
CN108446407B (zh) 基于区块链的数据库审计方法和装置
CN100524153C (zh) 在数据库中添加、检索计算机文件的方法
JP2020511059A (ja) 情報認証方法及びシステム
US20090113545A1 (en) Method and System for Tracking and Filtering Multimedia Data on a Network
CN111262835B (zh) 敏感数据的脱敏存储方法及装置
EP3709568A1 (en) Deleting user data from a blockchain
CN109344611B (zh) 应用的访问控制方法、终端设备及介质
CN110826091B (zh) 一种文件签名方法、装置、电子设备及可读存储介质
CN112685436B (zh) 一种溯源信息处理方法及装置
US7562127B2 (en) Contents additional service inquiry server for identifying servers providing additional services and distinguishing between servers
Moia et al. Similarity digest search: A survey and comparative analysis of strategies to perform known file filtering using approximate matching
Fu et al. Data correlation‐based analysis methods for automatic memory forensic
Elgohary et al. Improving uncertainty in chain of custody for image forensics investigation applications
WO2024169388A1 (zh) 基于stride模型的安全需求生成方法、装置、电子设备及介质
CN112163036A (zh) 区块链信息的构建和查询方法及相关装置
CN111885088A (zh) 基于区块链的日志监测方法及装置
CN115730274A (zh) 文档泄密预警方法及装置
US20020069198A1 (en) System and method for positive identification of electronic files
Moreaux et al. Blockchain assisted near-duplicated content detection
CN114866532A (zh) 端点文件安全检查结果信息上传方法、装置、设备及介质
CN115310087A (zh) 一种基于抽象语法树的网站后门检测方法和系统
CN116910788B (zh) 一种业务数据的可搜索加密管理方法、装置及存储介质
CN117609771B (zh) 疑似侵权商标的检索方法、检索装置及电子设备
CN112910654B (zh) 一种私钥管理方法、系统、设备及存储介质
CN115186255B (zh) 工业主机白名单提取方法、装置、终端设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination