CN116305294A - 数据泄露溯源方法、装置、电子设备及存储介质 - Google Patents

数据泄露溯源方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116305294A
CN116305294A CN202310560018.6A CN202310560018A CN116305294A CN 116305294 A CN116305294 A CN 116305294A CN 202310560018 A CN202310560018 A CN 202310560018A CN 116305294 A CN116305294 A CN 116305294A
Authority
CN
China
Prior art keywords
data
characteristic information
data acquisition
leakage
implicit characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310560018.6A
Other languages
English (en)
Other versions
CN116305294B (zh
Inventor
王有金
姜才康
茅廷
李勉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengfang Financial Technology Co ltd
Original Assignee
Chengfang Financial Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengfang Financial Technology Co ltd filed Critical Chengfang Financial Technology Co ltd
Priority to CN202310560018.6A priority Critical patent/CN116305294B/zh
Publication of CN116305294A publication Critical patent/CN116305294A/zh
Application granted granted Critical
Publication of CN116305294B publication Critical patent/CN116305294B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Storage Device Security (AREA)

Abstract

本发明提供一种数据泄露溯源方法、装置、电子设备及存储介质,涉及信息安全技术领域,方法包括:基于获取的泄露数据,确定泄露数据对应的第一隐含特征信息;泄露数据包括第一隐含特征信息,第一隐含特征信息用于对泄露数据进行溯源;基于第一隐含特征信息、或者第一隐含特征信息和预先构建的溯源策略数据库,对泄露数据进行溯源,得到泄露数据对应的目标数据采集事件。由于泄露数据包括第一隐含特征信息,不依赖存储介质,根据第一隐含特征信息、或者第一隐含特征信息和预先构建的溯源策略数据库,可以实现泄露数据的溯源,而且可以准确获知泄露数据是在哪个数据采集事件中泄露,提升了泄露数据溯源的准确率。

Description

数据泄露溯源方法、装置、电子设备及存储介质
技术领域
本发明涉及信息安全技术领域,尤其涉及一种数据泄露溯源方法、装置、电子设备及存储介质。
背景技术
随着计算机技术的发展,数据泄露问题的严峻程度逐年升高。数据的价值性导致数据黑灰产愈发猖獗,暗网每天活跃着各类泄露数据的交易。其中,数据泄露事件不仅与黑客攻击和服务器配置不当有关,还与使用数据的相关人员有关。因此,数据泄露溯源是从源头上根治黑灰产与数据泄露问题的关键,溯源一方面可以帮助企业了解内部安全管理与技术措施的薄弱环节,另一方面对泄露者可以起到心理威慑的作用,从而有效减少类似事件的发生。综上所述,如何对数据泄露事件进行快速且有效的跟踪溯源成为了一项研究热点。
相关技术中,数字水印是一种数据安全技术,能有效解决数据泄露溯源问题,近年来在工业界也得到足够的重视与关注。数字水印是一种将标识信息(例如版权信息、机构标识或者员工标识)通过一定的规则与算法隐藏在存储介质中的技术。加入数字水印后的数据在使用上与原始数据无差异,通过对数字水印进行提取,可以进行数据泄露溯源调查。
然而,在可以轻易得到文本内容的结构化数据的存储形式下,如excel、csv、txt等文件格式,由于数字水印技术最大的问题在于依赖存储介质,数据泄露后数据持有者为避免遭到数据溯源,将数据文本内容转移到干净的数据存储介质上,这样就导致无法对泄露数据进行泄露溯源。
发明内容
本发明提供一种数据泄露溯源方法、装置、电子设备及存储介质,用以解决依赖存储介质的数据文本内容泄露后,将泄露的数据文本内容转移后无法进行泄露溯源的问题。
本发明提供一种数据泄露溯源方法,包括:
基于获取的泄露数据,确定所述泄露数据对应的第一隐含特征信息;所述泄露数据包括所述第一隐含特征信息,所述第一隐含特征信息用于对所述泄露数据进行溯源;
基于所述第一隐含特征信息、或者所述第一隐含特征信息和预先构建的溯源策略数据库,对所述泄露数据进行溯源,得到所述泄露数据对应的目标数据采集事件;所述溯源策略数据库包括多个数据采集事件记录和各所述数据采集事件记录分别对应的第二隐含特征信息;所述数据采集事件记录与所述第二隐含特征信息之间存在对应关系;所述数据采集事件记录包括采集主体、数据采集事件和需求信息;所述第二隐含特征信息是基于所述采集主体请求采集的采集数据和所述采集数据对应的数据采集事件记录、或者所述采集数据对应的数据采集事件记录确定的。
根据本发明提供的一种数据泄露溯源方法,基于所述第一隐含特征信息,对所述泄露数据进行溯源,得到所述泄露数据对应的目标数据采集事件,包括:
基于所述第一隐含特征信息,选取部分隐含特征信息;
将所述部分隐含特征信息转化为多个字符串水滴;
基于所述多个字符串水滴,确定所述泄露数据对应的目标数据采集事件。
根据本发明提供的一种数据泄露溯源方法,基于所述第一隐含特征信息和预先构建的溯源策略数据库,对所述泄露数据进行溯源,得到所述泄露数据对应的目标数据采集事件,包括:
基于所述溯源策略数据库中包括的各所述数据采集事件记录分别对应的所述第二隐含特征信息,将各所述第二隐含特征信息与所述第一隐含特征信息进行匹配,得到与所述第一隐含特征信息对应的目标隐含特征信息;
基于所述目标隐含特征信息、所述数据采集事件记录与所述第二隐含特征信息之间的对应关系,确定所述目标隐含特征信息对应的目标数据采集事件记录;
基于所述目标数据采集事件记录,确定所述目标数据采集事件记录对应的数据采集事件;
将所述数据采集事件确定为所述泄露数据对应的目标数据采集事件。
根据本发明提供的一种数据泄露溯源方法,所述溯源策略数据库是基于以下步骤构建的:
接收至少一个采集主体发送的数据采集请求;
基于各所述数据采集请求,确定各所述数据采集请求分别对应的采集数据和各所述采集数据分别对应的数据采集事件记录;
基于各所述采集数据和各所述数据采集事件记录、或各所述数据采集事件记录,确定各所述数据采集事件记录分别对应的所述第二隐含特征信息;
基于各所述第二隐含特征信息,构建所述溯源策略数据库。
根据本发明提供的一种数据泄露溯源方法,基于各所述数据采集事件记录,确定各所述数据采集事件记录分别对应的所述第二隐含特征信息,包括:
将各所述数据采集事件记录采用喷泉算法进行异或编码,生成各所述数据采集事件记录分别对应的多个字符串水滴;所述字符串水滴的数量与所述数据采集事件记录对应的采集数据的条数有关;
将各所述字符串水滴分别转化为目标位整数;所述目标位整数对应一个新的列名;
将至少两个目标位整数和所述至少两个目标位整数各自对应的新的列名,确定为各所述数据采集事件记录分别对应的所述第二隐含特征信息。
根据本发明提供的一种数据泄露溯源方法,基于各所述采集数据和各所述数据采集事件记录,确定各所述数据采集事件记录分别对应的所述第二隐含特征信息,包括:
基于各所述采集数据,分别对各所述采集数据进行随机散列处理,得到各所述采集数据各自对应的处理后的行散列数据;
对各所述行散列数据进行随机抽取,得到各所述行散列数据对应的部分子集;所述部分子集包括多行所述行散列数据;
对每行所述行散列数据采用信息摘要算法进行哈希计算,得到每行所述行散列数据对应的哈希值;
基于每行所述行散列数据对应的哈希值和各所述数据采集事件记录,确定各所述数据采集事件记录分别对应的所述第二隐含特征信息。
根据本发明提供的一种数据泄露溯源方法,基于各所述采集数据和各所述数据采集事件记录,确定各所述数据采集事件记录分别对应的所述第二隐含特征信息,包括:
基于各所述采集数据,分别对各所述采集数据中目标列的列名进行处理,生成各所述采集数据分别对应的列名特征信息;
基于各所述列名特征信息和各所述数据采集事件记录,确定各所述数据采集事件记录分别对应的所述第二隐含特征信息。
根据本发明提供的一种数据泄露溯源方法,基于各所述采集数据和各所述数据采集事件记录,确定各所述数据采集事件记录分别对应的所述第二隐含特征信息,包括:
基于各所述采集数据,对各所述采集数据添加一列时间字段;
基于各所述时间字段和各所述数据采集事件记录,确定各所述数据采集事件记录分别对应的所述第二隐含特征信息。
根据本发明提供的一种数据泄露溯源方法,基于各所述采集数据和各所述数据采集事件记录,确定各所述数据采集事件记录分别对应的所述第二隐含特征信息,包括:
基于各所述采集数据,选择各所述采集数据中每行数据的多个关键字段;
对各所述关键字段对应的数据进行哈希计算,得到各所述关键字段的数据对应的哈希值;
基于各所述关键字段的数据对应的哈希值和各所述数据采集事件记录,确定各所述数据采集事件记录分别对应的所述第二隐含特征信息。
本发明还提供一种数据泄露溯源装置,包括:
第一确定模块,用于基于获取的泄露数据,确定所述泄露数据对应的第一隐含特征信息;所述泄露数据包括所述第一隐含特征信息,所述第一隐含特征信息用于对所述泄露数据进行溯源;
溯源模块,用于基于所述第一隐含特征信息、或者所述第一隐含特征信息和预先构建的溯源策略数据库,对所述泄露数据进行溯源,得到所述泄露数据对应的目标数据采集事件;所述溯源策略数据库包括多个数据采集事件记录和各所述数据采集事件记录分别对应的第二隐含特征信息;所述数据采集事件记录与所述第二隐含特征信息之间存在对应关系;所述数据采集事件记录包括采集主体、数据采集事件和需求信息;所述第二隐含特征信息是基于所述采集主体请求采集的采集数据和所述采集数据对应的数据采集事件记录、或者所述采集数据对应的数据采集事件记录确定的。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述数据泄露溯源方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述数据泄露溯源方法。
本发明提供的数据泄露溯源方法、装置、电子设备及存储介质,通过基于获取的泄露数据,确定泄露数据对应的第一隐含特征信息;泄露数据包括第一隐含特征信息,第一隐含特征信息用于对泄露数据进行溯源;基于第一隐含特征信息、或者第一隐含特征信息和预先构建的溯源策略数据库,对泄露数据进行溯源,得到泄露数据对应的目标数据采集事件;溯源策略数据库包括多个数据采集事件记录和各数据采集事件记录分别对应的第二隐含特征信息;数据采集事件记录与第二隐含特征信息之间存在对应关系;数据采集事件记录包括采集主体、数据采集事件和需求信息;第二隐含特征信息是基于采集主体请求采集的采集数据和采集数据对应的数据采集事件记录、或者采集数据对应的数据采集事件记录确定的。由于泄露数据包括第一隐含特征信息,泄露数据不依赖存储介质,即使泄露数据的文本内容被转移,根据第一隐含特征信息、或者第一隐含特征信息和预先构建的溯源策略数据库,仍然可以实现泄露数据的溯源,而且可以准确获知泄露数据是在哪个数据采集事件中泄露,提升了泄露数据溯源的准确率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的数据泄露溯源方法的流程示意图之一;
图2是本发明提供的数据泄露溯源方法的流程示意图之二;
图3是本发明提供的数据泄露溯源装置的结构示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了便于更加清晰地理解本申请各实施例,首先对一些相关的背景知识进行如下介绍。
数字水印是一种将标识信息(如版权信息、机构标识或者员工标识)通过一定的规则与算法隐藏在存储介质中的技术,根据嵌入载体不同,数字水印还包括图像水印、视频水印、音频水印、文本水印和软件水印等。其中,最早数字水印技术应用在图像领域中,图像水印发展较为成熟。随着数字水印技术在安全需求的驱动下,近年来得到快速发展与应用。
如果在文本内容中加入显示的标识信息,则会破坏文本的易用性,例如,在word文档中随机添加或者特定位置添加一个时间戳,以此时间戳唯一映射特定的数据采集记录,会在一定程度上影响文档的使用。数字水印还容易遭受到修改攻击、删除攻击、插入攻击、置换攻击、混淆攻击和复合攻击,使得数字水印失效,从而无法对泄露的数据文本进行溯源。
下面结合图1-图2描述本发明的数据泄露溯源方法。
图1是本发明提供的数据泄露溯源方法的流程示意图之一,如图1所示,方法包括步骤101-步骤102;其中,
步骤101,基于获取的泄露数据,确定所述泄露数据对应的第一隐含特征信息;所述泄露数据包括所述第一隐含特征信息,所述第一隐含特征信息用于对所述泄露数据进行溯源。
需要说明的是,本发明提供的数据泄露溯源方法适用于基于文本内容的结构化数据溯源的场景中,该方法的执行主体可以为数据泄露溯源装置,例如电子设备、或者该数据泄露溯源装置中的用于执行数据泄露溯源方法的控制模块。电子设备可以为数据采集服务。
具体地,当发现外网存在泄露数据时,例如暗网售卖,可以获取到外网的泄露数据,对外网的泄露数据进行分析,进而对泄露数据进行溯源;其中,泄露数据可以是在数据采集方泄露的数据,也可以是在数据采集服务泄露的数据;泄露数据是通过数据采集服务添加隐含信息之后的数据。
由于泄露数据包括第一隐含特征信息,因此,根据获取的泄露数据,可以确定泄露数据对应的第一隐含特征信息;其中,第一隐含特征信息用于对泄露数据进行溯源。
步骤102,基于所述第一隐含特征信息、或者所述第一隐含特征信息和预先构建的溯源策略数据库,对所述泄露数据进行溯源,得到所述泄露数据对应的目标数据采集事件;所述溯源策略数据库包括多个数据采集事件记录和各所述数据采集事件记录分别对应的第二隐含特征信息;所述数据采集事件记录与所述第二隐含特征信息之间存在对应关系;所述数据采集事件记录包括采集主体、数据采集事件和需求信息;所述第二隐含特征信息是基于所述采集主体请求采集的采集数据和所述采集数据对应的数据采集事件记录、或者所述采集数据对应的数据采集事件记录确定的。
具体地,在确定泄露数据对应的第一隐含特征信息之后,根据第一隐含特征信息可以对泄露数据进行溯源,得到泄露数据对应的目标数据采集事件;或者,根据第一隐含特征信息和预先构建的溯源策略数据库可以对泄露数据进行溯源,得到泄露数据对应的目标数据采集事件,从而得到追溯泄露数据具体是通过哪次数据采集事件泄露出去的。
需要说明的是,溯源策略数据库包括多个数据采集事件记录和每个数据采集事件记录对应的第二隐含特征信息;数据采集事件记录与第二隐含特征信息之间存在对应关系;其中,数据采集事件记录包括采集主体、数据采集事件和需求信息,数据采集事件记录采用字符串表示,例如,数据采集事件记录为:“张三在2023年01月23日因业务需要,进行此次数据采集事件,获取数据摘要如下:A系统用户数据370条,涉及7个数据字段,其中敏感字段2个,包括用户名和手机号”。第二隐含特征信息是基于采集主体请求采集的采集数据和采集数据对应的数据采集事件记录、或者采集数据对应的数据采集事件记录确定的。
本发明提供的数据泄露溯源方法,通过基于获取的泄露数据,确定泄露数据对应的第一隐含特征信息;泄露数据包括第一隐含特征信息,第一隐含特征信息用于对泄露数据进行溯源;基于第一隐含特征信息、或者第一隐含特征信息和预先构建的溯源策略数据库,对泄露数据进行溯源,得到泄露数据对应的目标数据采集事件;溯源策略数据库包括多个数据采集事件记录和各数据采集事件记录分别对应的第二隐含特征信息;数据采集事件记录与第二隐含特征信息之间存在对应关系;数据采集事件记录包括采集主体、数据采集事件和需求信息;第二隐含特征信息是基于采集主体请求采集的采集数据和采集数据对应的数据采集事件记录、或者采集数据对应的数据采集事件记录确定的。由于泄露数据包括第一隐含特征信息,而不依赖存储介质,即使泄露数据的文本内容被转移,根据第一隐含特征信息、或者第一隐含特征信息和预先构建的溯源策略数据库,仍然可以实现泄露数据的溯源,而且可以准确获知泄露数据是在哪个数据采集事件中泄露,提升了泄露数据溯源的准确率。
可选地,所述溯源策略数据库是基于以下步骤构建的:
(1)接收至少一个采集主体发送的数据采集请求。
具体地,至少一个采集主体(数据采集方或者数据需求方)向数据采集服务发送数据采集请求,其中,数据采集请求用于请求数据采集服务采集数据,数据采集服务接收至少一个采集主体发送的数据采集请求。
(2)基于各所述数据采集请求,确定各所述数据采集请求分别对应的采集数据和各所述采集数据分别对应的数据采集事件记录。
具体地,数据采集服务在接收到至少一个采集主体发送的数据采集请求之后,根据各数据采集请求分别采集每个采集主体所需的采集数据,并生成采集数据对应的数据采集事件记录,其中,采集数据为多行多列的数据,数据采集事件记录用于对采集主体所需的采集数据的采集过程进行描述记录,数据采集事件记录包括采集主体、数据采集事件和需求信息,例如,数据采集事件记录为:“张三在2023年01月23日因业务需要,进行此次数据采集事件,获取数据摘要如下:A系统用户数据370条,涉及7个数据字段,其中敏感字段2个,包括用户名和手机号”。
(3)基于各所述采集数据和各所述数据采集事件记录、或各所述数据采集事件记录,确定各所述数据采集事件记录分别对应的所述第二隐含特征信息。
具体地,数据采集服务在采集到各采集主体所需的采集数据,且记录采集数据对应的数据采集事件记录之后,在采集数据是文本型结构化数据的情况下,不需要对采集数据进行预处理;在采集数据不是文本型结构化数据的情况下,需要对采集数据进行预处理,使得采集数据为文本型结构化数据,进而使得采集主体最终拿到的数据集合中的数据是文本型结构化数据,数据形式可以是文件(例如excel、csv和txt等),也可以是流式数据(例如,json和syslog等),即保证文本内容的结构固定。
根据各采集数据和各数据采集事件记录,可以确定各数据采集事件记录分别对应的第二隐含特征信息;或者,根据各数据采集事件记录,可以直接确定各数据采集事件记录分别对应的第二隐含特征信息;其中,第二隐含信息是指隐藏在采集数据里面的隐藏信息,针对不同的数据采集场景,对采集数据添加不同的第二隐含特征信息,第二隐含信息也可以称为隐写信息,以实现数据泄露溯源。
实际中,在确定第二隐含特征信息之后,将第二隐含特征信息添加至采集数据中,包含第二隐含特征信息的采集数据构成采集数据集,数据采集服务将采集数据集发送至各数据采集主体,使得数据采集主体使用采集数据集中的包含第二隐含特征信息的采集数据,即使在采集数据泄露的情况下,可以根据采集数据中的第二隐含特征信息对泄露数据进行溯源。
(4)基于各所述第二隐含特征信息,构建所述溯源策略数据库。
具体地,将各数据采集事件记录分别对应的第二隐含特征信息,存放至初始溯源策略库当中,实现构建溯源策略数据库;其中,溯源策略数据库包括多个数据采集事件记录和各数据采集事件记录分别对应的第二隐含特征信息;数据采集事件记录与第二隐含特征信息之间存在对应关系。
本发明提供的数据泄露溯源方法,通过接收至少一个采集主体发送的数据采集请求,根据各数据采集请求,确定各数据采集请求分别对应的采集数据和各采集数据分别对应的数据采集事件记录;基于各采集数据和各数据采集事件记录、或各数据采集事件记录,确定各数据采集事件记录对应的第二隐含特征信息;基于各第二隐含特征信息,构建溯源策略数据库,实现了溯源策略数据库的构建,在获取到泄露数据时,由于泄露数据包含隐含特性信息,而不依赖存储介质,可以基于策略数据库中包括的第二隐含特征信息与数据采集事件记录之间的对应关系,确定泄露数据对应的数据采集事件,实现对泄露数据的准确定位,追溯泄露数据是通过哪次数据采集事件泄露的,提升了泄露数据溯源的准确率和效率。
下面通过具体实施例分别对第二隐含特征信息的确定方式进行详细描述。
1、基于喷泉算法编码得到水滴,将水滴映射成有意义的整型数值。
可选地,基于各所述数据采集事件记录,确定各所述数据采集事件记录分别对应的所述第二隐含特征信息,包括:
(a)将各所述数据采集事件记录采用喷泉算法进行异或编码,生成各所述数据采集事件记录分别对应的多个字符串水滴;所述字符串水滴的数量与所述数据采集事件记录对应的采集数据的条数有关。
具体地,将各数据采集事件记录采用喷泉算法进行异或编码,可以生成各数据采集事件记录分别对应的多个字符串水滴(即信息碎片);其中,每个数据采集事件记录对应生成的字符串水滴的数量与数据采集事件记录对应的采集数据的条数有关系,一般与数据的条数相等。
例如,数据采集事件记录log=(User_name#Use_type#Time# Action#datadescription),基于喷泉算法将log作为一个字符串进行异或编码,生成多个字符串水滴。
需要说明的是,采用喷泉算法进行编码,得到的多个字符串水滴(喷泉码)可以理解为通过构造数据冗余来避免数据丢失,也就是说将数据分成很多信息碎片,部分信息碎片里面的信息量就能对原始数据的信息量进行很好的表达,获取到部分信息碎片就能还原出完整的数据。例如,遮住二维码的四分之一,使用手机照样能识别出二维码对应的内容,遮住的四分之一二维码就可以看作是丢失的信息碎片。喷泉码不仅拥有很小的译码开销,而且具有简单的编译码方法和很小的编译码复杂度,提升编码效率,从而提升第二隐含特征信息的确定效率。
(b)将各所述字符串水滴分别转化为目标位整数;所述目标位整数对应一个新的列名。
具体地,在生成多个字符串水滴之后,每个字符串水滴的字节长度为2个字节(即8位),将每个字符串水滴转化为2进制8位整数,即将每个字符串水滴转化为有意义的整数,从而得到目标位整数;其中,目标位整数对应一个新的列名,即为采集数据新增至少两个命名上有意义而无实际数据价值的新的列名,生成多个基于字符串水滴的数值型的列,新的列名例如为手机号、订单号、身份证号、授信额度、快递单号和订单号等,并将目标位整数赋予新增的列名下,例如,目标位整数填充手机号中的固定位、填充身份证号的固定位置。
(c)将至少两个目标位整数和所述至少两个目标位整数各自对应的新的列名,确定为各所述数据采集事件记录分别对应的所述第二隐含特征信息。
具体地,将至少两个目标位整数和至少两个目标位整数各自对应的新的列名,可以确定为各数据采集事件记录分别对应的第二隐含特征信息。
实际中,在将各字符串水滴分别转化为目标位整数之后,即将字符串水滴转化为有意义的整数后,将新增的至少两个列名以及每个列名对应的目标位整数添加至采集数据中,即将多个字符串水滴对应的目标位整数隐藏到采集数据中的至少两列中,以在采集数据泄露时,当泄露数据中的目标位整数对应的字符串水滴的数量达到一定百分比时(比例大小和数据采集事件log的长度有关),可以恢复出整个log数据,实现对泄露数据的溯源。需要说明的是,字符串水滴的数量达到50个时即可恢复出整个log的信息。
本发明提供的数据泄露溯源方法,将各数据采集事件记录采用喷泉算法进行异或编码,生成各数据采集事件记录分别对应的多个字符串水滴;字符串水滴的数量与数据采集事件记录对应的采集数据的条数有关;将各字符串水滴分别转化为目标位整数;目标位整数对应一个新的列名;将至少两个目标位整数和至少两个目标位整数各自对应的新的列名,确定为各数据采集事件记录分别对应的第二隐含特征信息。通过喷泉算法实现数据采集事件记录对应的第二隐含特征信息的确定,能够提升第二隐含特征信息的确定效率,进而能够实现对泄露数据的溯源,提升溯源效率。
2、行散列信息摘要算法5(Message-Digest Algorithm 5,MD5)随机序列抽取
可选地,基于各所述采集数据和各所述数据采集事件记录,确定各所述数据采集事件记录分别对应的所述第二隐含特征信息,包括:
(1)基于各所述采集数据,分别对各所述采集数据进行随机散列处理,得到各所述采集数据各自对应的处理后的行散列数据。
具体地,根据各采集数据,分别对各采集数据按行进行随机散列处理,即将采集数据中的多行数据按行随机打乱顺序,可以得到各采集数据各自对应的处理后的行散列数据。
(2)对各所述行散列数据进行随机抽取,得到各所述行散列数据对应的部分子集;所述部分子集包括多行所述行散列数据。
具体地,对各行散列数据按照行散列数据的顺序进行随机抽取,得到各行散列数据对应的部分子集;其中,部分子集包括多行的行散列数据,且多行的行散列数据的顺序是按照行散列数据的顺序进行排列的。
(3)对每行所述行散列数据采用信息摘要算法进行哈希计算,得到每行所述行散列数据对应的哈希值。
具体地,对部分子集中的每行行散列数据采用信息摘要算法MD5进行哈希计算,可以得到每行行散列数据对应的哈希值。
(4)基于每行所述行散列数据对应的哈希值和各所述数据采集事件记录,确定各所述数据采集事件记录分别对应的所述第二隐含特征信息。
具体地,根据每行的行散列数据对应的哈希值和各数据采集事件记录,可以将每行的行散列数据对应的哈希值确定为对应采集数据的数据采集事件记录的第二隐含特征信息。
例如,一行行散列数据data_line=(张三,男,山东,手机号,未婚,数据记录时间),对这行行散列数据进行MD5哈希计算,得到这行行散列数据的一个哈希值;将该哈希值作为该行行散列数据的数据采集事件记录对应的第二隐含特征信息。
实际中,可以记录部分子集中的所有行的行散列数据的哈希值,将多个哈希值以列表的形式添加至采集数据中,这样就可知道每次数据采集事件采集的数据集合中存在包含哈希值的采集数据,将包含哈希值的采集数据发送至采集主体,在采集数据泄露时,根据采集数据中的哈希值可以实现对泄露数据的溯源。
本发明提供的数据泄露溯源方法,通过基于各采集数据,分别对各采集数据进行随机散列处理,得到各采集数据各自对应的处理后的行散列数据;对各行散列数据进行随机抽取,得到各行散列数据对应的部分子集;部分子集包括多行行散列数据;对每行行散列数据采用信息摘要算法进行哈希计算,得到每行行散列数据对应的哈希值;基于每行行散列数据对应的哈希值和各数据采集事件记录,确定各数据采集事件记录分别对应的第二隐含特征信息。通过行随机散列处理以及对处理后的每行行散列数据进行哈希计算,根据得到的哈希值实现数据采集事件记录对应的第二隐含特征信息的确定,进而能够实现对泄露数据的溯源,提升溯源效率。
3、列名随机策略变更
可选地,基于各所述采集数据和各所述数据采集事件记录,确定各所述数据采集事件记录分别对应的所述第二隐含特征信息,包括:
1)基于各所述采集数据,分别对各所述采集数据中目标列的列名进行处理,生成各所述采集数据分别对应的列名特征信息。
具体地,目标列为采集数据中的某一列或者多列。基于各采集数据,分别对各采集数据中目标列的列名进行处理,处理的方式包括但不限于:列随机排列、列名变更、列名特征字符插入、部分列名中英文添加、在不涉及准确性计算的情况下加入假行,从而生成各采集数据分别对应的列名特征信息。
其中,列随机排列是指在给不同的数据采集事件提供采集数据时,可以根据采集数据中目标列的不同排列顺序记录不同的数据采集事件;列名变更是指对采集数据中目标列的列名进行变更,例如,采集数据中某一列的原始列名为“姓名”,则可以将列名“姓名”更改为“名字”、“用户名”、“name”、“userName”;列名特征字符插入是指对采集数据中目标列的列名插入字符,字符可以为英文单词、英文字母和拼音等,例如,采集数据中某一列的原始列名为“姓名”,则可以将列名“姓名”更改为“姓名userName”,某一列的原始列名为“手机号”则可以将列名“手机号”更改为“手机号tel”或者“手机号phone”;部分列名中英文添加是指对采集数据中目标列的列名添加中文和英文,例如,采集数据中某一列的原始列名为“姓名”,则可以将列名“姓名”更改为“姓名名字Name”;在不涉及准确性计算的情况下加入假行是指对在采集数据中加入一行数据,该行数据对应的列名与采集数据中其他行的列名相同。
2)基于各所述列名特征信息和各所述数据采集事件记录,确定各所述数据采集事件记录分别对应的所述第二隐含特征信息。
具体地,根据各列名特征信息和各数据采集事件记录,将各列名特征信息确定为各数据采集事件记录分别对应的第二隐含特征信息。
实际中,在确定数据采集事件记录对应的列名特征信息之后,将列名特征信息隐藏到采集数据中的目标列中,将包含列名特征信息的采集数据发送至采集主体,在采集数据泄露时,根据采集数据中的列名特征信息可以实现对泄露数据的溯源。
本发明提供的数据泄露溯源方法,基于各采集数据,分别对各采集数据中目标列的列名进行处理,生成各采集数据分别对应的列名特征信息;基于各列名特征信息和各数据采集事件记录,确定各数据采集事件记录分别对应的第二隐含特征信息。通过对各采集数据中目标列的列名进行处理,生成各采集数据分别对应的列名特征信息,实现数据采集事件记录对应的第二隐含特征信息的确定,进而能够实现对泄露数据的溯源,提升溯源效率。
4、原始数据中新增时间列
可选地,基于各所述采集数据和各所述数据采集事件记录,确定各所述数据采集事件记录分别对应的所述第二隐含特征信息,包括:
a)基于各所述采集数据,对各所述采集数据添加一列时间字段。
具体地,根据各采集数据,无论原始采集数据中是否存在时间列,对各采集数据中均添加一列时间字段,该列时间字段用于记录每一行数据对应的数据采集事件;其中,每行的时间字段对应一个时间字段值,从而可以记录此次数据采集事件中的所有时间字段值。
b)基于各所述时间字段和各所述数据采集事件记录,确定各所述数据采集事件记录分别对应的所述第二隐含特征信息。
具体地,在对各采集数据添加一列时间字段后,根据各时间字段和各数据采集事件记录,将时间字段确定为数据采集事件记录对应的第二隐含特征信息。
实际中,在确定数据采集事件记录对应的时间字段之后,将时间字段隐藏到采集数据中,将包含时间字段的采集数据发送至采集主体,在采集数据泄露时,如果发现泄露数据中包含时间字段,则可以根据采集数据中的时间字段反查该时间字段是在哪一次数据采集事件添加的,从而实现对泄露数据的溯源。
本发明提供的数据泄露溯源方法,基于各采集数据,对各采集数据添加一列时间字段;基于各时间字段和各数据采集事件记录,确定各数据采集事件记录分别对应的所述第二隐含特征信息。通过对各采集数据添加一列时间字段,实现数据采集事件记录对应的第二隐含特征信息的确定,进而能够实现对泄露数据的溯源,提升溯源效率。
5、关键字段数据MD5计算
可选地,基于各所述采集数据和各所述数据采集事件记录,确定各所述数据采集事件记录分别对应的所述第二隐含特征信息,包括:
1)基于各所述采集数据,选择各所述采集数据中每行数据的多个关键字段。
具体地,关键字段为采集数据中比较重要的字段,例如,涉及到个人隐私的字段(用户账号、手机号、身份证号),或者涉及到关键业务的字段(贷款单号、银行卡号)。根据各采集数据,可以选择各采集数据中每行数据的多个关键字段;其中,关键字段的选择需要预先指定或者通过熵计算、敏感数据字段识别等方式确定。
2)对各所述关键字段对应的数据进行哈希计算,得到各所述关键字段的数据对应的哈希值。
具体地,对各关键字段对应的数据采用信息摘要算法MD5进行哈希计算,可以得到各关键字段的数据对应的哈希值。
3)基于各所述关键字段的数据对应的哈希值和各所述数据采集事件记录,确定各所述数据采集事件记录分别对应的所述第二隐含特征信息。
具体地,根据各关键字段的数据对应的哈希值和各数据采集事件记录,将关键字段的数据对应的哈希值确定为各数据采集事件记录分别对应的第二隐含特征信息。
实际中,在确定数据采集事件记录对应的关键字段的数据的哈希值之后,将关键字段的数据的哈希值隐藏到采集数据中,将包含关键字段的数据的哈希值的采集数据发送至采集主体,在采集数据泄露时,如果发现泄露数据中包含关键字段的数据的哈希值,则可以根据采集数据中的关键字段的数据的哈希值确定是在哪一次数据采集事件泄露的,缩小调查范围,从而实现对泄露数据的溯源。
本发明提供的数据泄露溯源方法,基于各采集数据,选择各采集数据中每行数据的多个关键字段;对各关键字段对应的数据进行哈希计算,得到各关键字段的数据对应的哈希值;基于各关键字段的数据对应的哈希值和各数据采集事件记录,确定各数据采集事件记录分别对应的所述第二隐含特征信息。通过关键字段的数据对应的哈希值,实现数据采集事件记录对应的第二隐含特征信息的确定,进而能够实现对泄露数据的溯源,提升溯源效率。
可选地,基于所述第一隐含特征信息,对所述泄露数据进行溯源,得到所述泄露数据对应的目标数据采集事件,包括:
基于所述第一隐含特征信息,选取部分隐含特征信息;将所述部分隐含特征信息转化为多个字符串水滴;基于所述多个字符串水滴,确定所述泄露数据对应的目标数据采集事件。
具体地,在第一隐含特征信息为基于数据采集事件记录采用喷泉算法生成的多个字符水滴,将多个字符水滴各自转化为有意义的整数,生成基于字符串水滴的数值型的列,例如,列名为授信额度、手机号(填充手机号中的固定位)、身份证号(填充身份证的固定位置)、快递单号或者订单号,列名对应的数据为将多个字符水滴各自转化为有意义的整数,即第一隐含特征信息包括多列有意义整数的情况下,可以从第一隐含特征信息中随机选取部分隐含特征信息,即选取部分列的数据,该数据的取值范围为0-28。再将部分隐含特征信息转化为多个字符串水滴,每个字符串水滴的长度为2个字节8位整数;再根据个字符串水滴,利用多个字符串水滴对数据采集事件进行还原,得到泄露数据对应的目标数据采集事件,实现对泄露数据的准确定位,追溯泄露数据是通过哪次数据采集事件泄露的,提升了泄露数据溯源的准确率和效率。
本发明提供的数据泄露溯源方法,基于第一隐含特征信息,选取部分隐含特征信息;将部分隐含特征信息转化为多个字符串水滴;基于多个字符串水滴,确定泄露数据对应的目标数据采集事件,实现对泄露数据的准确定位,追溯泄露数据是通过哪次数据采集事件泄露的,提升了泄露数据溯源的准确率和效率。
可选地,基于所述第一隐含特征信息和预先构建的溯源策略数据库,对所述泄露数据进行溯源,得到所述泄露数据对应的目标数据采集事件,包括:
步骤1,基于所述溯源策略数据库中包括的各所述数据采集事件记录分别对应的所述第二隐含特征信息,将各所述第二隐含特征信息与所述第一隐含特征信息进行匹配,得到与所述第一隐含特征信息对应的目标隐含特征信息。
具体地,根据溯源策略数据库中包括的各数据采集事件记录分别对应的第二隐含特征信息,可以直接将各第二隐含特征信息与第一隐含特征信息进行一一匹配,在与第一隐含特征信息匹配的第二隐含特征信息确定为目标隐含特征信息。
步骤2,基于所述目标隐含特征信息、所述数据采集事件记录与所述第二隐含特征信息之间的对应关系,确定所述目标隐含特征信息对应的目标数据采集事件记录。
具体地,根据目标隐含特征信息、以及溯源策略数据库中包括的数据采集事件记录与第二隐含特征信息之间的对应关系,可以确定目标隐含特征信息对应的目标数据采集事件记录。
步骤3,基于所述目标数据采集事件记录,确定所述目标数据采集事件记录对应的数据采集事件。
具体地,根据目标数据采集事件记录,可以确定目标数据采集事件记录中包括的数据采集事件,从而确定目标数据采集事件记录对应的数据采集事件。
步骤4,将所述数据采集事件确定为所述泄露数据对应的目标数据采集事件。
具体地,将数据采集事件确定为泄露数据对应的目标数据采集事件,即确定泄露数据是在目标数据采集事件中泄露的,实现对泄露数据的溯源,提升了泄露数据溯源的准确率和效率。
本发明提供的数据泄露溯源方法,基于溯源策略数据库中包括的各数据采集事件记录分别对应的第二隐含特征信息,将各第二隐含特征信息与第一隐含特征信息进行匹配,得到与第一隐含特征信息对应的目标隐含特征信息;基于目标隐含特征信息、数据采集事件记录与第二隐含特征信息之间的对应关系,确定目标隐含特征信息对应的目标数据采集事件记录;基于目标数据采集事件记录,确定目标数据采集事件记录对应的数据采集事件;将数据采集事件确定为泄露数据对应的目标数据采集事件,实现对泄露数据的准确定位,追溯泄露数据是通过哪次数据采集事件泄露的,提升了泄露数据溯源的准确率和效率。
图2是本发明提供的数据泄露溯源方法的流程示意图之二,如图2所示,包括步骤201-步骤211;其中,
步骤201,数据采集服务接收至少一个采集主体发送的数据采集请求。
步骤202,基于各数据采集请求,确定各数据采集请求分别对应的采集数据和各采集数据分别对应的数据采集事件记录。
步骤203,行散列MD5随机序列抽取泄露溯源策略,确定第二隐含特征信息。具体地,基于各采集数据,分别对各采集数据进行随机散列处理,得到各采集数据各自对应的处理后的行散列数据;对各行散列数据进行随机抽取,得到各行散列数据对应的部分子集;部分子集包括多行所述行散列数据;对每行行散列数据采用信息摘要算法进行哈希计算,得到每行行散列数据对应的哈希值;基于每行行散列数据对应的哈希值和各数据采集事件记录,确定各数据采集事件记录分别对应的所述第二隐含特征信息。
步骤204,列名随机策略变更泄露溯源策略,确定第二隐含特征信息。具体地,基于各采集数据,分别对各采集数据中目标列的列名进行处理,例如,列随机排列、列名变更、列名特征字符插入、部分列名中英文添加、在不涉及准确性计算的情况下加入假行,生成各采集数据分别对应的列名特征信息;基于各列名特征信息和各数据采集事件记录,确定各数据采集事件记录分别对应的第二隐含特征信息。
步骤205,采集数据中新增时间列泄露溯源策略,确定第二隐含特征信息。具体地,基于各采集数据,对各采集数据添加一列时间字段;基于各时间字段和各数据采集事件记录,确定各数据采集事件记录分别对应的所述第二隐含特征信息。
步骤206,关键字段数据MD5计算泄露溯源策略,确定第二隐含特征信息。具体地,基于各采集数据,选择各采集数据中每行数据的多个关键字段;对各关键字段对应的数据进行哈希计算,得到各关键字段的数据对应的哈希值;基于各关键字段的数据对应的哈希值和各数据采集事件记录,确定各数据采集事件记录分别对应的第二隐含特征信息。
步骤207,基于喷泉算法泄露溯源策略,确定第二隐含特征信息。将各数据采集事件记录采用喷泉算法进行异或编码,生成各所述数据采集事件记录分别对应的多个字符串水滴;将各字符串水滴分别转化为目标位整数;目标位整数对应一个新的列名;将至少两个目标位整数和至少两个目标位整数各自对应的新的列名,确定为各数据采集事件记录分别对应的所述第二隐含特征信息。
步骤208,基于各隐含特征信息,构建溯源策略数据库。
步骤209,将各第二隐含特征信息添加至采集数据中,得到包含第二隐含特征信息的采集数据集;其中,采集数据集包括多个包含第二隐含特征信息的采集数据;将采集数据集发送至数据采集主体。
步骤210,获取泄露数据,泄露数据包括第一隐含特征信息。
步骤211,基于获取的泄露数据,确定泄露数据对应的第一隐含特征信息。
步骤212,基于第一隐含特征信息、或者第一隐含特征信息和预先构建的溯源策略数据库,对泄露数据进行溯源,得到泄露数据对应的目标数据采集事件。
下面对本发明提供的数据泄露溯源装置进行描述,下文描述的数据泄露溯源装置与上文描述的数据泄露溯源方法可相互对应参照。
图3是本发明提供的数据泄露溯源装置的结构示意图,如图3所示,数据泄露溯源装置300包括第一确定模块301和溯源模块302;其中,
第一确定模块301,用于基于获取的泄露数据,确定所述泄露数据对应的第一隐含特征信息;所述泄露数据包括所述第一隐含特征信息,所述第一隐含特征信息用于对所述泄露数据进行溯源;
溯源模块302,用于基于所述第一隐含特征信息、或者所述第一隐含特征信息和预先构建的溯源策略数据库,对所述泄露数据进行溯源,得到所述泄露数据对应的目标数据采集事件;所述溯源策略数据库包括多个数据采集事件记录和各所述数据采集事件记录分别对应的第二隐含特征信息;所述数据采集事件记录与所述第二隐含特征信息之间存在对应关系;所述数据采集事件记录包括采集主体、数据采集事件和需求信息;所述第二隐含特征信息是基于所述采集主体请求采集的采集数据和所述采集数据对应的数据采集事件记录、或者所述采集数据对应的数据采集事件记录确定的。
本发明提供的数据泄露溯源装置,通过基于获取的泄露数据,确定泄露数据对应的第一隐含特征信息;泄露数据包括第一隐含特征信息,第一隐含特征信息用于对泄露数据进行溯源;基于第一隐含特征信息、或者第一隐含特征信息和预先构建的溯源策略数据库,对泄露数据进行溯源,得到泄露数据对应的目标数据采集事件;溯源策略数据库包括多个数据采集事件记录和各数据采集事件记录分别对应的第二隐含特征信息;数据采集事件记录与第二隐含特征信息之间存在对应关系;数据采集事件记录包括采集主体、数据采集事件和需求信息;第二隐含特征信息是基于采集主体请求采集的采集数据和采集数据对应的数据采集事件记录、或者采集数据对应的数据采集事件记录确定的。由于泄露数据包括第一隐含特征信息,而不依赖存储介质,即使泄露数据的文本内容被转移,根据第一隐含特征信息、或者第一隐含特征信息和预先构建的溯源策略数据库,仍然可以实现泄露数据的溯源,而且可以准确获知泄露数据是在哪个数据采集事件中泄露,提升了泄露数据溯源的准确率。
可选地,所述溯源模块302,具体用于:
基于所述第一隐含特征信息,选取部分隐含特征信息;
将所述部分隐含特征信息转化为多个字符串水滴;
基于所述多个字符串水滴,确定所述泄露数据对应的目标数据采集事件。
可选地,所述溯源模块302,还用于:
基于所述溯源策略数据库中包括的各所述数据采集事件记录分别对应的所述第二隐含特征信息,将各所述第二隐含特征信息与所述第一隐含特征信息进行匹配,得到与所述第一隐含特征信息对应的目标隐含特征信息;
基于所述目标隐含特征信息、所述数据采集事件记录与所述第二隐含特征信息之间的对应关系,确定所述目标隐含特征信息对应的目标数据采集事件记录;
基于所述目标数据采集事件记录,确定所述目标数据采集事件记录对应的数据采集事件;
将所述数据采集事件确定为所述泄露数据对应的目标数据采集事件。
可选地,所述数据泄露溯源装置300还包括:
接收模块,用于接收至少一个采集主体发送的数据采集请求;
第二确定模块,用于基于各所述数据采集请求,确定各所述数据采集请求分别对应的采集数据和各所述采集数据分别对应的数据采集事件记录;
第三确定模块,用于基于各所述采集数据和各所述数据采集事件记录、或各所述数据采集事件记录,确定各所述数据采集事件记录分别对应的所述第二隐含特征信息;
构建模块,用于基于各所述第二隐含特征信息,构建所述溯源策略数据库。
可选地,所述第三确定模块,具体用于:
将各所述数据采集事件记录采用喷泉算法进行异或编码,生成各所述数据采集事件记录分别对应的多个字符串水滴;所述字符串水滴的数量与所述数据采集事件记录对应的采集数据的条数有关;
将各所述字符串水滴分别转化为目标位整数;所述目标位整数对应一个新的列名;
将至少两个目标位整数和所述至少两个目标位整数各自对应的新的列名,确定为各所述数据采集事件记录分别对应的所述第二隐含特征信息。
可选地,所述第三确定模块,还具体用于:
基于各所述采集数据,分别对各所述采集数据进行随机散列处理,得到各所述采集数据各自对应的处理后的行散列数据;
对各所述行散列数据进行随机抽取,得到各所述行散列数据对应的部分子集;所述部分子集包括多行所述行散列数据;
对每行所述行散列数据采用信息摘要算法进行哈希计算,得到每行所述行散列数据对应的哈希值;
基于每行所述行散列数据对应的哈希值和各所述数据采集事件记录,确定各所述数据采集事件记录分别对应的所述第二隐含特征信息。
可选地,所述第三确定模块,还具体用于:
基于各所述采集数据,分别对各所述采集数据中目标列的列名进行处理,生成各所述采集数据分别对应的列名特征信息;
基于各所述列名特征信息和各所述数据采集事件记录,确定各所述数据采集事件记录分别对应的所述第二隐含特征信息。
可选地,所述第三确定模块,还具体用于:
基于各所述采集数据,对各所述采集数据添加一列时间字段;
基于各所述时间字段和各所述数据采集事件记录,确定各所述数据采集事件记录分别对应的所述第二隐含特征信息。
可选地,所述第三确定模块,还具体用于:
基于各所述采集数据,选择各所述采集数据中每行数据的多个关键字段;
对各所述关键字段对应的数据进行哈希计算,得到各所述关键字段的数据对应的哈希值;
基于各所述关键字段的数据对应的哈希值和各所述数据采集事件记录,确定各所述数据采集事件记录分别对应的所述第二隐含特征信息。
图4是本发明提供的一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行数据泄露溯源方法,该方法包括:基于获取的泄露数据,确定所述泄露数据对应的第一隐含特征信息;所述泄露数据包括所述第一隐含特征信息,所述第一隐含特征信息用于对所述泄露数据进行溯源;基于所述第一隐含特征信息、或者所述第一隐含特征信息和预先构建的溯源策略数据库,对所述泄露数据进行溯源,得到所述泄露数据对应的目标数据采集事件;所述溯源策略数据库包括多个数据采集事件记录和各所述数据采集事件记录分别对应的第二隐含特征信息;所述数据采集事件记录与所述第二隐含特征信息之间存在对应关系;所述数据采集事件记录包括采集主体、数据采集事件和需求信息;所述第二隐含特征信息是基于所述采集主体请求采集的采集数据和所述采集数据对应的数据采集事件记录、或者所述采集数据对应的数据采集事件记录确定的。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的数据泄露溯源方法,该方法包括:基于获取的泄露数据,确定所述泄露数据对应的第一隐含特征信息;所述泄露数据包括所述第一隐含特征信息,所述第一隐含特征信息用于对所述泄露数据进行溯源;基于所述第一隐含特征信息、或者所述第一隐含特征信息和预先构建的溯源策略数据库,对所述泄露数据进行溯源,得到所述泄露数据对应的目标数据采集事件;所述溯源策略数据库包括多个数据采集事件记录和各所述数据采集事件记录分别对应的第二隐含特征信息;所述数据采集事件记录与所述第二隐含特征信息之间存在对应关系;所述数据采集事件记录包括采集主体、数据采集事件和需求信息;所述第二隐含特征信息是基于所述采集主体请求采集的采集数据和所述采集数据对应的数据采集事件记录、或者所述采集数据对应的数据采集事件记录确定的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (12)

1.一种数据泄露溯源方法,其特征在于,包括:
基于获取的泄露数据,确定所述泄露数据对应的第一隐含特征信息;所述泄露数据包括所述第一隐含特征信息,所述第一隐含特征信息用于对所述泄露数据进行溯源;
基于所述第一隐含特征信息、或者所述第一隐含特征信息和预先构建的溯源策略数据库,对所述泄露数据进行溯源,得到所述泄露数据对应的目标数据采集事件;所述溯源策略数据库包括多个数据采集事件记录和各所述数据采集事件记录分别对应的第二隐含特征信息;所述数据采集事件记录与所述第二隐含特征信息之间存在对应关系;所述数据采集事件记录包括采集主体、数据采集事件和需求信息;所述第二隐含特征信息是基于所述采集主体请求采集的采集数据和所述采集数据对应的数据采集事件记录、或者所述采集数据对应的数据采集事件记录确定的。
2.根据权利要求1所述的数据泄露溯源方法,其特征在于,基于所述第一隐含特征信息,对所述泄露数据进行溯源,得到所述泄露数据对应的目标数据采集事件,包括:
基于所述第一隐含特征信息,选取部分隐含特征信息;
将所述部分隐含特征信息转化为多个字符串水滴;
基于所述多个字符串水滴,确定所述泄露数据对应的目标数据采集事件。
3.根据权利要求1所述的数据泄露溯源方法,其特征在于,基于所述第一隐含特征信息和预先构建的溯源策略数据库,对所述泄露数据进行溯源,得到所述泄露数据对应的目标数据采集事件,包括:
基于所述溯源策略数据库中包括的各所述数据采集事件记录分别对应的所述第二隐含特征信息,将各所述第二隐含特征信息与所述第一隐含特征信息进行匹配,得到与所述第一隐含特征信息对应的目标隐含特征信息;
基于所述目标隐含特征信息、所述数据采集事件记录与所述第二隐含特征信息之间的对应关系,确定所述目标隐含特征信息对应的目标数据采集事件记录;
基于所述目标数据采集事件记录,确定所述目标数据采集事件记录对应的数据采集事件;
将所述数据采集事件确定为所述泄露数据对应的目标数据采集事件。
4.根据权利要求1-3任一项所述的数据泄露溯源方法,其特征在于,所述溯源策略数据库是基于以下步骤构建的:
接收至少一个采集主体发送的数据采集请求;
基于各所述数据采集请求,确定各所述数据采集请求分别对应的采集数据和各所述采集数据分别对应的数据采集事件记录;
基于各所述采集数据和各所述数据采集事件记录、或各所述数据采集事件记录,确定各所述数据采集事件记录分别对应的所述第二隐含特征信息;
基于各所述第二隐含特征信息,构建所述溯源策略数据库。
5.根据权利要求4所述的数据泄露溯源方法,其特征在于,基于各所述数据采集事件记录,确定各所述数据采集事件记录分别对应的所述第二隐含特征信息,包括:
将各所述数据采集事件记录采用喷泉算法进行异或编码,生成各所述数据采集事件记录分别对应的多个字符串水滴;所述字符串水滴的数量与所述数据采集事件记录对应的采集数据的条数有关;
将各所述字符串水滴分别转化为目标位整数;所述目标位整数对应一个新的列名;
将至少两个目标位整数和所述至少两个目标位整数各自对应的新的列名,确定为各所述数据采集事件记录分别对应的所述第二隐含特征信息。
6.根据权利要求4所述的数据泄露溯源方法,其特征在于,基于各所述采集数据和各所述数据采集事件记录,确定各所述数据采集事件记录分别对应的所述第二隐含特征信息,包括:
基于各所述采集数据,分别对各所述采集数据进行随机散列处理,得到各所述采集数据各自对应的处理后的行散列数据;
对各所述行散列数据进行随机抽取,得到各所述行散列数据对应的部分子集;所述部分子集包括多行所述行散列数据;
对每行所述行散列数据采用信息摘要算法进行哈希计算,得到每行所述行散列数据对应的哈希值;
基于每行所述行散列数据对应的哈希值和各所述数据采集事件记录,确定各所述数据采集事件记录分别对应的所述第二隐含特征信息。
7.根据权利要求4所述的数据泄露溯源方法,其特征在于,基于各所述采集数据和各所述数据采集事件记录,确定各所述数据采集事件记录分别对应的所述第二隐含特征信息,包括:
基于各所述采集数据,分别对各所述采集数据中目标列的列名进行处理,生成各所述采集数据分别对应的列名特征信息;
基于各所述列名特征信息和各所述数据采集事件记录,确定各所述数据采集事件记录分别对应的所述第二隐含特征信息。
8.根据权利要求4所述的数据泄露溯源方法,其特征在于,基于各所述采集数据和各所述数据采集事件记录,确定各所述数据采集事件记录分别对应的所述第二隐含特征信息,包括:
基于各所述采集数据,对各所述采集数据添加一列时间字段;
基于各所述时间字段和各所述数据采集事件记录,确定各所述数据采集事件记录分别对应的所述第二隐含特征信息。
9.根据权利要求4所述的数据泄露溯源方法,其特征在于,基于各所述采集数据和各所述数据采集事件记录,确定各所述数据采集事件记录分别对应的所述第二隐含特征信息,包括:
基于各所述采集数据,选择各所述采集数据中每行数据的多个关键字段;
对各所述关键字段对应的数据进行哈希计算,得到各所述关键字段的数据对应的哈希值;
基于各所述关键字段的数据对应的哈希值和各所述数据采集事件记录,确定各所述数据采集事件记录分别对应的所述第二隐含特征信息。
10.一种数据泄露溯源装置,其特征在于,包括:
第一确定模块,用于基于获取的泄露数据,确定所述泄露数据对应的第一隐含特征信息;所述泄露数据包括所述第一隐含特征信息,所述第一隐含特征信息用于对所述泄露数据进行溯源;
溯源模块,用于基于所述第一隐含特征信息、或者所述第一隐含特征信息和预先构建的溯源策略数据库,对所述泄露数据进行溯源,得到所述泄露数据对应的目标数据采集事件;所述溯源策略数据库包括多个数据采集事件记录和各所述数据采集事件记录分别对应的第二隐含特征信息;所述数据采集事件记录与所述第二隐含特征信息之间存在对应关系;所述数据采集事件记录包括采集主体、数据采集事件和需求信息;所述第二隐含特征信息是基于所述采集主体请求采集的采集数据和所述采集数据对应的数据采集事件记录、或者所述采集数据对应的数据采集事件记录确定的。
11.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至9任一项所述数据泄露溯源方法。
12.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至9任一项所述数据泄露溯源方法。
CN202310560018.6A 2023-05-18 2023-05-18 数据泄露溯源方法、装置、电子设备及存储介质 Active CN116305294B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310560018.6A CN116305294B (zh) 2023-05-18 2023-05-18 数据泄露溯源方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310560018.6A CN116305294B (zh) 2023-05-18 2023-05-18 数据泄露溯源方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN116305294A true CN116305294A (zh) 2023-06-23
CN116305294B CN116305294B (zh) 2023-09-05

Family

ID=86798151

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310560018.6A Active CN116305294B (zh) 2023-05-18 2023-05-18 数据泄露溯源方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116305294B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117290659A (zh) * 2023-11-24 2023-12-26 华信咨询设计研究院有限公司 一种基于回归分析的数据溯源方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170329942A1 (en) * 2016-05-12 2017-11-16 Markany Inc. Method and apparatus of drm systems for protecting enterprise confidentiality
CN110688675A (zh) * 2019-09-25 2020-01-14 卓尔智联(武汉)研究院有限公司 基于隐私保护的数据泄露溯源装置、方法及可读存储介质
CN110704874A (zh) * 2019-09-27 2020-01-17 西北大学 一种基于数据溯源的隐私泄露防护方法
CN111291405A (zh) * 2020-01-17 2020-06-16 北京工业大学 一种面向个人隐私数据泄露的数据溯源方法
CN115630342A (zh) * 2022-10-31 2023-01-20 郑州大学 数字化档案泄露溯源方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170329942A1 (en) * 2016-05-12 2017-11-16 Markany Inc. Method and apparatus of drm systems for protecting enterprise confidentiality
CN110688675A (zh) * 2019-09-25 2020-01-14 卓尔智联(武汉)研究院有限公司 基于隐私保护的数据泄露溯源装置、方法及可读存储介质
CN110704874A (zh) * 2019-09-27 2020-01-17 西北大学 一种基于数据溯源的隐私泄露防护方法
CN111291405A (zh) * 2020-01-17 2020-06-16 北京工业大学 一种面向个人隐私数据泄露的数据溯源方法
CN115630342A (zh) * 2022-10-31 2023-01-20 郑州大学 数字化档案泄露溯源方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117290659A (zh) * 2023-11-24 2023-12-26 华信咨询设计研究院有限公司 一种基于回归分析的数据溯源方法
CN117290659B (zh) * 2023-11-24 2024-04-02 华信咨询设计研究院有限公司 一种基于回归分析的数据溯源方法

Also Published As

Publication number Publication date
CN116305294B (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
Hakak et al. Approaches for preserving content integrity of sensitive online Arabic content: A survey and research challenges
Farfoura et al. A novel blind reversible method for watermarking relational databases
CN110913092B (zh) 一种加密图像可逆信息隐藏方法
CN116305294B (zh) 数据泄露溯源方法、装置、电子设备及存储介质
CN113364753B (zh) 反爬虫方法、装置、电子设备及计算机可读存储介质
CN105373986A (zh) 医院无胶片化云计算的实现方法
CN109840401A (zh) 针对数据文本的水印嵌入方法
CN114356919A (zh) 一种结构化数据库的水印嵌入方法、溯源方法及装置
CN110942322A (zh) 优惠券领取界面截图的防伪方法、系统、电子设备和介质
CN102831570B (zh) 可在浏览器上定位篡改位置的网页水印生成与认证方法
CN110516775B (zh) 基于qr码用户秘密信息隐藏方法
Iftikhar et al. A survey on reversible watermarking techniques for relational databases
Janani et al. Secure similar image search and copyright protection over encrypted medical image databases
Tiwari et al. A novel watermarking scheme for secure relational databases
CN117714613A (zh) 一种图像加密方法、装置、电子设备和存储介质
Alsaadi et al. Text steganography in font color of MS excel sheet
CN116702103A (zh) 数据库水印处理方法、数据库水印溯源方法及装置
Cao et al. Approaches to obtaining fingerprints of steganography tools which embed message in fixed positions
Du et al. Secure and verifiable keyword search in multiple clouds
CN116502261A (zh) 保留数据特性的数据脱敏方法及装置
CN116167807A (zh) 票据防伪方法、装置、电子设备及存储介质
CN116028901A (zh) 一种嵌入水印的方法、装置、设备及存储介质
Li et al. High‐Capacity Reversible Data Hiding in Encrypted Images by Information Preprocessing
CN114330758B (zh) 基于联邦学习的数据处理方法、装置及存储介质
Saber et al. Steganography in MS excel document using unicode system characteristics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant