CN115065509B

CN115065509B - 基于偏离函数的统计推断攻击的风险识别方法和装置

Info

Publication number: CN115065509B
Application number: CN202210593672.2A
Authority: CN
Inventors: 张兴; 高文飞; 聂二保; 马洪军; 杨芬; 王影; 陈谦; 翟志佳; 唐祎飞
Original assignee: Cec Cyberspace Great Wall Co ltd
Current assignee: Cec Cyberspace Great Wall Co ltd
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2024-04-02
Anticipated expiration: 2042-05-27
Also published as: CN115065509A

Abstract

本申请公开一种基于偏离函数的统计推断攻击的风险识别方法和装置。方法包括：获取大数据平台对应的统计数据和加密后的目标数据，其中，统计数据是未加密的明文数据；依据统计数据和预设的统计推断攻击方法，对加密后的目标数据进行攻击，获得攻击结果；依据偏离函数、攻击结果和目标数据，识别大数据平台是否存在被攻破的风险。能够减少因攻击成功概率小的风险对应的小概率事件的发生比例，提升数据的安全性。

Description

基于偏离函数的统计推断攻击的风险识别方法和装置

技术领域

本申请涉及数据处理技术领域，具体涉及一种基于偏离函数的统计推断攻击的风险识别方法、装置、系统、电子设备和可读介质。

背景技术

随着城市治理模式、企业生产管理方式、人们社交和生活方式的改变，越来越多的数据沉淀到各种互联网平台上，形成数据类型繁多的大数据平台，这些大数据平台可以通过对大数据的分析和使用，获取更多的利益。但是，在对大数据的使用过程中，还会存在第三方设备通过非法手段获取大数据中的用户隐私信息等，例如，通过统计推断攻击的方式，获取第三方设备需要的数据。

目前，可以通过对攻击成功概率的大小来进行统计推断，以评判攻击成功的可能性。但是，基于概率分析本身的缺陷，易使攻击成功概率小的统计推断对应的风险被忽视，而在数据的实际使用中，若这类风险对应的小概率事件发生，则会给大数据平台造成巨大的损失，降低了数据的安全性。

发明内容

为此，本申请提供一种基于偏离函数的统计推断攻击的风险识别方法、装置、系统、电子设备和可读介质，如何在统计推荐攻击的应用场景下，对大数据平台的风险进行识别，以提升数据安全性的问题。

为了实现上述目的，本申请第一方面提供一种基于偏离函数的统计推断攻击的风险识别方法，方法包括：获取大数据平台对应的统计数据和加密后的目标数据，其中，统计数据是未加密的明文数据；依据统计数据和预设的统计推断攻击方法，对加密后的目标数据进行攻击，获得攻击结果；依据偏离函数、攻击结果和目标数据，识别大数据平台是否存在被攻破的风险。

在一些具体实现中，获取大数据平台对应的统计数据和加密后的目标数据，包括：

基于预设的隔离环境，获取大数据平台存储的样本数据；

对大数据平台存储的样本数据进行分组，获得统计数据和目标数据；

依据预设加密算法对目标数据进行加密，获得加密后的目标数据。

在一些具体实现中，对大数据平台存储的样本数据进行分组，获得统计数据和目标数据，包括：

采用均匀分组、非均匀分组和抽样分组中任意一种分组方式，对样本数据进行分组，获得多组待处理数据，其中，待处理数据包括统计数据和目标数据；

获取多组待处理数据中的任意一组待处理数据中的统计数据和目标数据。

在一些具体实现中，预设加密算法包括：对称加密算法、非对称加密算法、同态加密算法、函数加密算法和属性保护加密算法中的至少一种。

在一些具体实现中，预设的统计推断攻击方法包括：频率攻击方法、网络地址优化攻击方法、排序攻击方法和累加攻击方法中的至少一种；

攻击结果用于表征加密后的目标数据受到攻击后泄露的信息量。

在一些具体实现中，依据偏离函数、攻击结果和目标数据，识别大数据平台是否存在被攻破的风险，包括：

对目标数据进行分析，确定目标数据对应的总信息量；

依据偏离函数、目标数据对应的总信息量和攻击结果，确定待评估偏离度，其中，待评估偏离度用于表征目标数据中未被击中的信息量占目标数据对应的总信息量的比例；

依据预设偏离度阈值和待评估偏离度，识别大数据平台是否存在被攻破的风险。

在一些具体实现中，依据预设偏离度阈值和待评估偏离度，识别大数据平台是否存在被攻破的风险，包括：

在确定待评估偏离度超过预设偏离度阈值的情况下，确定大数据平台存在被攻破的风险，并确定大数据平台险。

在一些具体实现中，确定大数据平台被攻破的风险指数之后，还包括：

在确定风险指数超过预设指数阈值的情况下，向大数据平台发送监管措施信息，以使大数据平台依据监管措施信息进行整改。

为了实现上述目的，本申请第二方面提供一种基于偏离函数的统计推断攻击的风险识别装置，其包括：

获取模块，被配置为获取大数据平台对应的统计数据和加密后的目标数据，其中，统计数据是未加密的明文数据；

处理模块，被配置为依据统计数据和预设的统计推断攻击方法，对加密后的目标数据进行攻击，获得攻击结果；

识别模块，被配置为依据攻击结果和目标数据，识别大数据平台是否存在被攻破的风险。

为了实现上述目的，本申请第三方面提供一种基于偏离函数的统计推断攻击的风险识别系统，其包括：大数据平台和基于偏离函数的统计推断攻击的风险识别装置；

基于偏离函数的统计推断攻击的风险识别装置，被配置为执行本申请实施例中的任意一种基于偏离函数的统计推断攻击的风险识别方法；

大数据平台，被配置为向基于偏离函数的统计推断攻击的风险识别装置提供统计数据和目标数据，以供基于偏离函数的统计推断攻击的风险识别装置依据统计数据和预设的统计推断攻击方法，对加密后的目标数据进行攻击，获得攻击结果，并依据攻击结果和目标数据，识别大数据平台是否存在被攻破的风险。

为了实现上述目的，本申请第四方面提供一种电子设备，其包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现本申请实施例中的任意一种基于偏离函数的统计推断攻击的风险识别方法。

为了实现上述目的，本申请第五方面提供一种计算机可读介质，其上存储有计算机程序，程序被处理器执行时实现本申请实施例中的任意一种基于偏离函数的统计推断攻击的风险识别方法。

本申请中的基于偏离函数的统计推断攻击的风险识别方法、装置、系统、电子设备和可读介质，通过获取大数据平台对应的统计数据和加密后的目标数据，其中，统计数据是未加密的明文数据，能够明确大数据平台中的准确数据，方便后续处理；依据统计数据和预设的统计推断攻击方法，对加密后的目标数据进行攻击，获得攻击结果，以确定加密后的目标数据是否能够抵抗住预设的统计推断攻击；依据偏离函数、攻击结果和目标数据，识别大数据平台是否存在被攻破的风险，以减少因攻击成功概率小的风险对应的小概率事件的发生比例，提升数据的安全性。

附图说明

附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请，并不构成对本申请的限制。通过参考附图对详细示例实施例进行描述，以上和其它特征和优点对本领域技术人员将变得更加显而易见，在附图中：

图1示出本申请实施例提供的基于偏离函数的统计推断攻击的风险识别方法的流程示意图。

图2示出本申请实施例提供的种基于偏离函数的统计推断攻击的风险识别装置的组成方框图。

图3示出本申请一实施例提供的种基于偏离函数的统计推断攻击的风险识别系统的组成方框图。

图4示出本申请又一实施例提供的基于偏离函数的统计推断攻击的风险识别系统的组成方框图。

图5示出本申请实施例提供的基于偏离函数的统计推断攻击的风险识别系统的工作方法的流程示意图。

图6示出能够实现根据本发明实施例的基于偏离函数的统计推断攻击的风险识别方法和装置的计算设备的示例性硬件架构的结构图。

具体实施方式

以下结合附图对本申请的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本申请，并不用于限制本申请。对于本领域技术人员来说，本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。

图1示出本申请实施例提供的基于偏离函数的统计推断攻击的风险识别方法的流程示意图。该基于偏离函数的统计推断攻击的风险识别方法可应用于基于偏离函数的统计推断攻击的风险识别装置。如图1所示，本申请实施例中的基于偏离函数的统计推断攻击的风险识别方法包括但不限于以下步骤。

步骤S110，获取大数据平台对应的统计数据和加密后的目标数据。

其中，统计数据是未加密的明文数据。

步骤S120，依据统计数据和预设的统计推断攻击方法，对加密后的目标数据进行攻击，获得攻击结果。

步骤S130，依据偏离函数、攻击结果和目标数据，识别大数据平台是否存在被攻破的风险。

在本实施例中，通过获取大数据平台对应的统计数据和加密后的目标数据，能够明确大数据平台中的准确数据，方便后续处理；依据统计数据和预设的统计推断攻击方法，对加密后的目标数据进行攻击，获得攻击结果，以确定加密后的目标数据是否能够抵抗住预设的统计推断攻击；依据偏离函数、攻击结果和目标数据，识别大数据平台是否存在被攻破的风险，以减少因攻击成功概率小的风险对应的小概率事件的发生比例，提升数据的安全性。

在一些具体实现中，步骤S110中的获取大数据平台对应的统计数据和加密后的目标数据，可以采用如下方式实现：

基于预设的隔离环境，获取大数据平台存储的样本数据；对大数据平台存储的样本数据进行分组，获得统计数据和目标数据；依据预设加密算法对目标数据进行加密，获得加密后的目标数据。

其中的隔离环境可以是与大数据平台的正常业务处理环境将隔绝的数据处理环境，如采用不同的处理系统作为预设的隔离环境，以降低数据泄露的可能性。

需要说明的是，获得的统计数据和目标数据均是采用明文的形式呈现的，并且，统计数据和目标数据之间存在关联性，若获取到统计数据，通过一定的假设条件和/或合理的推断，能够获知目标数据中包含的信息量的概率。

例如，若统计数据中包括某个学校中某个年级中的学生数量、姓“王”的同学的数量等，若假设该年级中的某个班级仅有2个或3个姓“王”的同学，则可以合理推断目标数据中可能包括的姓“王”的同学的名字，从而获取到目标数据中包括的信息量。因此，需要对目标数据进行加密，以避免目标数据的进一步泄露。

其中，预设加密算法包括：对称加密算法、非对称加密算法、同态加密算法、函数加密算法和属性保护加密算法中的至少一种。

需要说明的是，函数加密算法是采用某些预先约定好的函数(如，哈希函数等)对明文信息进行加密的算法，属性保护加密算法是对明文中的属性信息进行加密的算法，以降低用户的隐私信息被泄露的可能性。

以上对于预设加密算法仅是举例说明，可根据实际需要进行具体设定，其他未说明的预设加密算法也在本申请的保护范围之内，在此不再赘述。

在一些具体实现中，对大数据平台存储的样本数据进行分组，获得统计数据和目标数据，包括：采用均匀分组、非均匀分组和抽样分组中任意一种分组方式，对样本数据进行分组，获得多组待处理数据，其中，待处理数据包括统计数据和目标数据；获取多组待处理数据中的任意一组待处理数据中的统计数据和目标数据。

其中，不同的分组方式，能够获得多种不同的分组结果，从而体现样本数据的不同维度的特征信息。并且，将多组待处理数据中的任意一组待处理数据中的统计数据和目标数据作为后续需要进行处理的数据，能够更准确的获知样本数据的特征。

例如，还可以对多组待处理数据都进行处理，以使样本数据的每个维度的特征都能够被处理到，提升数据的处理准确性。

在一些具体实现中，步骤S120中的预设的统计推断攻击方法包括：频率攻击方法、网络地址优化攻击方法、排序攻击方法和累加攻击方法中的至少一种；攻击结果用于表征加密后的目标数据受到攻击后泄露的信息量。

例如，在加密后的目标数据被攻击后，获得的攻击结果中包括目标数据实际包含的信息量，从而导致该目标数据实际包含的信息量被推断出来，即加密后的目标数据受到攻击后泄露的信息量。

采用多种不同类型的攻击方法对加密后的目标数据进行攻击，能体现该目标数据对应的大数据平台在抵抗各种不同类型的攻击时的承受能力，从不同的维度体现大数据平台是否存在被攻破的风险，进而针对可能存在的风险进行处理，提升大数据平台的抗风险能力。

在一些具体实现中，步骤S130中的依据偏离函数、攻击结果和目标数据，识别大数据平台是否存在被攻破的风险，可以采用如下方式实现：

对目标数据进行分析，确定目标数据对应的总信息量；依据偏离函数、目标数据对应的总信息量和攻击结果，确定待评估偏离度；依据预设偏离度阈值和待评估偏离度，识别大数据平台是否存在被攻破的风险。

其中，待评估偏离度用于表征目标数据中未被击中的信息量占目标数据对应的总信息量的比例。

例如，可通过攻击结果明确加密后的目标数据受到攻击后泄露的信息量，然后，将目标数据对应的总信息量与该泄露的信息量进行差值计算，能够获得目标数据中未被击中的信息量；进一步的，将该目标数据中未被击中的信息量与目标数据对应的总信息量进行对比，确定待评估偏离度(即，目标数据中未被击中的信息量占目标数据对应的总信息量的比例)。

通过具体的对信息量的量化处理，能够准确衡量和识别大数据平台是否存在被攻破的风险，提升风险评估的准确性，及时发现潜在的风险，提升对大数据平台的安全防护。

在一些具体实现中，依据预设偏离度阈值和待评估偏离度，识别大数据平台是否存在被攻破的风险，包括：在确定待评估偏离度超过预设偏离度阈值的情况下，确定大数据平台存在被攻破的风险，并确定大数据平台被攻破的风险指数；否则，确定大数据平台不存在被攻破的风险。

其中，预设偏离度阈值可根据监管目标(例如，通信数据的监管需求，或，金融数据的监管需求等确定的目标)进行设定。待评估偏离度越大，则对应的大数据平台的抗攻击的能力越强，大数据平台存在被攻破的风险越小。

通过将待评估偏离度与预设偏离度阈值进行比较，能够明确大数据平台是否存在被攻破的风险，提升对大数据平台的攻击风险的评估准确性，减少因攻击成功概率小的风险对应的小概率事件的发生比例，提升数据的安全性。

在一些具体实现中，确定大数据平台被攻破的风险指数之后，还包括：在确定风险指数超过预设指数阈值的情况下，向大数据平台发送监管措施信息，以使大数据平台依据监管措施信息进行整改。

其中，监管措施信息可以包括：增加防火墙强度信息，采用多维度的风险屏蔽手段信息等。

通过向大数据平台发送监管措施信息，能够使大数据平台依据监管措施信息进行不同维度的整顿，提升大数据平台的数据安全性，降低数据泄露和数据滥用的风险发生比例。

图2示出本申请实施例提供的基于偏离函数的统计推断攻击的风险识别装置的组成方框图。如图2所示，基于偏离函数的统计推断攻击的风险识别装置200包括但不限于如下模块。

获取模块201，被配置为获取大数据平台对应的统计数据和加密后的目标数据，其中，统计数据是未加密的明文数据；

处理模块202，被配置为依据统计数据和预设的统计推断攻击方法，对加密后的目标数据进行攻击，获得攻击结果；

识别模块203，被配置为依据攻击结果和目标数据，识别大数据平台是否存在被攻破的风险。

需要说明的是，本实施例中的基于偏离函数的统计推断攻击的风险识别装置200能够实现本申请实施例中的任意一种基于偏离函数的统计推断攻击的风险识别方法。

在本实施例中，通过获取模块获取大数据平台对应的统计数据和加密后的目标数据，能够明确大数据平台中的准确数据，方便后续处理；处理模块依据统计数据和预设的统计推断攻击方法，对加密后的目标数据进行攻击，获得攻击结果，以确定加密后的目标数据是否能够抵抗住预设的统计推断攻击；识别模块依据偏离函数、攻击结果和目标数据，识别大数据平台是否存在被攻破的风险，以减少因攻击成功概率小的风险对应的小概率事件的发生比例，提升数据的安全性。

需要明确的是，本申请并不局限于上文实施例中所描述并在图中示出的特定配置和处理。为了描述的方便和简洁，这里省略了对已知方法的详细描述，并且上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

图3示出本申请一实施例提供的基于偏离函数的统计推断攻击的风险识别系统的组成方框图。

如图3所示，该基于偏离函数的统计推断攻击的风险识别系统包括但不限于如下设备。

大数据平台301和基于偏离函数的统计推断攻击的风险识别装置302。

其中，大数据平台301，被配置为向基于偏离函数的统计推断攻击的风险识别装置提供统计数据和目标数据，以供基于偏离函数的统计推断攻击的风险识别装置依据统计数据和预设的统计推断攻击方法，对加密后的目标数据进行攻击，获得攻击结果，并依据攻击结果和目标数据，识别大数据平台是否存在被攻破的风险。

基于偏离函数的统计推断攻击的风险识别装置302，被配置为执行本申请实施例中的任意一种基于偏离函数的统计推断攻击的风险识别方法。

在本实施例中，通过基于偏离函数的统计推断攻击的风险识别装置302能够对大数据平台301提供的数据进行分析和处理，以识别该大数据平台是否存在被攻破的风险，从而以减少因攻击成功概率小的风险对应的小概率事件的发生比例，提升数据的安全性。

如图4所示，该基于偏离函数的统计推断攻击的风险识别系统包括但不限于如下设备。

大数据平台410和基于偏离函数的统计推断攻击的风险识别装置420。

其中，基于偏离函数的统计推断攻击的风险识别装置420包括依次连接的样本数据获取模块421、数据沙箱422和风险识别模块423；数据沙箱422包括数据分组模块4221、数据加密模块4222、攻击处理模块4223和偏离度计算模块4224。

样本数据获取模块421，用于获取大数据平台中存储的样本数据。

数据沙箱422，用于对样本数据获取模块421输入的样本数据进行处理，获得大数据平台对应的统计数据和加密后的目标数据，其中，统计数据是未加密的明文数据；并依据统计数据和预设的统计推断攻击方法，对加密后的目标数据进行攻击，获得攻击结果；依据偏离函数、确定攻击结果和目标数据之间的偏离程度。

需要说明的是，为了保护大数据平台410的数据安全环境，数据沙箱422可以部署在大数据平台410外部的基于偏离函数的统计推断攻击的风险识别装置420内，也可以部署在大数据平台410中相对隔离的环境中，以使数据沙箱422对数据的操作能够在可控范围内，避免用户隐私信息的泄露，提升数据的安全性。

风险识别模块423，用于基于数据沙箱422输出的攻击结果和目标数据之间的偏离程度，识别大数据平台410是否存在被攻破的风险。

数据分组模块4221，用于对样本数据进行分组。例如，采用均匀分组、非均匀分组和抽样分组中任意一种分组方式，对样本数据进行分组，获得多组待处理数据，其中，每组待处理数据均包括统计数据和目标数据。

数据加密模块4222，用于对数据分组模块4221输出的目标数据进行加密，获得加密后的目标数据，以保证目标数据的安全性。

攻击处理模块4223，用于采用预设的统计推断攻击方法对统计数据进行分析，从而推断目标数据中可能包含的信息量，以模拟待处理数据被攻击的过程，从而获得攻击结果，该攻击结果用于表征加密后的目标数据受到攻击后泄露的信息量。

偏离度计算模块4224，用于基于偏离函数，确定目标数据中未被击中的信息量占目标数据对应的总信息量的比例，即待评估偏离度，并将该待评估偏离度输出给风险识别模块423。

风险识别模块423，用于基于预设偏离度阈值和获得的待评估偏离度，确定大数据平台410是否存在被攻破的风险，并在确定该数据平台存在被攻破的风险的情况下，向大数据平台410发送监管措施信息，以使大数据平台410依据监管措施信息进行整改。

如图5所示，该基于偏离函数的统计推断攻击的风险识别系统的工作方法包括但不限于如下步骤。

步骤S501，通过样本数据获取模块421获取大数据平台410提供的数据。

其中，大数据平台410可以通过随机筛选的方式，或预设数据筛选规则，对其内存储的数据进行是筛选，获得输出给样本数据获取模块421的样本数据data。其中，样本数据data可以是一个数据序列，也可以是多个数据序列，且该样本数据data是以明文的形式显示。

在一些具体实现中，在大数据平台410对数据进行筛选的过程中，大数据平台410还可以对数据中的隐私信息(如，用户的手机号码、住址等信息)进行隐藏，以避免用户隐私信息的泄露。大数据平台410还可以基于测试数据的类别，对筛选后的数据进行简单归类，以适应样本数据获取模块421的获取需求。例如，将住址显示为某高档住宅小区的用户，简单推断该组数据对应的主体可能为收入高净值人群等，并在不显示该用户住址的情况下，获取预设类别的数据(如，收入高净值人群的数据)。

步骤S502，样本数据获取模块421将获取到的数据data输出给数据分组模块4221，以使数据分组模块4221对样本数据data进行不同方式的分组。

例如，数据分组模块4221采用均匀分组、非均匀分组和抽样分组中任意一种分组方式，对样本数据data进行分组，获得多组待处理数据，其中，每组待处理数据均包括统计数据ds和目标数据dg。

需要说明的是，其中的统计数据包含的信息量和目标数据包含的信息量之间存在某些关联关系。例如，统计数据中若存在某个小学内的二年级的学生信息，对应的目标数据中可能包括该二年级的学生中男同学的数量以及女同学的数量等。

例如，可以采用公式(1)表征数据分组函数Fs，并使用该数据分组函数Fs对样本数据data进行分组：

data(ds，dg)＝Fs(data，duni，dinter) (1)

其中，ds表示某组数据(例如，第一组数据)中的统计数据；dg表示某组数据(例如，第一组数据)中的目标数据。

duni表示对样本数据data进行分组的方式；例如，duni为1时，表示对样本数据data进行均匀分组；duni为0时，表示对样本数据data进行非均匀分组；duni为其他数值时，表示对样本数据data进行抽样分组等

dinter表示分组间隔(即每两组数据之间的间距)。例如，若采用均匀分组方式，以20％作为分组间隔，则可将样本数据data均匀划分为5组(如，5组数据分别为：0-20％、20-40％、40-60％、60-80％、80-100％、。若采用非均匀分组方式，则可以设定多个分组间隔，每次划分依次取值即可，直至所有数据均落入组内。例如，采用非均匀分组方式对样本数据data划分为3组(如，3组数据分别为：0-15％、15％-40％、40％-45％)，其中每个组的分组间隔都不一样。

需要说明的是，在对样本数据data进行分组的过程中，为了提升风险识别的准确程度，需要尽可能将样本数据data中隐含的信息榨取出来，例如，采用多种不同的分组方式进行组合，如在抽样分组方式中，可进行有放回取样或无放回取样等，通过多种不同的混合分组方式对样本数据data进行处理，能更好地反映样本数据data的整体特征。

步骤S503，将数据分组模块4221输出的一组待处理数据中的目标数据输入到数据加密模块4222中，以使数据加密模块4222依据预设加密算法，对目标数据进行加密，获得加密后的目标数据。

例如，采用公式(2)表示加密函数Fe：

da＝Fe(dg，method1) (2)

其中，method1表示对目标数据进行加密的预设加密算法；dg表示某组数据(例如，第一组数据)中的目标数据；da表示加密后的目标数据。

步骤S504，分别将加密后的目标数据，以及与该目标数据对应的统一分组中的统计数据，输入至攻击处理模块4223中，以使攻击处理模块4223采用预设的统计推断攻击方法，依据统计数据，对目标数据进行模拟攻击，获得攻击结果。

其中，攻击结果用于表征加密后的目标数据受到攻击后泄露的信息量。

例如，可采用公式(3)表征攻击函数Fa：

ra＝Fa(dg， da， ds， method2) (3)

其中，method2表示预设的统计推断攻击方法，例如，频率攻击方法、网络地址IP优化攻击方法、排序攻击方法和累加攻击方法中的至少一种；

dg表示某组数据(例如，第一组数据)中的目标数据；da表示加密后的目标数据；ds表示某组数据(例如，第一组数据)中的统计数据；ra表示攻击结果。

步骤S505，攻击处理模块4223将获得的攻击结果输出给偏离度计算模块4224，以使偏离度计算模块4224基于偏离函数，确定目标数据中未被击中的信息量占目标数据对应的总信息量的比例。

其中，目标数据中未被击中的信息量占目标数据对应的总信息量的比例，可以采用待评估偏离度表示。例如，采用公式(4)表示偏离函数(即偏离度计算函数)：

dev＝[(rs/r)]*100％＝[(r-ra)/r]*100％ (4)

其中，rs表示目标数据中未被击中的信息量；r表示目标数据对应的总信息量；ra表示攻击结果，即加密后的目标数据受到攻击后泄露的信息量；dev表示待评估偏离度。

通过上述分析可知，dev的值越大，说明加密后的目标数据受到攻击后中被泄露的信息量越少，则加密后的目标数据中被保护的信息量越大，对应的目标数据对统计推断攻击的抵抗性能更强，则大数据平台410存在被攻破的风险越小。

步骤S506，将偏离度计算模块4224确定的待评估偏离度输入到风险识别模块423中，以使风险识别模块423通过预设偏离度阈值对待评估偏离度进行确认，以识别大数据平台410是否存在被攻破的风险。

在一些具体实现中，可以采用公式(5)计算待评估偏离度dev与预设偏离度阈值Dev之间的差值D：

D＝dev-Dev (5)

进一步地，在确定差值D超过预设差值阈值(如，0或1％等)的情况下，确定大数据平台存在被攻破的风险；在确定差值D小于或等于预设差值阈值的情况下，确定大数据平台不存在被攻破的风险。

在一些具体实现中，在确定大数据平台410存在被攻破的风险，且大数据平台410被攻破的风险指数超过预设指数阈值的情况下，向大数据平台410发送监管措施信息，以使大数据平台410依据监管措施信息进行整改。

例如，监管措施信息可以包括：建议大数据平台410强化针对统计推断攻击的安全防护措施的信息，如，增加防火墙强度，采用多维度的风险屏蔽手段等。以使大数据平台410中存储的数据更具安全性。

在本实施例中，通过偏离度计算模块4224基于偏离函数，确定目标数据中未被击中的信息量占目标数据对应的总信息量的比例，能够对数据进行量化分析，以识别大数据平台410是否存在被攻破的风险，从而推断大数据平台410的抗风险水平，在确定大数据平台410存在被攻破的风险，且大数据平台410被攻破的风险指数超过预设指数阈值的情况下，向大数据平台410发送监管措施信息，以使大数据平台410依据监管措施信息进行整改，提升大数据平台的数据安全性。

如图6所示，计算设备600包括输入设备601、输入接口602、中央处理器603、存储器604、输出接口605、以及输出设备606。其中，输入接口602、中央处理器603、存储器604、以及输出接口605通过总线607相互连接，输入设备601和输出设备606分别通过输入接口602和输出接口605与总线607连接，进而与计算设备600的其他组件连接。

具体地，输入设备601接收来自外部的输入信息，并通过输入接口602将输入信息传送到中央处理器603；中央处理器603基于存储器604中存储的计算机可执行指令对输入信息进行处理以生成输出信息，将输出信息临时或者永久地存储在存储器604中，然后通过输出接口605将输出信息传送到输出设备606；输出设备606将输出信息输出到计算设备600的外部供用户使用。

在一个实施例中，图6所示的计算设备可以被实现为一种电子设备，该电子设备可以包括：存储器，被配置为存储程序；处理器，被配置为运行存储器中存储的程序，以执行上述实施例描述的基于偏离函数的统计推断攻击的风险识别方法。

在一个实施例中，图6所示的计算设备可以被实现为一种基于偏离函数的统计推断攻击的风险识别系统，该基于偏离函数的统计推断攻击的风险识别系统可以包括：存储器，被配置为存储程序；处理器，被配置为运行存储器中存储的程序，以执行上述实施例描述的基于偏离函数的统计推断攻击的风险识别方法。

以上所述，仅为本申请的示例性实施例而已，并非用于限定本申请的保护范围。一般来说，本申请的多种实施例可以在硬件或专用电路、软件、逻辑或其任何组合中实现。例如，一些方面可以被实现在硬件中，而其它方面可以被实现在可以被控制器、微处理器或其它计算装置执行的固件或软件中，尽管本申请不限于此。

本申请的实施例可以通过移动装置的数据处理器执行计算机程序指令来实现，例如在处理器实体中，或者通过硬件，或者通过软件和硬件的组合。计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码。

本申请附图中的任何逻辑流程的框图可以表示程序步骤，或者可以表示相互连接的逻辑电路、模块和功能，或者可以表示程序步骤与逻辑电路、模块和功能的组合。计算机程序可以存储在存储器上。存储器可以具有任何适合于本地技术环境的类型并且可以使用任何适合的数据存储技术实现，例如但不限于只读存储器(ROM)、随机访问存储器(RAM)、光存储器装置和系统(数码多功能光碟DVD或CD光盘)等。计算机可读介质可以包括非瞬时性存储介质。数据处理器可以是任何适合于本地技术环境的类型，例如但不限于通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、可编程逻辑器件(FGPA)以及基于多核处理器架构的处理器。

可以理解的是，以上实施方式仅仅是为了说明本申请的原理而采用的示例性实施方式，然而本申请并不局限于此。对于本领域内的普通技术人员而言，在不脱离本申请的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本申请的保护范围。

Claims

1.一种基于偏离函数的统计推断攻击的风险识别方法，其特征在于，所述方法包括：

获取大数据平台对应的统计数据和加密后的目标数据，其中，所述统计数据是未加密的明文数据；

依据所述统计数据和预设的统计推断攻击方法，对所述加密后的目标数据进行攻击，获得攻击结果；

依据偏离函数、所述攻击结果和所述目标数据，识别所述大数据平台是否存在被攻破的风险；

所述预设的统计推断攻击方法包括：频率攻击方法、网络地址优化攻击方法、排序攻击方法和累加攻击方法中的至少一种；所述攻击结果用于表征所述加密后的目标数据受到攻击后泄露的信息量；

所述依据偏离函数、所述攻击结果和所述目标数据，识别所述大数据平台是否存在被攻破的风险，包括：

对所述目标数据进行分析，确定所述目标数据对应的总信息量；

依据所述偏离函数、目标数据对应的总信息量和所述攻击结果，确定待评估偏离度，其中，所述待评估偏离度用于表征所述目标数据中未被击中的信息量占所述目标数据对应的总信息量的比例；

依据预设偏离度阈值和所述待评估偏离度，识别所述大数据平台是否存在被攻破的风险。

2.根据权利要求1所述的方法，其特征在于，所述获取大数据平台对应的统计数据和加密后的目标数据，包括：

基于预设的隔离环境，获取大数据平台存储的样本数据；

对所述大数据平台存储的样本数据进行分组，获得所述统计数据和所述目标数据；

依据预设加密算法对所述目标数据进行加密，获得所述加密后的目标数据。

3.根据权利要求2所述的方法，其特征在于，所述对所述大数据平台存储的样本数据进行分组，获得所述统计数据和所述目标数据，包括：

采用均匀分组、非均匀分组和抽样分组中任意一种分组方式，对所述样本数据进行分组，获得多组待处理数据，其中，所述待处理数据包括所述统计数据和所述目标数据；

获取所述多组待处理数据中的任意一组待处理数据中的所述统计数据和所述目标数据。

4.根据权利要求2所述的方法，其特征在于，所述预设加密算法包括：对称加密算法、非对称加密算法、同态加密算法、函数加密算法和属性保护加密算法中的至少一种。

5.根据权利要求1所述的方法，其特征在于，所述依据预设偏离度阈值和所述待评估偏离度，识别所述大数据平台是否存在被攻破的风险，包括：

在确定所述待评估偏离度超过所述预设偏离度阈值的情况下，确定所述大数据平台存在被攻破的风险，并确定所述大数据平台被攻破的风险指数；

否则，确定所述大数据平台不存在被攻破的风险。

6.根据权利要求5所述的方法，其特征在于，所述确定所述大数据平台被攻破的风险指数之后，还包括：

在确定所述风险指数超过预设指数阈值的情况下，向所述大数据平台发送监管措施信息，以使所述大数据平台依据所述监管措施信息进行整改。

7.一种基于偏离函数的统计推断攻击的风险识别装置，其特征在于，其包括：

获取模块，被配置为获取大数据平台对应的统计数据和加密后的目标数据，其中，所述统计数据是未加密的明文数据；

处理模块，被配置为依据所述统计数据和预设的统计推断攻击方法，对所述加密后的目标数据进行攻击，获得攻击结果；

识别模块，被配置为依据偏离函数、所述攻击结果和所述目标数据，识别所述大数据平台是否存在被攻破的风险；

所述识别模块，具体用于：对所述目标数据进行分析，确定所述目标数据对应的总信息量；依据所述偏离函数、目标数据对应的总信息量和所述攻击结果，确定待评估偏离度，其中，所述待评估偏离度用于表征所述目标数据中未被击中的信息量占所述目标数据对应的总信息量的比例；依据预设偏离度阈值和所述待评估偏离度，识别所述大数据平台是否存在被攻破的风险。

8.一种基于偏离函数的统计推断攻击的风险识别系统，其特征在于，其包括：大数据平台和基于偏离函数的统计推断攻击的风险识别装置；

所述基于偏离函数的统计推断攻击的风险识别装置，被配置为执行如权利要求1至6中任一项所述的基于偏离函数的统计推断攻击的风险识别方法；

所述大数据平台，被配置为向所述基于偏离函数的统计推断攻击的风险识别装置提供统计数据和目标数据，以供所述基于偏离函数的统计推断攻击的风险识别装置依据所述统计数据和预设的统计推断攻击方法，对加密后的目标数据进行攻击，获得攻击结果，并依据所述攻击结果和所述目标数据，识别所述大数据平台是否存在被攻破的风险。

9.一种电子设备，其包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至6中任一项所述的基于偏离函数的统计推断攻击的风险识别方法。

10.一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如权利要求1至6中任一项所述的基于偏离函数的统计推断攻击的风险识别方法。