CN112347489B

CN112347489B - 一种数据处理方法、装置及存储介质

Info

Publication number: CN112347489B
Application number: CN201910731307.1A
Authority: CN
Inventors: 周中民
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Priority date: 2019-08-08
Filing date: 2019-08-08
Publication date: 2023-08-15
Anticipated expiration: 2039-08-08
Also published as: CN112347489A

Abstract

本发明实施例提供了一种数据处理方法、装置及存储介质，方法包括：获取具备私密属性的数据集；基于数据所携带的时间属性将所述数据集划分为时序数据集和非时序数据集；分别对时序数据集及非时序数据集进行关联规则检测，得到携带时间属性的时序关联规则和/或未携带时间属性的非时序关联规则；在时序数据集中添加构造的伪时序数据，使得时序关联规则满足第一关联规则条件，和/或在非时序数据集中添加构造的伪非时序数据，使得非时序关联规则满足第二关联规则条件。如此，将源数据划分为时序数据集和非时序数据集，并通过添加构造的伪时序数据和伪非时序数据的方式分别对对应的时序关联规则和非时序关联规则进行隐藏，对数据进行完整的保护。

Description

一种数据处理方法、装置及存储介质

技术领域

本发明涉及数据处理领域，尤其涉及一种数据处理方法、装置及存储介质。

背景技术

相关技术对用户数据进行隐私处理主要采取加密、混淆等隐私保护技术，但对一些属性间数据隐藏的关联规则却未进行保护，而这些关联规则也会泄露用户的一部分隐私，目前关联规则所带来对隐私数据的安全威胁也逐渐引起人们的重视。相关技术在关联规则挖掘的隐私保护方面已经相继提出了许多解决的策略和方法，但此类数据保护技术在数据量比较大的情况下，仍可能挖掘出关联规则，导致隐私数据泄露，从而无法对数据进行有效完整保护。

发明内容

有鉴于此，本发明实施例提供了一种数据处理方法、装置及存储介质，能够实现对数据中关联规则的隐藏，以对数据进行有效完整保护。

第一方面，本发明实施例提供了一种数据处理方法，所述方法包括：

获取具备私密属性的数据集；

基于数据所携带的时间属性将所述数据集划分为时序数据集和非时序数据集；

分别对所述时序数据集及所述非时序数据集进行关联规则检测，得到携带时间属性的时序关联规则和/或未携带时间属性的非时序关联规则；

在所述时序数据集中添加构造的伪时序数据，使得所述时序关联规则满足第一关联规则条件，和/或在所述非时序数据集中添加构造的伪非时序数据，使得所述非时序关联规则满足第二关联规则条件。

上述方案中，所述获取具备私密属性的数据集，包括：

确定所述私密属性所包括的属性信息；

基于所述属性信息，对源数据集进行数据抽取，得到所述具备私密属性的数据集。

上述方案中，所述分别对所述时序数据集及所述非时序数据集进行关联规则检测，得到携带时间属性的时序关联规则和未携带时间属性的非时序关联规则，包括：

获取所述时序数据集中满足第一支持度阈值的第一频繁项集，以及所述非时序数据集中满足第二支持度阈值的第二频繁项集；

基于所述第一频繁项集生成满足第一置信度阈值的时序关联规则，所述时序关联规则携带相关联的时间属性及事件属性；

基于所述第二频繁项集生成满足第二置信度阈值的非时序关联规则，所述非时序关联规则携带事件属性。

上述方案中，所述在所述时序数据集中添加构造的伪时序数据，包括：

基于支持度和/或置信度，确定所述时序数据集的数据分布；

基于所述数据分布，在所述时序数据集中添加对应所述私密属性的伪时序数据，使得所述时序关联规则为非强关联规则。

上述方案中，所述在所述非时序数据集中添加构造的伪非时序数据，包括：

将所述非时序数据集划分为支持度和/或置信度满足预设条件的第一子数据集及不满足所述预设条件的第二子数据集；

在所述第一子数据集中添加对应关联规则中后继类的伪非时序数据，在所述第二子数据集中添加对应关联规则中先导类的伪非时序数据，使得所述非时序关联规则为非强关联规则。

上述方案中，所述在所述第一子数据集中添加对应关联规则中后继类的伪非时序数据，在所述第二子数据集中添加对应关联规则中先导类的伪非时序数据，包括：

基于支持度和/或置信度，确定所述第一子数据集的数据分布，以及所述第二子数据集的数据分布；

基于所述第一子数据集的数据分布，在所述第一子数据集中添加对应关联规则中后继类的伪非时序数据；

基于所述第二子数据集的数据分布，在所述第二子数据集中添加对应关联规则中先导类的伪非时序数据。

上述方案中，所述方法还包括：

计算添加有伪时序数据和/或伪非时序数据之后的数据集的冗余度；

当所述冗余度高于冗余度阈值时，对所述数据集中的数据进行清洗以删除冗余数据。

上述方案中，所述方法还包括：

获取所述数据集中强关联规则的数量、关联规则的数量以及特定时间段内变化的关联规则的数量，所述关联规则包括时序关联规则及非时序关联规则；

基于所述强关联规则的数量、关联规则的数量以及变化的关联规则的数量，计算目标参数的值；

所述目标参数，用于在取值大于目标参数阈值时，重新获取所述数据集，进行时序数据集和非时序数据集的划分，并执行所述关联规则检测、以及在时序数据集中伪时序数据的添加，和/或在非时序数据集中伪非时序数据的添加。

第二方面，本发明实施例提供了一种数据处理装置，所述装置包括：

获取单元，用于获取具备私密属性的数据集；

划分单元，用于基于数据所携带的时间属性将所述数据集划分为时序数据集和非时序数据集；

检测单元，用于分别对所述时序数据集及所述非时序数据集进行关联规则检测，得到携带时间属性的时序关联规则和/或未携带时间属性的非时序关联规则；

添加单元，用于在所述时序数据集中添加构造的伪时序数据，使得所述时序关联规则满足第一关联规则条件，和/或在所述非时序数据集中添加构造的伪非时序数据，使得所述非时序关联规则满足第二关联规则条件。

上述方案中，所述获取单元，具体用于确定所述私密属性所包括的属性信息；基于所述属性信息，对源数据集进行数据抽取，得到所述具备私密属性的数据集。

上述方案中，所述检测单元，具体用于获取所述时序数据集中满足第一支持度阈值的第一频繁项集，以及所述非时序数据集中满足第二支持度阈值的第二频繁项集；

所述检测单元，具体用于基于所述第一频繁项集生成满足第一置信度阈值的时序关联规则，所述时序关联规则携带相关联的时间属性及事件属性；

所述检测单元，具体用于基于所述第二频繁项集生成满足第二置信度阈值的非时序关联规则，所述非时序关联规则携带事件属性。

上述方案中，所述添加单元，具体用于基于支持度和/或置信度，确定所述时序数据集的数据分布；

所述添加单元，具体用于基于所述数据分布，在所述时序数据集中添加对应所述私密属性的伪时序数据，使得所述时序关联规则为非强关联规则。

上述方案中，所述添加单元，具体用于将所述非时序数据集划分为支持度和/或置信度满足预设条件的第一子数据集及不满足所述预设条件的第二子数据集；

所述添加单元，具体用于在所述第一子数据集中添加对应关联规则中后继类的伪非时序数据，在所述第二子数据集中添加对应关联规则中先导类的伪非时序数据，使得所述非时序关联规则为非强关联规则。

上述方案中，所述添加单元，具体用于基于支持度和/或置信度，确定所述第一子数据集的数据分布，以及所述第二子数据集的数据分布；

所述添加单元，具体用于基于所述第一子数据集的数据分布，在所述第一子数据集中添加对应关联规则中后继类的伪非时序数据；

所述添加单元，具体用于基于所述第二子数据集的数据分布，在所述第二子数据集中添加对应关联规则中先导类的伪非时序数据。

上述方案中，所述装置还包括：

清洗单元，用于计算添加有伪时序数据和/或伪非时序数据之后的数据集的冗余度；当所述冗余度高于冗余度阈值时，对所述数据集中的数据进行清洗以删除冗余数据。

上述方案中，所述方装置还包括：

评估单元，用于获取所述数据集中强关联规则的数量、关联规则的数量以及特定时间段内变化的关联规则的数量，所述关联规则包括时序关联规则及非时序关联规则；

所述评估单元，用于基于所述强关联规则的数量、关联规则的数量以及变化的关联规则的数量，计算目标参数的值；所述目标参数，用于在取值大于目标参数阈值时，重新获取所述数据集，进行时序数据集和非时序数据集的划分，并执行所述关联规则检测、以及在时序数据集中伪时序数据的添加，和/或在非时序数据集中伪非时序数据的添加。

第三方面，本发明实施例提供一种数据处理装置，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例的数据处理方法。

第四方面，本发明实施例提供一种存储介质，存储有可执行指令，所述可执行指令被执行时，用于实现本发明实施例的数据处理方法。

本发明实施例提供了一种数据处理方法、装置及存储介质，方法包括：获取具备私密属性的数据集；基于数据所携带的时间属性将所述数据集划分为时序数据集和非时序数据集；分别对所述时序数据集及所述非时序数据集进行关联规则检测，得到携带时间属性的时序关联规则和/或未携带时间属性的非时序关联规则；在所述时序数据集中添加构造的伪时序数据，使得所述时序关联规则满足第一关联规则条件，和/或在所述非时序数据集中添加构造的伪非时序数据，使得所述非时序关联规则满足第二关联规则条件。如此，将源数据划分为时序数据集和非时序数据集，并通过添加伪时序数据和伪非时序数据的方式分别对对应的时序关联规则和非时序关联规则进行隐藏，能够对数据进行完整的保护。

附图说明

图1为本发明实施例提供的数据处理方法的一个可选的流程示意图；

图2为本发明实施例提供的数据处理方法的一个可选的流程示意图；

图3为本发明实施例提供的数据处理装置的一个可选的结构示意图；

图4为本发明实施例提供的数据处理装置的一个可选的结构示意图。

具体实施方式

为了能够更加详尽地了解本发明实施例的特点与技术内容，下面结合附图对本发明实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本发明。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

需要指出，本发明实施例所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)关联属性：设I＝{i₁,i₂,…,i_n}是分块属性集合的一个子集，关联规则是形如A→B的蕴含式，其中A∈I，B∈I，A∩B＝Φ。如果该关联规则的支持度support(A→B)＝P(A→B)和置信度confidence(A→B)＝P(A|B)分别大于用户给定的最小支持度和最小置信度的阈值，则该关联规则的属性就为关联属性，其中，支持度support(A→B)指事件A和事件B同时发生的概率，置信度confidence(A→B)指的是发生事件A的基础上发生事件B的概率。

2)强关联规则：如果规则R：A→B满足support(A→B)≥minsup且condidence(A→B)≥minconf，称关联规则R为强关联规则。其中，minsup是指关联规则的最小支持度，也就是衡量频繁集的最小支持度(Minimum Support)，它用于衡量规则需要满足的最低重要性；minconf是指关联规则的最小置信度(Minimum Confidence)，它表示关联规则需要满足的最低可靠性，最小支持度和最小置信度由用户指定。

本发明实施例提供的装置可以实施为智能手机、平板电脑、笔记本电脑等各种类型的用户终端，也可以实施为服务器，还可以由终端和服务器协同实施。

图1示出了本发明实施例提供的数据处理方法的一个可选的流程示意图，参见图1，涉及步骤S101至步骤S104，下面分别进行说明。

步骤S101：服务器获取具备私密属性的数据集。

在一些实施例中，服务器可以通过如下方式获取具备私密属性的数据集：

确定私密属性所包括的属性信息；基于属性信息，对源数据集进行数据抽取，得到具备私密属性的数据集。

在实际应用中，数据携带的属性包括私密属性和非私密属性；其中，私密属性指与用户隐私相关的数据属性，当具备私密属性的数据泄露时，会对用户的生活、安全、财产等造成影响，如银行卡卡号、家庭住址等；而非私密属性指与用户隐私无关的数据属性，即使数据泄露也不会对用户造成影响，如面包、牛奶等。

在实际实施时，可依据实际需要预先设定私密属性所包括的属性信息，如私密属性包括以下属性至少之一：姓名、性别、电话、住址、疾病、账号、密码等；在一些实施例中，可基于私密属性所包括的各个属性，对源数据进行关键字识别，以抽取源数据中对应私密属性的数据，形成具备私密属性的数据集。

以源数据为医院数据库数据为例进行说明。医院数据库中保存有与病人相关的各种数据，其中具备私密属性的数据是包括姓名、性别、电话、住址、疾病等属性至少之一的数据，不具备私密属性的数据是包括床位号、负责医生、负责护士等属性至少之一的数据，为了对病人的具备私密属性的数据进行保护，服务器基于私密属性所包括的各个属性对医院数据库中的源数据进行关键词识别，以抽取出源数据中对应私密属性的数据，将位于同一表结构的私密属性划为同一逻辑集，得到具备私密属性的数据集。如此，对源数据进行了提取处理，剔除了不具备私密属性的数据，这对后续进一步对具备私密属性的数据进行保护提供了有效的数据基础。

步骤S102：服务器基于数据所携带的时间属性将所述数据集划分为时序数据集和非时序数据集。

在一些实施例中，服务器可以根据数据是否含有时间字段属性将具备私密属性的数据集划分为时序数据集和非时序数据集。在实际应用中，数据集中携带的时间属性包括含有时间字段的属性或不含有时间字段的属性；其中含有时间字段的属性指与用户活动的时间信息相关的属性，不含有时间字段的属性指与用户活动的时间信息无关的属性，服务器基于时间属性将数据集分为时序数据集和非时序数据集。

步骤S103：服务器分别对所述时序数据集及所述非时序数据集进行关联规则检测，得到携带时间属性的时序关联规则和/或未携带时间属性的非时序关联规则。

在一些实施例中，服务器可以通过如下方式得到时序关联规则和/或非时序关联规则：

获取时序数据集中满足第一支持度阈值的第一频繁项集，以及非时序数据集中满足第二支持度阈值的第二频繁项集；基于第一频繁项集生成满足第一置信度阈值的时序关联规则，时序关联规则携带相关联的时间属性及事件属性；基于第二频繁项集生成满足第二置信度阈值的非时序关联规则，非时序关联规则携带事件属性。

在实际实施时，服务器将具备私密属性的数据集划分为时序数据和非时序数据之后，得到的非时序数据之间很有可能已经互不相关，那么对该类非时序数据进行关联规则检测时，很有可能检测不到相应的关联规则。

在一些实施例中，服务器分别对时序数据集和非时序数据集进行关联检测，得到对应的时序关联规则和非时序关联规则，其中时序关联规则指携带有时间属性及事件属性的关联规则，如顾客购买产品X，很可能在一段时间内购买产品Y，这条规则中的属性是“时间”和“购买”，即用户在购买产品X之后的一段时间内购买Y的可能性比较高；而非时序关联规则指只携带有事件属性并未携带时间属性的关联规则，用于表征用户数据中属性中蕴含的一些关联关系，如“买面包”、“买牛奶”，这条规则中的属性是“购买”，即购买面包的人买牛奶的可能性比较高。

在一些实施例中，服务器采用Apriori算法找出数据集间数据的关联规则。Apriori算法是常用的用于挖掘出数据关联规则的算法，该算法主要包括两个步骤：首先找出数据集中所有的频繁项集，频繁项集是指支持度大于等于最小支持度的集合，这些项集出现的频繁性要大于或等于最小支持度；然后根据频繁项集产生强关联规则，这些规则必须满足最小支持度和最小置信度。另外，关联规则的检测算法还有多种，属于现有技术，在此不再赘述。

在一些实施例中，服务器虽然获取到了时序关联规则和非时序关联规则，即得出了时序和非时序关联属性之间的关联关系，但关联属性的关联规则的产生受阈值的影响，具有一定的局限性，获取的时序关联规则和非时序关联规则中可能存在无用、错误或丢失一些潜在的可能被攻击者利用的规则。因此需要对得出的关联规则进行判断，分析该规则是否会真的泄露用户隐私或者是攻击者所感兴趣的，在实际实施中，采用关联规则的相关性对获取的时序关联规则和非时序关联规则的关联关系进行评价，对于一条关联规则A→B，相关性(Correlation，corr)为：

相关性是一种度量事件间的相关性或者依赖性的指标，通常来说，一条关联规则的相关性越大，它的有效价值就越大。如果相关性等于1，则表示两个项集是独立的，项集A与项集B之间无关；如果相关性小于1，则表示项集A降低了另一个项集B出现的可能性，此时为负相关规则；如果相关性大于1，则表示项集A的出现增加了项集B的可能性，为正相关规则。服务器在检测到的时序关联规则和/或非时序关联规则后，只需从中找出正关联规则，排除无关或负关联规则，这样既筛选出了可能泄露用户隐私的依赖关系，又能排除一些可能并不泄露用户隐私的依赖关系，减少一些不必要的重新分块，提高效率。

步骤S104：服务器在所述时序数据集中添加构造的伪时序数据，使得所述时序关联规则满足第一关联规则条件，和/或在所述非时序数据集中添加构造的伪非时序数据，使得所述非时序关联规则满足第二关联规则条件。

在实际实施时，在服务器在时序数据集和非时序数据集中添加构造的伪时序数据和伪非时序数据之前，需要先构造相应的伪时序数据和伪非时序数据，具体地，服务器先分别随机生成带有时间属性的不具备私密属性的数据以及不带有时间属性的不具备私密属性的数据，然后再将生成的带有时间属性的不具备私密属性的数据以及不带有时间属性的不具备私密属性的数据分别添加到时序数据和非时序数据中，分别生成伪时序数据和伪非时序数据。

在一些实施例中，服务器可以通过如下方式在时序数据集中添加构造的伪时序数据：

基于支持度和/或置信度，确定时序数据集的数据分布；基于数据分布，在时序数据集中添加对应私密属性的伪时序数据，使得时序关联规则为非强关联规则。

在实际应用中，关联规则的衡量标准是支持度和置信度，服务器先对时序数据集中的数据按时序数据的关联规则的支持度和/或置信度的高低依次进行降序排列；然后从支持度和/或置信度最高的强关联时序规则的属性中开始添加伪时序数据，直到没有符合条件的强关联规则为止。

举例来说，假设服务器从一个时序数据集中检测出R₁、R₂和R₃三种关联规则，且对应的支持度分别为0.5、0.8和0.7，那么服务器先基于关联规则支持度的高低依次按R₂、R₃和R₁的顺序对关联规则属性中的时序数据进行排列，然后先从R₂关联规则的属性数据中开始添加构造的伪时序数据，直至没有符合条件的强关联规则为止。

在一些实施例中，服务器可以通过如下方式在所述非时序数据集中添加构造的伪非时序数据：

将所述非时序数据集划分为支持度和/或置信度满足预设条件的第一子数据集及不满足预设条件的第二子数据集；在第一子数据集中添加对应关联规则中后继类的伪非时序数据，在第二子数据集中添加关联规则中先导类的伪非时序数据，使得非时序关联规则为非强关联规则。

在实际应用中，服务器先根据关联规则的支持度和/或置信度，对非时序数据集中的数据按支持度和/或置信度的高低依次进行降序排列；然后设置一个预设条件，将满足预设条件的数据集划为一类，将不满足预设条件的数据集划为另一类。其中，预设条件用于将非时序数据集分为两部分，进而对两类数据集进行不同的伪时序数据的添加，预设条件可以根据实际情况进行设定，在此不做具体限定。

举例来说，假设服务器从一个非时序数据集中检测出R₁、R₂、R₃、R₄和R₅五种关联规则，对应的支持度分别为0.2、0.5、0.4、0.8和0.7，且设置当支持度大于等于0.5时，认为满足预设条件。那么，服务器先基于关联规则支持度的高低依次按R₄、R₅、R₂、R₃和R₁的顺序对关联规则属性中的非时序数据进行排列，再将支持度大于等于0.5的R₄、R₅和R₂关联规则的属性中的非时序数据集划分为第一子数据集，将支持度小于0.5的R₃和R₁关联规则的属性中的非时序数据集划分为第二子数据集，并在第一子数据集中添加对应关联规则中后继类的伪非时序数据以及在第二子数据集中添加对应关联规则中先导类的伪非时序数据，使得非时序关联规则为非强关联规则。

在一些实施例中，服务器可以通过如下方式在第一子数据集中添加对应关联规则中后继类的伪非时序数据，在第二子数据集中添加对应关联规则中先导类的伪非时序数据：

基于支持度和/或置信度，确定所述第一子数据集的数据分布，以及所述第二子数据集的数据分布；基于所述第一子数据集的数据分布，在所述第一子数据集中添加对应关联规则中后继类的伪非时序数据；基于所述第二子数据集的数据分布，在所述第二子数据集中添加对应关联规则中先导类的伪非时序数据。

在实际应用中，服务器基于关联规则的支持度和/或置信度，先将第一子数据集中的数据按第一子数据集的非时序关联规则的支持度和/或置信度的高低依次进行降序排列，以及将第二子数据集中的数据按第二子数据集的非时序关联规则的支持度和/或置信度的高低依次进行降序排列；然后在第一子数据集中从支持度和/或置信度最高的强关联非时序规则的属性的非时序数据中开始添加对应关联规则中后继类的伪非时序数据，以及在第二子数据集中从支持度和/或置信度最高的强关联非时序规则的属性的非时序数据中开始添加对应关联规则中先导类的伪非时序数据。

还以上述服务器从非时序数据集中检测到的五个关联规则为例进行说明。假设关联规则R₄对应A₄→B₄，关联规则R₃对应A₃→B₃，那么服务器在第一子数据集中从支持度最高的强关联时序规则R₄的属性中的非时序数据中开始添加对应关联规则中后继类B₄的伪非时序数据，以降低关联规则的支持度；在第二子数据集中从支持度和/或置信度最高的强关联非时序规则R₃的属性中的非时序数据中开始添加对应关联规则中先导类A₃的伪非时序数据，以降低关联规则的置信度，直到没有符合条件的强关联规则为止。

通过上述实施方式对具备私密属性的数据进行了有效的保护。

在一些实施例中，服务器还可以计算添加有伪时序数据和/或伪非时序数据之后的数据集的冗余度，并判断计算得出的冗余度是否高于冗余度阈值。当得出的冗余度高于冗余度阈值时，对数据集中的数据进行清洗以删除冗余数据。冗余度，通俗的讲就是数据的重复度，是从安全角度考虑多余的一个量，这个量就是为了保障仪器、设备或某项工作在非正常情况下也能正常运转；冗余度阈值是相关技术人员根据实际情况依经验预先设置的，在此不做具体限定。

通过上述实施方式，在冗余度高于冗余度阈值时，对添加过伪数据的数据集中的数据进行清洗，在不检测出新的关联规则的情况下，删除冗余数据，从而缓解硬盘存储压力。

在一些实施例中，服务器还可以获取数据集中强关联规则的数量、关联规则的数量以及特定时间段内变化的关联规则的数量，关联规则包括时序关联规则及非时序关联规则；基于强关联规则的数量、关联规则的数量以及变化的关联规则的数量，计算目标参数的值；所述目标参数，用于在取值大于目标参数阈值时，重新获取所述数据集，进行时序数据集和非时序数据集的划分，并执行所述关联规则检测、以及在时序数据集中伪时序数据的添加，和/或在非时序数据集中伪非时序数据的添加。

在实际实施时，服务器通过如下公式计算目标参数的值：

其中，AR_ori是指原强关联规则数，AR_re和AR_new是指在特定时间段内数据动态变化过程中减少和增加的关联规则数，AR_t是指所有的关联规则数，将计算得到的目标参数值E_pi与目标参数阈值T进行比较，目标参数阈值T是由待处理数据所在行业数据的经验给出的。如果目标参数值大于该目标参数阈值，则需要对数据重复进行上述步骤S101-步骤S104。

本发明实施例提供了一种数据处理方法，通过获取具备私密属性的数据集；基于数据所携带的时间属性将所述数据集划分为时序数据集和非时序数据集；分别对所述时序数据集及所述非时序数据集进行关联规则检测，得到携带时间属性的时序关联规则和/或未携带时间属性的非时序关联规则；在所述时序数据集中添加构造的伪时序数据，使得所述时序关联规则满足第一关联规则条件，和/或在所述非时序数据集中添加构造的伪非时序数据，使得所述非时序关联规则满足第二关联规则条件。如此，将源数据划分为时序数据集和非时序数据集，并通过添加构造的伪时序数据和伪非时序数据的方式分别对对应的时序关联规则和非时序关联规则进行隐藏，能够对数据进行完整的保护。

图2示出了本发明实施例提供的数据处理方法的一个可选的流程示意图，参见图2，涉及步骤S201至步骤S211，下面分别进行说明。

步骤S201：服务器确定所述私密属性所包括的属性信息；基于所述属性信息，对源数据集进行数据抽取，得到所述具备私密属性的数据集。

在实际实施时，属性信息是表征数据属性特性的信息，为了对用户私密数据进行保护，服务器首先需要确定私密属性所包括的属性信息，根据该属性信息，对源数据进行抽取、分块处理，将位于同一表结构的私密属性划为同一逻辑块，得到具备私密属性的数据集。

步骤S202：服务器基于数据所携带的时间属性将所述数据集划分为时序数据集和非时序数据集。

在一些实施例中，服务器根据数据是否含有时间字段属性将具备私密属性的数据集中的数据划分为时序数据集和非时序数据集。

步骤S203：服务器分别对所述时序数据集及所述非时序数据集进行关联规则检测，得到携带时间属性的时序关联规则和/或未携带时间属性的非时序关联规则。

在一些实施例中，服务器可以通过如下的方式进行关联规则检测：

获取所述时序数据集中满足第一支持度阈值的第一频繁项集，以及所述非时序数据集中满足第二支持度阈值的第二频繁项集；基于所述第一频繁项集生成满足第一置信度阈值的时序关联规则，所述时序关联规则携带相关联的时间属性及事件属性；基于所述第二频繁项集生成满足第二置信度阈值的非时序关联规则，所述非时序关联规则携带事件属性。另外，关联规则的检测属于现有技术，在此不再赘述。

步骤S204：得到构造的伪时序数据及非伪时序数据。

在一些实施例中，服务器可以通过如下方式得到构造的伪时序数据：服务器先分别随机生成带有时间属性的不具备私密属性的数据以及不带有时间属性的不具备私密属性的数据，然后再将生成的带有时间属性的不具备私密属性的数据以及不带有时间属性的不具备私密属性的数据分别添加到时序数据和非时序数据中，分别生成伪时序数据和伪非时序数据。

步骤S205：在所述时序数据集中添加所述伪时序数据，使得所述时序关联规则满足第一关联规则条件，和/或在所述非时序数据集中添加所述伪非时序数据，使得所述非时序关联规则满足第二关联规则条件。

在一些实施例中，服务器需要先根据关联规则的支持度和/或置信度，对时序数据集中的数据按支持度和/或置信度的高低依次进行降序排列；然后从支持度和/或置信度最高的强关联时序规则的属性中开始添加伪时序数据，直到没有符合条件的强关联规则为止。

将所述非时序数据集划分为支持度和/或置信度满足预设条件的第一子数据集及不满足预设条件的第二子数据集；在第一子数据集中添加对应关联规则中后继类的伪非时序数据，在第二子数据集中添加对应关联规则中先导类的伪非时序数据，使得所述非时序关联规则为非强关联规则。

在一些实施例中，服务器可以通过如下方式在所述第一子数据集中添加对应关联规则中后继类的伪非时序数据，在所述第二子数据集中添加对应关联规则中先导类的伪非时序数据：

基于支持度和/或置信度，确定第一子数据集的数据分布，以及第二子数据集的数据分布；基于第一子数据集的数据分布，在第一子数据集中添加对应关联规则中后继类的伪非时序数据；基于第二子数据集的数据分布，在第二子数据集中添加对应关联规则中先导类的伪非时序数据。

在实际实施时，在时序数据集中添加伪时序数据以及在非时序数据集中添加伪非时序数据的方法，与上述所提供的实施例属于同一构思，在此不再赘述。

步骤S206：计算添加有伪时序数据和/或伪非时序数据之后的数据集的冗余度。

步骤S207：判断计算所得冗余度是否高于冗余度阈值。

当计算所得的冗余度高于冗余度阈值时，执行步骤S208；当计算所得的冗余度不高于冗余度阈值时，执行步骤S209。

步骤S208：对数据集中的数据进行清洗以删除冗余数据。

步骤S209：对数据集中的数据不进行清洗。

步骤S210：基于强关联规则的数量、关联规则的数量以及变化的关联规则的数量，计算目标参数的值。

在一些实施例中，服务器通过如下方式计算目标参数的值：

获取数据集中强关联规则的数量、关联规则的数量以及特定时间段内变化的关联规则的数量，所述关联规则包括时序关联规则及非时序关联规则；基于强关联规则的数量、关联规则的数量以及变化的关联规则的数量，计算目标参数的值。

步骤S211：判断得到的目标参数值是否高于目标参数阈值。

在一些实施例中，服务器判断获取的目标参数是否高于目标参数阈值，当获取的目标参数值大于目标参数阈值时，重复上述步骤S201-S205，即服务器重新获取所述数据集，进行时序数据集和非时序数据集的划分，并执行所述关联规则检测、以及在时序数据集中伪时序数据的添加，和/或在非时序数据集中伪非时序数据的添加。当得到的目标参数值不高于目标参数阈值时，结束流程。

本发明实施例提供了一种数据处理方法，将源数据划分为时序数据集和非时序数据集，并通过添加伪时序数据及伪非时序数据的方式分别对对应的时序关联规则和非时序关联规则进行隐藏，能够对数据进行完整的保护；并且提出数据清洗以在隐藏用户数据关联性的同时，动态计算用户冗余数据增减的变化，达到数据保护和存储的平衡，从而缓解硬盘存储压力。

图3示出了本发明实施例提供的数据处理装置的一个可选的结构示意图，接下来对数据处理装置进行说明，参见图3，数据处理装置30包括：

获取单元31，用于获取具备私密属性的数据集；

划分单元32，用于基于数据所携带的时间属性将所述数据集划分为时序数据集和非时序数据集；

检测单元33，用于分别对所述时序数据集及所述非时序数据集进行关联规则检测，得到携带时间属性的时序关联规则和/或未携带时间属性的非时序关联规则；

添加单元34，用于在所述时序数据集中添加构造的伪时序数据，使得所述时序关联规则满足第一关联规则条件，和/或在所述非时序数据集中添加构造的伪非时序数据，使得所述非时序关联规则满足第二关联规则条件。

在一些实施例中，所述获取单元31，具体用于确定所述私密属性所包括的属性信息；基于所述属性信息，对源数据集进行数据抽取，得到所述具备私密属性的数据集。

在一些实施例中，所述检测单元33，具体用于获取所述时序数据集中满足第一支持度阈值的第一频繁项集，以及所述非时序数据集中满足第二支持度阈值的第二频繁项集；

所述检测单元33，具体用于基于所述第一频繁项集生成满足第一置信度阈值的时序关联规则，所述时序关联规则携带相关联的时间属性及事件属性；

所述检测单元33，具体用于基于所述第二频繁项集生成满足第二置信度阈值的非时序关联规则，所述非时序关联规则携带事件属性。

在一些实施例中，所述添加单元34，具体用于基于支持度和/或置信度，确定所述时序数据集的数据分布；

所述添加单元34，具体用于基于所述数据分布，在所述时序数据集中添加对应所述私密属性的伪时序数据，使得所述时序关联规则为非强关联规则。

在一些实施例中，所述添加单元34，具体用于将所述非时序数据集划分为支持度和/或置信度满足预设条件的第一子数据集及不满足所述预设条件的第二子数据集；

所述添加单元34，具体用于在所述第一子数据集中添加对应关联规则中后继类的伪非时序数据，在所述第二子数据集中添加对应关联规则中先导类的伪非时序数据，使得所述非时序关联规则为非强关联规则。

在一些实施例中，所述添加单元34，具体用于基于支持度和/或置信度，确定所述第一子数据集的数据分布，以及所述第二子数据集的数据分布；

所述添加单元34，具体用于基于所述第一子数据集的数据分布，在所述第一子数据集中添加对应关联规则中后继类的伪非时序数据；

所述添加单元34，具体用于基于所述第二子数据集的数据分布，在所述第二子数据集中添加对应关联规则中先导类的伪非时序数据。

在一些实施例中，所述装置30还包括：清洗单元35，用于计算添加有伪时序数据和/或伪非时序数据之后的数据集的冗余度；当所述冗余度高于冗余度阈值时，对所述数据集中的数据进行清洗以删除冗余数据。

在一些实施例中，所述装置30还包括：评估单元36，用于获取所述数据集中强关联规则的数量、关联规则的数量以及特定时间段内变化的关联规则的数量，所述关联规则包括时序关联规则及非时序关联规则；

所述评估单元36，还用于基于所述强关联规则的数量、关联规则的数量以及变化的关联规则的数量，计算目标参数的值；所述目标参数，用于在取值大于目标参数阈值时，重新获取所述数据集，进行时序数据集和非时序数据集的划分，并执行所述关联规则检测、以及在时序数据集中伪时序数据的添加，和/或在非时序数据集中伪非时序数据的添加。

需要说明的是：上述实施例提供的数据处理装置在进行数据处理时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的数据处理装置与数据处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

基于上述程序模块的硬件实现，且为了实现本发明实施例的方法，本发明实施例还提供一种数据处理装置40一个可选的结构示意图，如图4所示，数据处理装置40包括：至少一个处理器41、存储器42、至少一个网络接口43和用户接口44。数据处理装置40中的各个组件通过总线系统45耦合在一起。可理解，总线系统45用于实现这些组件之间的连接通信。总线系统45除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图4中将各种总线都标为总线系统45。

用户接口44可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

存储器42可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、闪存(Flash Memory)等。易失性存储器可以是随机存取存储器(RAM，Random Access Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static RandomAccess Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random AccessMemory)。本发明实施例描述的存储器42旨在包括这些和任意其它适合类型的存储器。

本发明实施例中的存储器42能够存储数据以支持数据处理装置40的操作。这些数据的示例包括：用于在数据处理装置40上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

作为本发明实施例提供的方法采用软硬件结合实施的示例，本发明实施例所提供的方法可以直接体现为由处理器41执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器42，处理器41读取存储器42中软件模块包括的可执行指令421，结合必要的硬件(例如，包括处理器41以及连接到总线系统45的其他组件)完成本发明实施例提供的方法。

作为示例，处理器41可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

本发明实施例还提供一种存储介质，存储介质可以包括：移动存储设备、RAM、ROM、磁碟或者光盘等各种可以存储程序代码的介质。所述可读存储介质存储有可执行指令；所述可执行指令，用于被处理器执行时实现上述数据处理方法。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取具备私密属性的数据集；

基于所述第二频繁项集生成满足第二置信度阈值的非时序关联规则，所述非时序关联规则携带事件属性；

在所述时序数据集中添加构造的伪时序数据，使得所述时序关联规则满足第一关联规则条件，和/或在所述非时序数据集中添加构造的伪非时序数据，使得所述非时序关联规则满足第二关联规则条件；

其中，所述在所述非时序数据集中添加构造的伪非时序数据，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取具备私密属性的数据集，包括：

确定所述私密属性所包括的属性信息；

3.根据权利要求1所述的方法，其特征在于，所述在所述时序数据集中添加构造的伪时序数据，包括：

基于支持度和/或置信度，确定所述时序数据集的数据分布；

4.根据权利要求1所述的方法，其特征在于，所述在所述第一子数据集中添加对应关联规则中后继类的伪非时序数据，在所述第二子数据集中添加对应关联规则中先导类的伪非时序数据，包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.一种数据处理装置，其特征在于，所述装置包括：

获取单元，用于获取具备私密属性的数据集；

检测单元，用于获取所述时序数据集中满足第一支持度阈值的第一频繁项集，以及所述非时序数据集中满足第二支持度阈值的第二频繁项集；基于所述第一频繁项集生成满足第一置信度阈值的时序关联规则，所述时序关联规则携带相关联的时间属性及事件属性；基于所述第二频繁项集生成满足第二置信度阈值的非时序关联规则，所述非时序关联规则携带事件属性；

添加单元，用于在所述时序数据集中添加构造的伪时序数据，使得所述时序关联规则满足第一关联规则条件，和/或在所述非时序数据集中添加构造的伪非时序数据，使得所述非时序关联规则满足第二关联规则条件；

其中，所述添加单元，具体用于：将所述非时序数据集划分为支持度和/或置信度满足预设条件的第一子数据集及不满足所述预设条件的第二子数据集；在所述第一子数据集中添加对应关联规则中后继类的伪非时序数据，在所述第二子数据集中添加对应关联规则中先导类的伪非时序数据，使得所述非时序关联规则为非强关联规则。

8.根据权利要求7所述的装置，其特征在于，

所述获取单元，具体用于确定所述私密属性所包括的属性信息；基于所述属性信息，对源数据集进行数据抽取，得到所述具备私密属性的数据集。

9.根据权利要求7所述的装置，其特征在于，

所述添加单元，具体用于基于支持度和/或置信度，确定所述时序数据集的数据分布；

10.根据权利要求7所述的装置，其特征在于，

所述添加单元，具体用于基于支持度和/或置信度，确定所述第一子数据集的数据分布，以及所述第二子数据集的数据分布；

11.根据权利要求7所述的装置，其特征在于，所述装置还包括：

12.根据权利要求7所述的装置，其特征在于，所述装置还包括：

13.一种数据处理装置，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现如权利要求1至6任一项所述的数据处理方法。

14.一种存储介质，其特征在于，存储有可执行指令，所述可执行指令被执行时，用于实现权利要求1至6任一项所述的数据处理方法。