CN113468603A

CN113468603A - 基于人工智能的大数据隐私安全防护方法及系统

Info

Publication number: CN113468603A
Application number: CN202110877960.6A
Authority: CN
Inventors: 李志军; 李乾峰; 闫永贵
Original assignee: Dongguan Huixuehuiwan Education Technology Co ltd
Current assignee: Dongguan Huixuehuiwan Education Technology Co ltd
Priority date: 2021-08-02
Filing date: 2021-08-02
Publication date: 2021-10-01

Abstract

本发明实施例提供一种基于人工智能的大数据隐私安全防护方法及系统，通过获取目标应用场景下基于设定时间周期内进用户行为挖掘而得到的用户行为大数据，作为待防护用户行为大数据，然后对所述待防护用户行为大数据进行数据语义拆分，得到多个大数据语义分片，最后通过预先训练得到的大数据隐私处理AI网络对各所述大数据语义分片进行隐私数据解析，并根据隐私数据解析结果对所述待防护用户行为大数据进行隐私数据防护处理，得到大数据隐私防护处理后的最终用户行为大数据。如此，可有效的实现针对待防护用户行为大数据中的隐私数据的隐私安全防护处理。

Description

基于人工智能的大数据隐私安全防护方法及系统

技术领域

本发明涉及人工智能及大数据安全技术领域，具体而言，涉及一种基于人工智能的大数据隐私安全防护方法及系统。

背景技术

随着移动互联网以及信息技术的快速发展，人们可以随时随地通过手机、电脑等移动设备使用各种网络平台提供的移动互联网络服务。例如，用户可以通过移动设备方便的使用在线购物、订购飞机票和火车票、网络社交、在线互动、在线医疗、在线教育等各种各样的数字化线上服务。在使用线上服务的过程中，会产生大量的与用户行为有关的行为大数据。

此外，在不同的行业或领域中，数据都被共识的看作一种有效的资源，且是具有极大潜在价值的可变现资源。基于此，针对大数据的搜集、挖掘和分析已经成为各行各业以及各领域都重点关注的技术方向。例如，可基于对用户行为大数据的深度分析刻画出不同用户的兴趣爱好得到兴趣画像，基于兴趣画像可以实现信息推送、业务推广、锁定目标用户群体等后端应用，以促进数据的价值体现以及数据资源变现。

然而，在实现大数据资源价值体现的过程中，数据安全问题则凸显出来。例如，各平台针对用户行为数据进行搜集应用的过程中，不可避免的会涉及到用户的隐私数据（如用户性别、年龄、账户、密码等）。从核心价值角度来看，大数据的价值体现关键在于数据的分析和利用，但数据分析技术会对用户隐私产生极大的威胁。此外，在大数据时代，杜绝外部数据厂商或平台挖掘相关数据显得非常困难。

基于上述内容，如何有效的实现大数据的隐私安全防护是本领域极为重要的一项技术问题。

发明内容

为解决上述问题，本发明实施例提供一种基于人工智能的大数据隐私安全防护方法，所述方法包括：

获取目标应用场景下基于设定时间周期内进用户行为挖掘而得到的用户行为大数据，作为待防护用户行为大数据；

对所述待防护用户行为大数据进行数据语义拆分，得到多个大数据语义分片；

通过预先训练得到的大数据隐私处理AI网络对各所述大数据语义分片进行隐私数据解析，并根据隐私数据解析结果对所述待防护用户行为大数据进行隐私数据防护处理，得到大数据隐私防护处理后的最终用户行为大数据。

本发明实施例中，所述大数据隐私处理AI网络包括行为大数据解析单元、隐私数据解析单元、隐私信息整合分析单元、以及大数据隐私防护单元；

其中，所述通过预先训练得到的大数据隐私处理AI网络对各所述大数据语义分片进行隐私数据解析，并根据隐私数据解析结果对所述待防护用户行为大数据进行隐私数据防护处理，得到大数据隐私防护处理后的最终用户行为大数据，包括：

通过所述行为大数据解析单元，对所述待防护用户行为大数据进行数据解析，得到所述待防护用户行为大数据的行为大数据描述信息；

通过所述隐私数据解析单元，分别对各所述大数据语义分片进行隐私数据解析，得到相应的隐私属性信息；

通过所述隐私信息整合分析单元，对各所述大数据语义分片的隐私属性信息进行整合分析，得到全局隐私属性信息；

通过所述大数据隐私防护单元，基于所述全局隐私属性信息及所述行为大数据描述信息，对所述待防护用户行为大数据进行隐私数据防护处理，得到大数据隐私防护处理后的最终用户行为大数据。

本发明实施例中，所述通过所述大数据隐私处理AI网络的大数据隐私防护单元，基于所述全局隐私属性信息及所述行为大数据描述信息，对所述待防护用户行为大数据进行隐私数据防护处理，得到大数据隐私防护处理后的最终用户行为大数据，包括：

通过所述大数据隐私处理AI网络的大数据隐私防护单元，确定所述行为大数据描述信息与所述全局隐私属性信息之间的信息映射关系；

通过所述大数据隐私处理AI网络的大数据隐私防护单元，基于所述信息映射关系对所述用户行为大数据的各组成部分进行关系编码处理，得到所述大数据隐私防护处理后的最终用户行为大数据。

本发明实施例中，所述隐私数据解析单元包括分别与多个所述大数据语义分片对应的多个数据解析函数；所述通过所述大数据隐私处理AI网络的隐私数据解析单元，分别对各所述大数据语义分片进行隐私数据解析，得到相应的隐私属性信息，包括：

将各个所述大数据语义分片分别输入一个对应的所述数据解析函数，通过所述数据解析函数对所述大数据语义分片进行隐私数据解析，得到相应的隐私属性信息。

本发明实施例中，所述隐私属性信息包括隐私类型标签和属性数据，所述对各所述大数据语义分片的隐私属性信息进行整合分析，得到全局隐私属性信息，包括：

分别对各所述大数据语义分片的隐私属性信息进行隐私类型映射，得到对应各所述隐私属性信息的目标隐私属性信息；其中，各所述目标隐私属性信息的隐私类型标签相同；

对各所述目标隐私属性信息的属性数据进行整合分析，得到整合属性数据；

将所述目标隐私属性信息的隐私类型标签与所述整合属性数据进行数据组合，得到所述全局隐私属性信息；

其中，所述大数据语义分片的数量为Y，所述隐私属性信息的数量为Y，所述对各所述大数据语义分片的隐私属性信息进行整合分析，得到全局隐私属性信息，包括：

将Y个所述隐私属性信息中第n个隐私属性信息与第n+1个隐私属性信息进行整合，得到第n全局隐私属性信息；其中，Y大于或等于3，n大于等于1且小于等于Y-1；

将所述第n全局隐私属性信息与第n+2个隐私属性信息进行整合，得到第n+1全局隐私属性信息；

每次执行完上述过程后对n自加1，并当n+2等于Y时，将所述第n+1全局隐私属性信息作为所述全局隐私属性信息。

本发明实施例中，所述对待防护用户行为大数据进行数据语义拆分，得到多个大数据语义分片，包括：

对待防护用户行为大数据进行多模态数据语义拆分，以生成对应所述待防护用户行为大数据的第一语义分片序列；将所述第一语义分片序列中各序列位置对应的用户行为大数据作为所述大数据语义分片；或者

对待防护用户行为大数据进行多模态数据语义拆分，以生成对应所述待防护用户行为大数据的第一语义分片序列；基于所述对应所述待防护用户行为大数据的第一语义分片序列，生成对应所述待防护用户行为大数据的第二语义分片序列，所述第二语义分片序列中的语义分片数量小于所述第一语义分片序列中的语义分片数量；分别将所述第一语义分片序列中各序列位置对应的用户行为大数据与所述第二语义分片序列中相应序列位置对应的用户行为大数据进行拼接，得到多个拼接行为大数据，每个所述拼接行为大数据作为一个所述大数据语义分片；或者

对待防护用户行为大数据进行多模态数据语义拆分，以生成对应所述待防护用户行为大数据的第一语义分片序列；基于所述对应所述待防护用户行为大数据的第一语义分片序列，生成对应所述待防护用户行为大数据的第二语义分片序列；分别对所述第一语义分片序列中各序列位置对应的用户行为大数据进行隐私属性识别处理，得到相应的数据隐私属性；分别将所述第一语义分片序列中各序列位置对应的用户行为大数据、所述第二语义分片序列中相应序列位置对应的用户行为大数据、以及与所述第二语义分片序列中相应序列位置对应的用户行为大数据的语义关联的数据隐私属性进行拼接，得到多个所述大数据语义分片。

获取目标用户在所述设定时间周期内产生的所述用户行为大数据对应的的不同行为事项，所述用户行为大数据包括多个行为数据；

分别将所述各个行为数据输入预设的语义识别模型中，通过所述预设的语义识别模型中的基于操作行为的语义卷积层对所述各个行为数据进行语义卷积处理，得到所述各个行为数据分别对应的语义相关性；

分别将所述各个行为数据，以及所述各个行为数据对应的语义相关性输入所述预设的语义识别模型中的数据聚类整理层，基于所述数据聚类整理层对所述各个行为数据进行数据分类和数据整理，得到各语义行为描述分别对应的行为数据序列；

将所述行为数据序列对应的各行为数据描述信息输入所述预设的语义识别模型中的语义分片特征连接层，对所述行为数据序列对应的各行为数据描述信息进行关键语义卷积处理，得到针对各所述行为事项的语义分片数据集，所述语义分片数据集包括至少两个大数据语义分片；

其中，所述基于所述数据聚类整理层对所述各个行为数据进行数据分类和数据整理，得到各语义行为描述分别对应的行为数据序列，包括：

分别根据所述各个行为数据对应的语义相关性，对所述各个行为数据的语义行为描述进行数据融合，得到所述各个行为数据的关键语义描述；

根据所述各个行为数据的关键语义描述对所述各个行为数据进行分类，得到至少两个行为数据分类序列；

根据各个所述行为数据分类序列所包含的行为数据的统计结果，对所述各个行为数据分类序列进行数据整理；

对于每个所述行为数据分类序列，根据所述行为数据分类序列中各个行为数据的语义行为描述与所述行为数据分类序列的相关性量化指标，对所述行为数据分类序列中的各个行为数据进行数据整理；

基于各所述行为数据分类序列相互之间的数据整理结果，以及所述各个行为数据分类序列中各个行为数据的数据整理结果，得到所述行为数据序列。

本发明实施例中，所述方法还包括对所述大数据隐私处理AI网络进行模型训练的步骤，具体包括：

A、对具有隐私数据的隐私行为大数据样本进行数据语义拆分，得到多个语义数据分片样本；其中，所述隐私行为大数据样本为对预先获得的原始行为大数据进行隐私数据植入得到；

B、通过所述大数据隐私处理AI网络的行为大数据解析单元，对所述隐私行为大数据样本进行数据解析，得到所述隐私行为大数据样本的预测行为大数据描述信息；

C、通过所述大数据隐私处理AI网络的隐私数据解析单元，分别对各所述语义数据分片样本进行隐私数据解析，得到相应的预测隐私属性信息；

D、通过所述大数据隐私处理AI网络的隐私信息整合分析单元，对各所述语义数据分片样本对应的预测隐私属性信息进行整合分析，得到预测全局隐私属性信息；

E、通过所述大数据隐私处理AI网络的大数据隐私防护单元，基于所述预测全局隐私属性信息及所述预测行为大数据描述信息，对所述隐私行为大数据样本进行隐私数据防护处理，得到相应的参考最终用户行为大数据；

F、基于所述参考最终用户行为大数据与所述预先获得的原始行为大数据的数据相似度，对所述大数据隐私处理AI网络的网络指标进行迭代优化，直到优化后的网络指标满足预设的训练收敛条件；

其中，所述隐私数据包括标定隐私数据和干扰隐私数据中的其中至少一种；所述隐私行为大数据样本通过下述任意一种方式获得：

第一、对所述预先获得的原始行为大数据植入标定隐私数据，得到具有标定隐私数据的标定隐私行为大数据样本，将所述标定隐私行为大数据样本作为所述隐私行为大数据样本；

第二、对所述预先获得的原始行为大数据植入干扰隐私数据，得到具有干扰隐私数据的干扰隐私行为大数据样本，将所述干扰隐私行为大数据样本作为所述隐私行为大数据样本；

第三、对所述预先获得的原始行为大数据分别植入标定隐私数据和干扰隐私数据，得到同时具有标定隐私数据和干扰隐私数据的融合隐私行为大数据样本，将所述融合隐私行为大数据样本作为所述隐私行为大数据样本。

本发明实施例中，所述预先获得的原始行为大数据对应多个隐私行为大数据样本，各所述隐私行为大数据样本均为对所述预先获得的原始行为大数据进行不同的隐私数据植入得到；

所述基于所述参考最终用户行为大数据与所述预先获得的原始行为大数据的数据相似度，对所述大数据隐私处理AI网络的网络指标进行迭代优化，包括：

针对每个所述隐私行为大数据样本执行上述A-E的过程，得到各所述隐私行为大数据样本对应的参考最终用户行为大数据；

基于各所述参考最终用户行为大数据与所述预先获得的原始行为大数据的数据相似度，对所述大数据隐私处理AI网络的网络指标进行迭代训练，直到满足预设的训练收敛条件；

所述大数据隐私处理AI网络的网络指标可以包括所述行为大数据解析单元的模型指标、所述隐私数据解析单元的模型指标、所述隐私信息整合分析单元的模型指标及所述大数据隐私防护单元的模型指标；所述对所述大数据隐私处理AI网络的网络指标进行迭代优化，包括：

基于基于每个所述隐私行为大数据样本获得的参考最终用户行为大数据与所述预先获得的原始行为大数据的数据相似度，分别对所述行为大数据解析单元的模型指标、所述隐私数据解析单元的模型指标、所述隐私信息整合分析单元的模型指标及所述大数据隐私防护单元的模型指标进行迭代优化。

另一方面，本发明实施例还提供一种基于人工智能的大数据隐私安全防护系统，包括处理器和机器可读存储介质，所述机器可读存储介质和所述处理器连接，所述机器可读存储介质用于存储程序、指令或代码，所述处理器用于执行所述机器可读存储介质中的程序、指令或代码，以实现上述的方法。

本发明实施例具有下述有益效果：

本发明实施例提供的基于人工智能的大数据隐私安全防护方法及系统，通过将待防护数据语义拆分为多个大数据语义分片，不同的大数据语义分片包括待防护用户行为大数据的相关数据信息，基于待防护用户行为大数据的语义拆分，待防护用户行为大数据的相关数据信息也通过语义拆分得到不同的语义表示，如此，通过不同的大数据语义分片可以更加全面清除的表达待防护用户行为大数据的相关数据信息，最后通过大数据隐私处理AI网络获得各个大数据语义分片的隐私属性信息，并将各隐私属性信息进行整合，得到的全局隐私属性信息可实现对待防护用户行为大数据中隐私数据进行更全面的表示，进而可有效的实现针对待防护用户行为大数据中的隐私数据的隐私安全防护处理。如此，即便外部数据厂商或平台在对本申请实施例得到的用户行为大数据进行相关数据挖掘或者进行后续应用时，也可实现针对用户隐私数据的有效防护。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，针对本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明实施例提供的用于执行基于人工智能的大数据隐私安全防护方法的大数据隐私安全防护系统的架构示意图。

图2是本发明实施例提供的基于人工智能的大数据隐私安全防护方法的流程示意图。

图3是图2中步骤S33的子步骤流程示意图。

图4是图2中步骤S32的一种可替代实施方式的子步骤流程示意图。

图5是本发明虚拟装置实施例提供的隐私安全防护装置的功能模块示意图。

具体实施方式

实施例1：硬件环境

首先对本申请实施例的硬件环境进行说明，如图1所示，是本发明实施例提供的用于执行基于人工智能的大数据隐私安全防护方法的大数据隐私安全防护系统100的架构示意图。本实施例中，所述大数据隐私安全防护系统100可以是，但不限于，但不限于，具有通信控制能力及大数据分析能力的计算机设备、服务器、计算机设备、云服务中心、机房控制中心、云平台等设备。优选地，本实施例以所述大数据隐私安全防护系统100为服务器为例，该服务器可以是一个单独立的服务器，也可以是由多个服务器构成的服务器集群、数据中心、云端服务平台、分布式数据存储中心、云服务器、远程服务器等，本实施例具体不进行限制。

优选地，如图1所示，所述大数据隐私安全防护系统100可以包括机器可读介质10、处理器20、总线30和隐私安全防护装置40。本实施例中，所述机器可读介质10、处理器20和总线30彼此之间可以直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件互相之间可以通过一条或多条所述总线30实现电性连接。所述机器可读介质10可以是各种可能的存储器，例如，本实施例优选为一种非易失性的机器可读存储介质。所述机器可读介质10用于存储各种类型的程序、指令或可执行代码，例如所述隐私安全防护装置40所包括的各种软件功能模块对应的软件程序部分。其中，所述隐私安全防护装置40可以包括至少一个以软件或固件（firmware）的形式储存于所述机器可读介质10中的程序功能模块、软件功能模块或逻辑模块，所述处理器20通过运行存储在机器可读介质10内的软件程序以及模块，例如本申请实施例中的隐私安全防护装置40中的软件程序以及模块，从而实现所述大数据隐私安全防护系统100的各种功能应用以及数据处理，例如实现本申请实施例提供的相关方法。

其中，所述机器可读介质10可以是，但不限于，随机存取存储器（Random AccessMemory，RAM），只读存储器（Read Only Memory，ROM），可编程只读存储器（ProgrammableRead-Only Memory，PROM），可擦除只读存储器（Erasable Programmable Read-OnlyMemory，EPROM），电可擦除只读存储器（Electric Erasable Programmable Read-OnlyMemory，EEPROM）等。所述处理器20可能是一种具有数据处理能力的芯片，例如可以是，但不限于，通用处理器，包括中央处理器 (Central Processing Unit，CPU)、多核心处理器、网络处理器 (Network Processor，NP)等，用于执行本申请实施例中的方法所包括的步骤、方法及逻辑程序等。

实施例2：方法流程

在上述硬件架构的基础上，请参阅图2，图2是本发明实施例提供的基于人工智能的大数据隐私安全防护方法的流程示意图。本实施例中，所述方法由上述的大数据隐私安全防护系统执行，下面进行详细介绍。

步骤S31，获取目标应用场景下基于设定时间周期内进用户行为挖掘而得到的用户行为大数据，作为待防护用户行为大数据。

本实施例中，所述目标应用场景可以是任意一种可基于用户对所提供的相关网络服务的使用过程而生成用户行为数据的场景，例如可以是，但不限于，可提供在线购物、订购飞机票和火车票、网络社交、在线互动、在线医疗、在线教育等各种各样的数字化线上服务的应用场景。所述用户行为大数据可以是针对某一个或多个目标用户在所述目标应用场景下针对不同的行为事项而产生的不同的用户行为数据的一个汇总（例如可以是数据集合或者数据序列等）。举例而言，所述行为事项例如可以是，但不限于针对上述各场景下的各种服务事项的具体操作，例如完成订单、服务分享、互动沟通等，本实施例对此不具体进行限定。

步骤S32，对所述待防护用户行为大数据进行数据语义拆分，得到多个大数据语义分片。

本实施例中，不同的数据语义可能代表不同的行为事项或者不同的行为事项下产生的行为数据的语义描述，基于此，可根据不同的语义信息实现对所述用户行为大数据的数据语义拆分。一个大数据语义分片可能对应于一个行为事项的行为数据、也可能对应于行为事项下的不同的具有一定逻辑语义的行为数据分段，本实施例对此不进行限定。

其中，各大数据语义分片可分别具备不同的行为数据描述信息，本实施例可对待防护用户行为大数据进行数据语义拆分，得到具有不同行为数据描述信息的多个大数据语义分片。

步骤S33，通过预先训练得到的大数据隐私处理AI网络对各所述大数据语义分片进行隐私数据解析，并根据隐私数据解析结果对所述待防护用户行为大数据进行隐私数据防护处理，得到大数据隐私防护处理后的最终用户行为大数据。

本实施例中，所述预先训练得到的大数据隐私处理AI网络可以包括行为大数据解析单元、隐私数据解析单元、隐私信息整合分析单元、以及大数据隐私防护单元。

如此，针对步骤S33，如图3所示，步骤S33可以示例性的包括以下内容，详细介绍如下。

步骤S331，通过大数据隐私处理AI网络的行为大数据解析单元，对所述待防护用户行为大数据进行数据解析，得到所述待防护用户行为大数据的行为大数据描述信息。

步骤S332，通过所述大数据隐私处理AI网络的隐私数据解析单元，分别对各所述大数据语义分片进行隐私数据解析，得到相应的隐私属性信息。

在本实施例中，在一种可能的实现方案中，所述隐私数据解析单元包可括多个数据解析函数，例如，可以包括X个数据解析函数，相应地，所述大数据语义分片包括X个分片，所述X为大于或等于2的自然数。基于此，所述通过所述大数据隐私处理AI网络的隐私数据解析单元，分别对各所述大数据语义分片进行隐私数据解析，得到相应的隐私属性信息，包括：

步骤S333，通过所述大数据隐私处理AI网络的隐私信息整合分析单元，对各所述大数据语义分片的隐私属性信息进行整合分析，得到全局隐私属性信息。

其中，本实施例中，所述全局隐私属性信息可以是指一种从数据整体上针对各所述大数据语义分片的隐私属性进行表达的一种全局概括性的属性信息，且可以包括至少一个用于对相应的大数据语义分片对应的隐私属性进行表达的隐私属性标签，例如敏感、机密、私密等隐私类型分别对应的属性标签。

其中，所述整合分析的方式例如可以包括基于在不同的大数据语义分片产生的不同阶段进行阶段整合的分析方法、基于语义特征的整合方法。以基于语义特征的整合方法为例，可以利用人工智能模型对从不同大数据语义分片提取语义特征进行特征表示，然后将特征表示输入到另一个AI模型进行特征分类及预测等处理。示例性地，根据语义的不同将数据进行整合，例如可以包括，但不限于基于相似性的方法、基于概率依赖的方法、基于迁移学习的方法等，本实施例对此具体不进行限定。

示例性地，本实施例中，可以将所有的大数据语义分片的隐私属性信息进行整合分析，将各个大数据语义分片对应的隐私属性信息整合为一个全局隐私属性信息。可以理解，全局隐私属性信息可以包括各大数据语义分片的隐私数据相关信息。具体地，可以通过大数据隐私处理AI网络的隐私信息整合分析单元对各隐私属性信息进行隐私属性识别，然后基于所有隐私属性信息整合概括得到全局隐私属性信息。

在一种可能的实现方案中，所述隐私属性信息可以包括隐私类型标签和属性数据，所述对各所述大数据语义分片的隐私属性信息进行整合分析，得到全局隐私属性信息，可以包括：

首先，分别对各所述大数据语义分片的隐私属性信息进行隐私类型映射，得到对应各所述隐私属性信息的目标隐私属性信息；其中，各所述目标隐私属性信息的隐私类型标签相同；然后，对各所述目标隐私属性信息的属性数据进行整合分析，得到整合属性数据；最后，将所述目标隐私属性信息的隐私类型标签与所述整合属性数据进行数据组合，得到所述全局隐私属性信息。

其中，本实施例中，隐私属性信息的数据描述维度与对应的大数据语义分片一致，也具备隐私类型标签和属性数据，且隐私属性信息的隐私类型标签与对应的大数据语义分片的隐私类型标签一致。例如，若大数据语义分片的隐私类型标签为Label-i，那么对该大数据语义分片进行隐私数据解析之后得到的隐私属性信息的隐私类型标签也为label-i。而隐私属性信息的相关信息则对应为大数据语义分片中的隐私数据所对应的相关信息。

作为一种示例，假设所述大数据语义分片的数量为Y，相应的，所述隐私属性信息的数量也为Y。基于此，所述对各所述大数据语义分片的隐私属性信息进行整合分析，得到全局隐私属性信息，包括：

首先，将Y个所述隐私属性信息中第n个隐私属性信息与第n+1个隐私属性信息进行整合，得到第n全局隐私属性信息；其中，Y为大于或等于3的自然数，n为自然数，且n大于等于1且小于等于Y-1；其中，n的初始取值为1；其次，将所述第n全局隐私属性信息与第n+2个隐私属性信息进行整合，得到第n+1全局隐私属性信息；然后，当n+2等于Y时，将所述第n+1全局隐私属性信息作为所述全局隐私属性信息。

步骤S334，通过所述大数据隐私处理AI网络的大数据隐私防护单元，基于所述全局隐私属性信息及所述行为大数据描述信息，对所述待防护用户行为大数据进行隐私数据防护处理，得到大数据隐私防护处理后的最终用户行为大数据。

例如，具体可以通过数据脱敏，隐私数据遮挡，隐私字段加密等各种不同的方式实现所述待防护用户行为大数据进行隐私数据防护处理，具体不进行限定。

在另一种可能的实例中，可首先通过所述大数据隐私处理AI网络的大数据隐私防护单元，确定所述行为大数据描述信息与所述全局隐私属性信息之间的信息映射关系；然后，通过所述大数据隐私处理AI网络的大数据隐私防护单元，基于所述信息映射关系对所述用户行为大数据的各组成部分进行关系编码处理，得到所述进行大数据隐私防护处理后的最终用户行为大数据。

作为一种示例，可通过大数据隐私处理AI网络的大数据隐私防护单元将待防护用户行为大数据的行为大数据描述信息与全局隐私属性信息按照设定映射规则进行映射，得到二者的信息映射关系，接着，通过大数据隐私处理AI网络的大数据隐私防护单元基对所述用户行为大数据的各组成部分进行关系编码处理，得到所述进行大数据隐私防护处理后的最终用户行为大数据，进而实现对待防护用户行为大数据的隐私数据防护处理。

基于上述内容，本发明实施例提供的基于人工智能的大数据隐私安全防护方法，通过将待防护数据语义拆分为多个大数据语义分片，不同的大数据语义分片包括待防护用户行为大数据的相关数据信息，基于待防护用户行为大数据的语义拆分，待防护用户行为大数据的相关数据信息也通过语义拆分得到不同的语义表示，如此，通过不同的大数据语义分片可以更加全面清除的表达待防护用户行为大数据的相关数据信息，最后通过大数据隐私处理AI网络获得各个大数据语义分片的隐私属性信息，并将各隐私属性信息进行整合，得到的全局隐私属性信息可实现对待防护用户行为大数据中隐私数据进行更全面的表示，进而可有效的实现针对待防护用户行为大数据中的隐私数据的隐私安全防护处理，得到大数据隐私防护处理后的最终用户行为大数据。如此，即便外部数据厂商或平台在对本申请实施例得到的用户行为大数据进行相关数据挖掘或者进行后续应用时，也可实现针对用户隐私数据的有效防护。

针对上述各步骤的一些具体的内容，下面通过示例的方式进行阐述。

针对上述的步骤S32，在第一种可能的实现方式中，可以通过下述的方法具体实现。

首先，对待防护用户行为大数据进行多模态数据语义拆分，以生成对应所述待防护用户行为大数据的第一语义分片序列。其中，所述多模态数据语义拆分具体可以是根据用户行为大数据中不同的行为数据所对应的多模态语义之间的差别进行拆分，例如针对不同操作事项、不同的操作行为等分别对应的语义模态进行数据拆分，具体可视实际场景中产生的数据的实际状况而定，本实施例对此不进行限定。

然后，将所述第一语义分片序列中各序列位置对应的用户行为大数据作为所述大数据语义分片。

此外，考虑到语义拆分后各独立的大数据语义分片的信息表达可能存在确实，在第二种可能的实施方式中，上述步骤S32还可以通过下述的方式具体实现。

首先，对待防护用户行为大数据进行多模态数据语义拆分，以生成对应所述待防护用户行为大数据的第一语义分片序列；

然后，基于所述对应所述待防护用户行为大数据的第一语义分片序列，生成对应所述待防护用户行为大数据的第二语义分片序列，所述第二语义分片序列中的语义分片数量小于所述第一语义分片序列中的语义分片数量；

其次，分别将所述第一语义分片序列中各序列位置对应的用户行为大数据与所述第二语义分片序列中相应序列位置对应的用户行为大数据进行拼接，得到多个拼接行为大数据，每个所述拼接行为大数据作为一个所述大数据语义分片。

如此，将每一个拼接行为大数据作为大数据语义分片，以将大数据语义分片输入至大数据隐私处理AI网络中对待防护用户行为大数据进行隐私数据防护处理，通过这种方式将待防护数据语义拆分为包含第一语义分片数量的第一语义分片序列以及包含第二语义分片数量（小于第一语义分片数量）的的第二语义分片序列，然后将第一语义分片序列和第二语义分片序列进行组合，将组合后的拼接行为大数据作为大数据语义分片，使得基于大数据语义分片进行用户行为大数据处理时能够同时考虑到待防护用户行为大数据中的细粒度数据分片以及粗粒度数据分片，通过细粒度数据分片以及粗粒度数据分片进行隐私数据的综合分析，从而能够有效的分析得到用户行为大数据中需进行大数据隐私防护处理的隐私数据部分。

进一步地，为了考虑到拆分后的大数据语义分片也能携带相应的数据隐私属性，方便后续的大数据隐私防护处理进行有效的隐私防护，在第三种可能的实施方式中，上述步骤S32还可以通过下述的方式具体实现。

其次，基于所述对应所述待防护用户行为大数据的第一语义分片序列，生成对应所述待防护用户行为大数据的第二语义分片序列；

然后，分别对所述第一语义分片序列中各序列位置对应的用户行为大数据进行隐私属性识别处理，得到相应的数据隐私属性；

最后，分别将所述第一语义分片序列中各序列位置对应的用户行为大数据、所述第二语义分片序列中相应序列位置对应的用户行为大数据、以及与所述第二语义分片序列中相应序列位置对应的用户行为大数据的语义关联的数据隐私属性进行拼接，得到多个所述大数据语义分片。

如此，通过所述第一语义分片序列中各序列位置对应的用户行为大数据、所述第二语义分片序列中相应序列位置对应的用户行为大数据、以及与所述第二语义分片序列中相应序列位置对应的用户行为大数据的语义关联的数据隐私属性的结合可得到具有更多维度的语义分片数据，基于此在后续在隐私处理AI网络能够更有效的进行隐私数据安全防护处理得到的最终用户行为大数据的隐私防护效果更好。

进一步地，为了使得语义拆分后得到的大数据语义分片能够进行准确有效的语义表达，本发明实施例还可以基于人工智能模型实现上述步骤S32的方法。作为一种示例，如图4所示，具体可以包括下述的步骤S321-S324的内容，详细介绍如下。

步骤S321，获取目标用户在所述设定时间周期内产生的所述用户行为大数据对应的的不同行为事项，所述用户行为大数据包括多个行为数据。

步骤S322，分别将所述各个行为数据输入预设的语义识别模型中，通过所述预设的语义识别模型中的基于操作行为的语义卷积层对所述各个行为数据进行语义卷积处理，得到所述各个行为数据分别对应的语义相关性。

步骤S323，根据所述各个行为数据对应的语义相关性，以及所述各个行为数据的语义行为描述，对所述各个行为数据进行数据整理，得到各语义行为描述分别对应的行为数据序列。

示例性地，本实施例中，所述语义识别模型还可以包括数据聚类整理层，基于此，步骤S323中，可以分别将所述各个行为数据，以及所述各个行为数据对应的语义相关性输入所述预设的语义识别模型中的数据聚类整理层，基于所述数据聚类整理层对所述各个行为数据进行数据分类和数据整理，得到所述行为数据序列。

例如，所述数据聚类整理层可以根据所述各个行为数据对应的语义相关性，以及所述各个行为数据的语义行为描述，对所述各个行为数据进行分类，得到至少两个行为数据分类序列；然后对各个行为数据分类序列进行数据整理，并分别对所述各个行为数据分类序列中的各个行为数据进行数据整理，得到所述行为数据序列。

可替代地，本实施例中，所述数据聚类整理层可分别根据所述各个行为数据对应的语义相关性，对所述各个行为数据的语义行为描述进行数据融合，得到所述各个行为数据的关键语义描述；然后，根据所述各个行为数据的关键语义描述对所述各个行为数据进行分类，得到至少两个行为数据分类序列。

可替代地，本实施例中，所述数据聚类整理层还可以根据各个行为数据分类序列所包含的行为数据的统计结果（例如行为数据的数量、类型等），对所述各个行为数据分类序列进行数据整理；然后，对于每个所述行为数据分类序列，根据所述行为数据分类序列中各个行为数据的语义行为描述与所述行为数据分类序列的相关性量化指标，对所述行为数据分类序列中的各个行为数据进行数据整理；最后，基于各所述行为数据分类序列相互之间的数据整理结果，以及所述各个行为数据分类序列中各个行为数据的数据整理结果，得到所述行为数据序列。

步骤S324，基于各语义行为描述分别对应的所述行为数据序列得到针对各所述行为事项的语义分片数据集，所述语义分片数据集包括至少两个大数据语义分片。

示例性地，本实施例中，所述语义识别模型还可以进一步包括语义分片特征连接层，步骤是324中，可以将所述行为数据序列对应的各行为数据描述信息输入所述预设的语义识别模型中的语义分片特征连接层，对所述行为数据序列对应的各行为数据描述信息进行关键语义卷积处理，得到所述语义分片数据集。

其中，所述预设的语义识别模型是根据预先采集的行为大数据训练样本进行网络训练而得到。作为一种可独立于本方法实施例的另一种实施例示例，所述网络训练的过程可以描述如下。

实施例3，针对大数据隐私处理AI网络的网络训练过程

A、对具有隐私数据的隐私行为大数据样本进行数据语义拆分，得到多个语义数据分片样本。其中，所述隐私行为大数据样本为对预先获得的原始行为大数据进行隐私数据植入得到。示例性地，所述原始行为大数据可以是标定的已经经过隐私安全防护处理之后的行为大数据。

例如，本实施例中，所述隐私数据可以包括标定隐私数据和干扰隐私数据中的其中至少一种。其中，所述标定隐私数据可以是事前进行标定的已确认为隐私数据的相关数据，而干扰隐私数据可以包括已确定为隐私数据的标定隐私数据以及已确定为非隐私数据的具有干扰性质的相关数据。

所述对具有隐私数据的隐私行为大数据样本进行数据语义拆分之前，所述方法还包括：

对所述预先获得的原始行为大数据植入标定隐私数据，得到具有标定隐私数据的标定隐私行为大数据样本，将所述标定隐私行为大数据样本作为所述隐私行为大数据样本；或者

对所述预先获得的原始行为大数据植入干扰隐私数据，得到具有干扰隐私数据的干扰隐私行为大数据样本，将所述干扰隐私行为大数据样本作为所述隐私行为大数据样本；或者

对所述预先获得的原始行为大数据分别植入标定隐私数据和干扰隐私数据，得到同时具有标定隐私数据和干扰隐私数据的融合隐私行为大数据样本，将所述融合隐私行为大数据样本作为所述隐私行为大数据样本。

B、通过所述大数据隐私处理AI网络的行为大数据解析单元，对所述隐私行为大数据样本进行数据解析，得到所述隐私行为大数据样本的预测行为大数据描述信息。

C、通过所述大数据隐私处理AI网络的隐私数据解析单元，分别对各所述语义数据分片样本进行隐私数据解析，得到相应的预测隐私属性信息。

D、通过所述大数据隐私处理AI网络的隐私信息整合分析单元，对各所述语义数据分片样本对应的预测隐私属性信息进行整合分析，得到预测全局隐私属性信息。

E、通过所述大数据隐私处理AI网络的大数据隐私防护单元，基于所述预测全局隐私属性信息及所述预测行为大数据描述信息，对所述隐私行为大数据样本进行隐私数据防护处理，得到相应的参考最终用户行为大数据。

F、基于所述参考最终用户行为大数据与所述预先获得的原始行为大数据的数据相似度，对所述大数据隐私处理AI网络的网络指标进行迭代优化，直到优化后的网络指标满足预设的训练收敛条件。

其中，本实施例中，所述大数据隐私处理AI网络的网络指标可以包括所述行为大数据解析单元的模型指标、所述隐私数据解析单元的模型指标、所述隐私信息整合分析单元的模型指标及所述大数据隐私防护单元的模型指标，基于此，对所述大数据隐私处理AI网络的网络指标进行迭代优化包括：

基于每个所述隐私行为大数据样本获得的所述参考最终用户行为大数据与所述预先获得的原始行为大数据的数据相似度，分别对所述行为大数据解析单元的模型指标、所述隐私数据解析单元的模型指标、所述隐私信息整合分析单元的模型指标及所述大数据隐私防护单元的模型指标进行迭代优化。

本实施例中，所述预先获得的原始行为大数据可以对应多个隐私行为大数据样本，各所述隐私行为大数据样本均为对所述预先获得的原始行为大数据进行隐私数据植入得到。基于此，本实施例的网络训练过程还可以可以分别针对各所述隐私行为大数据样本，执行上述A-E的过程，得到各所述隐私行为大数据样本对应的参考最终用户行为大数据。相应的，所述基于所述参考最终用户行为大数据与所述预先获得的原始行为大数据的数据相似度，对所述大数据隐私处理AI网络的网络指标进行迭代训练，直到满足预设的训练收敛条件，包括：

基于各所述参考最终用户行为大数据与所述预先获得的原始行为大数据的数据相似度，对所述大数据隐私处理AI网络的网络指标进行迭代训练，直到满足预设的训练收敛条件。

实施例4：关于虚拟装置

如图5所示，是图2中的隐私安全防护装置40所包括的功能模块示意图。在一些其他可能的实施方式中，所述隐私安全防护装置40可以包括一个或多个存储于所述机器可读介质10中的软件功能模块，本实施例对此不进行限定。

优选地，在本实施例中，所述隐私安全防护装置40可以包括数据获取模块41、语义拆分模块42、以及隐私安全防护模块43。

数据获取模块41，用于获取目标应用场景下基于设定时间周期内进用户行为挖掘而得到的用户行为大数据，作为待防护用户行为大数据。

语义拆分模块42，用于对所述待防护用户行为大数据进行数据语义拆分，得到多个大数据语义分片。

隐私安全防护模块43，用于通过预先训练得到的大数据隐私处理AI网络对各所述大数据语义分片进行隐私数据解析，并根据隐私数据解析结果对所述待防护用户行为大数据进行隐私数据防护处理，得到大数据隐私防护处理后的最终用户行为大数据。

本实施例中，所述大数据隐私处理AI网络可以包括行为大数据解析单元、隐私数据解析单元、隐私信息整合分析单元、以及大数据隐私防护单元。

其中，所述隐私安全防护模块43具体可以执行以下步骤通过预先训练得到的大数据隐私处理AI网络对各所述大数据语义分片进行隐私数据解析，并根据隐私数据解析结果对所述待防护用户行为大数据进行隐私数据防护处理，得到大数据隐私防护处理后的最终用户行为大数据：

除上述内容之外，可以理解，上述数据获取模块41、语义拆分模块42、以及隐私安全防护模块43可分别对应于执行上述实施例1中的步骤S31-S33，关于这些功能模块的更详细的内容可以参考上述对应步骤的具体内容，此处不再赘述。

综上所述，本发明实施例提供的基于人工智能的大数据隐私安全防护方法及系统，通过将待防护数据语义拆分为多个大数据语义分片，不同的大数据语义分片包括待防护用户行为大数据的相关数据信息，基于待防护用户行为大数据的语义拆分，待防护用户行为大数据的相关数据信息也通过语义拆分得到不同的语义表示，如此，通过不同的大数据语义分片可以更加全面清除的表达待防护用户行为大数据的相关数据信息，最后通过大数据隐私处理AI网络获得各个大数据语义分片的隐私属性信息，并将各隐私属性信息进行整合，得到的全局隐私属性信息可实现对待防护用户行为大数据中隐私数据进行更全面的表示，进而可有效的实现针对待防护用户行为大数据中的隐私数据的隐私安全防护处理。如此，即便外部数据厂商或平台在对本申请实施例得到的用户行为大数据进行相关数据挖掘或者进行后续应用时，也可实现针对用户隐私数据的有效防护。

以上所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。通常在附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，在附图中提供的本发明的实施例的详细描述并非旨在限制本发明的保护范围，而仅仅是表示本发明的选定实施例。因此，本发明的保护范围应以权利要求的保护范围为准。此外，基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下可获得的所有其它实施例，都应属于本发明保护的范围。

Claims

1.一种基于人工智能的大数据隐私安全防护方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述大数据隐私处理AI网络包括行为大数据解析单元、隐私数据解析单元、隐私信息整合分析单元、以及大数据隐私防护单元；

3.根据权利要求2所述的方法，其特征在于，所述通过所述大数据隐私处理AI网络的大数据隐私防护单元，基于所述全局隐私属性信息及所述行为大数据描述信息，对所述待防护用户行为大数据进行隐私数据防护处理，得到大数据隐私防护处理后的最终用户行为大数据，包括：

4.根据权利要求2所述的方法，其特征在于，所述隐私数据解析单元包括分别与多个所述大数据语义分片对应的多个数据解析函数；所述通过所述大数据隐私处理AI网络的隐私数据解析单元，分别对各所述大数据语义分片进行隐私数据解析，得到相应的隐私属性信息，包括：

5.根据权利要求2所述的方法，其特征在于，所述隐私属性信息包括隐私类型标签和属性数据，所述对各所述大数据语义分片的隐私属性信息进行整合分析，得到全局隐私属性信息，包括：

将Y个所述隐私属性信息中第n个隐私属性信息与第n+1个隐私属性信息进行整合，得到第n全局隐私属性信息；其中，Y大于等于3，n大于等于1且小于等于Y-1；

6.根据权利要求2所述的方法，其特征在于，所述对待防护用户行为大数据进行数据语义拆分，得到多个大数据语义分片，包括：

7.根据权利要求2所述的方法，其特征在于，所述对待防护用户行为大数据进行数据语义拆分，得到多个大数据语义分片，包括：

8.根据权利要求2-7任意一项所述的方法，其特征在于，所述方法还包括对所述大数据隐私处理AI网络进行模型训练的步骤，具体包括：

9.根据权利要求8所述的方法，其特征在于，所述预先获得的原始行为大数据对应多个隐私行为大数据样本，各所述隐私行为大数据样本均为对所述预先获得的原始行为大数据进行不同的隐私数据植入得到；

10.一种基于人工智能的大数据隐私安全防护系统，其特征在于，包括处理器和机器可读存储介质，所述机器可读存储介质和所述处理器连接，所述机器可读存储介质用于存储程序、指令或代码，所述处理器用于执行所述机器可读存储介质中的程序、指令或代码，以实现权利要求1-9任意一项所述的方法。