CN115840965A

CN115840965A - 一种信息安全保障模型训练方法和系统

Info

Publication number: CN115840965A
Application number: CN202211678971.2A
Authority: CN
Inventors: 严可达; 徐成; 蔡志飞; 许大为; 梁婵
Original assignee: Optical Valley Technology Co ltd
Current assignee: Optical Valley Technology Co ltd
Priority date: 2022-12-27
Filing date: 2022-12-27
Publication date: 2023-03-24
Anticipated expiration: 2042-12-27
Also published as: CN115840965B

Abstract

本公开涉及数据安全技术领域，提供了一种信息安全保障模型训练方法和系统，其中，模型训练方法包括：第一网关模块获取终端的发送的第一训练参数，第一网关模块利用网关特征样本对初始模型进行训练，得到第二训练参数，并将第一训练参数与第二训练参数进行聚合，将局部聚合训练参数上传至云端，第一网关模块接收云端下发的全局聚合模型参数，基于全局聚合模型参数对局部聚合训练参数进行更新，汇聚后的模型参数能够综合体现各个终端的对于敏感数据的定义，还可以体现出各个网关设备上可能存在敏感数据数据泄露的次敏感数据的信息，使得各个终端能够更为准确的检测哪些数据可能存在敏感信息的泄露。

Description

一种信息安全保障模型训练方法和系统

技术领域

本公开涉及数据安全技术领域，尤其涉及一种信息安全保障模型训练方法和系统。

背景技术

智慧城市的建设模型主要由感知层、网络层、平台层和应用层4个层级构成。感知层主要侧重于信息的感知和监测，通过全面覆盖的感知网络透明、全面地获取各类信息；网络层由覆盖整个城市范围的互联网、通信网、广电网和物联网融合构成，实现各类信息的广泛、安全传递；平台层由各类应用支撑公共平台和数据中心构成，实现信息的有效、科学处理；应用层则涵盖智慧政务、智慧城管、智慧教育、智慧家居、智慧小区、智慧医疗、智慧园区、智慧商业等各个领域的综合、融合应用。这些应用与城市发展水平、生活质量、区域竞争力紧密相关，并推动城市可持续发展。

智慧城市以物联网、云计算、大数据、移动互联网等新一代信息技术来推动实体基础设施和信息基础设施相融合，通过信息化促进城市发展转型和管理方式的转变，在建设过程中，因其开放、互联、协同、创新的特征，每个环节都面临严峻的安全问题。

信息和数据是促进智慧城市发展的核心推动力，信息公开和共享成为了智慧城市发展的必要条件，然而大数据环境下隐私数据和公共数据模糊混杂在云端，难以界定，“公共数据开放”与“个人隐私保护”之间存在着一定的冲突，而相关技术中，对于敏感数据往往致力于感知层上传数据时对敏感数据脱敏处理，以及云计算中对于敏感数据的加密，然而，智慧城市中云计算、移动互联网、物联网、大数据等新一代信息与通信技术在智慧城市中的广泛应用，使智慧城市从孤立向全面的互联互通、数据共享以及物理世界发展，这些特性决定了智慧城市信息安全的重点将不再仅仅对传统的数据中心保护，而是涉及到多层次多范围的系统性工程，这给安全带来了新的挑战和新的风险点。如智慧城市中的感知层敏感数据的泄露，网络层的恶意行为攻击、云计算式引入了不可控的第三方，应用层的大数据分析同样加大了个人隐私信息泄露的风险等。

因此，对于敏感数据的威胁来自于智慧城市系统的方方面面，如何较为全面的保障敏感数据的安全成为亟待解决的技术问题。

发明内容

有鉴于此，本公开实施例提供了一种信息安全保障模型训练方法和系统，以解决现有技术中如何较为全面的保障敏感数据的安全的技术问题。

本公开实施例的第一方面，提供了一种信息安全保障模型训练方法，应用于信息安全保障系统，信息安全保障系统包括云端、第一网关模块和与第一网关模块通信的多个终端，训练方法适用于第一网关模块，训练方法包括：第一网关模块获取终端的发送的第一训练参数，第一训练参数为终端利用终端本地敏感数据样本对初始模型进行训练得到的敏感数据识别模型的模型参数，初始模型为终端、第一网关模块或云端中的任意一个建立；第一网关模块利用网关特征样本对初始模型进行训练，得到第二训练参数，并将第一训练参数与第二训练参数进行聚合，得到局部聚合训练参数，并将局部聚合训练参数上传至云端，以在云端聚合得到全局聚合模型参数，其中，网关训练样本包括获取与终端本地敏感数据关联的次敏感数据的恶意网络行为特征样本；第一网关模块接收云端下发的全局聚合模型参数，基于全局聚合模型参数对局部聚合训练参数进行更新，得到局部聚合模型，并将全局聚合模型参数下发至终端，对第一训练参数进行更新。

可选地，第一网关模块利用网关特征样本对初始模型进行训练包括：基于网络行为分析确定各个网络行为获取的次敏感数据，次敏感数据为与终端敏感数据的关联度超过预设关联度，且数量超过预设数量的数据；基于大数据分析构建次敏感数据之间的非逻辑性关联；将指向终端的隐私信息的非逻辑性关联的次敏感数据和对应的网络行为作为网关特征样本对初始模型进行多轮次训练，得到初始局部聚合模型，初始局部聚合模型用于检测次敏感数据和后续通过第一网关模块的报文流是否具有恶意收集与终端本地敏感数据关联的次敏感数据的网络行为。

可选地，网关特征样本还包括其他第一网关模块共享的恶意行为特征样本。

可选地，网关特征样本还包括对终端本地敏感数据脱敏后得到脱敏数据样本。

可选地，第一网关模块还用于将局部聚合训练参数和/或更新后的局部聚合训练参数下发至终端，以使终端基于局部聚合训练参数和/或更新后的局部聚合训练参数对第一训练参数进行更新。

可选地，在终端内利用终端本地敏感数据样本对初始模型进行训练，得到训练后的敏感数据检测模型，敏感数据识别模型具有第一训练参数，并将第一训练参数上传至第一网关模块和云端；终端还用于接收全局聚合模型参数和/或局部聚合训练参数，并基于全局聚合模型参数和/或局部聚合训练参数对第一训练参数进行更新。

可选地，在终端内利用终端本地敏感数据样本对初始模型进行训练包括：对终端本体敏感数据进行敏感度度量，确定终端本体敏感数据的敏感度；基于敏感度选择本地敏感数据样本；利用选择的本地敏感数据样本对初始模型进行多轮次训练，得到敏感数据检测模型，敏感数据检测模型用于识别终端上传的数据中的敏感数据。

可选地，在云端聚合第一训练参数和局部聚合训练参数，得到全局聚合模型参数，将全局聚合模型参数分别下发至第一网关模块和终端，以分别对局部聚合训练参数和第一训练参数进行更新。

可选地，还包括：第二网关模块利用应用层的数据抓取行为特征样本对初始模型进行训练，得到第三训练参数，并将第三训练参数上传至云端，以使云端对聚合第一训练参数、局部聚合训练参数和第三训练参数，得到全局聚合模型参数，其中第二网关模块为应用层与云端之间的网关设备。

根据第二方面，本申请实施例还提供了一种信息安全保障系统，包括：云端、多个第一网关模块和与第一网关模块通信的多个终端，其中，云端具有利用上述第一方面任意一项模型训练方法得到的全局聚合模型，第一网关模块具有利用上述第一方面任意一项模型训练方法得到的局部聚合模型，终端具有利用上述第一方面任意一项模型训练方法得到的敏感数据检测模型。

本公开实施例与现有技术相比存在的有益效果是：云端连接有第一网关模块可以包括多个网关设备，每一网关设备可以连接有多个终端，通过云端下发的初始模型，在各个终端以终端本体敏感数据样本进行训练，得到敏感数据检测模型，在各个网关设备以获取与终端本地敏感数据关联的次敏感数据的恶意网络行为特征样本进行训练，得到第二训练参数，并将第一训练参数进行聚合，再将聚合后的第一训练参数与第二训练参数进行二次聚合，之后在云端进行聚合得到全局聚合参数，并利用全局聚合参数分别对网关设备中的模型参数和终端中的模型参数进行更新，以使网关设备能够识别恶意网络行为，有助于终端设备不仅仅能够基于本地的敏感度定义识别敏感数据，还可以基于其他终端对敏感度定义识别敏感数据，以及还可以从网络攻击一方角度识别可能产生敏感数据泄露的次敏感数据，从而使得从终端至网关设备能够得出为防止敏感数据泄露对策。从而实现全面的保护敏感数据，使得不因终端对于敏感数据的敏感度定义的不同而导致的敏感数据无意识间泄漏，防止因次敏感数据上传而导致的敏感数据泄漏的问题。

而通过上述模型训练方法，由于各个终端上传的模型参数是不仅由其他终端使用各自拥有的样本训练得到，而且还包括了网关设备使用各自拥有的样本训练得到的，终端上传的参数模型分别可以提现各个终端上样本包含的信息，也可以包括各个网关设备上样本包含的信息(如各个网关设备自身传输的报文流的特征)，汇聚后的模型参数能够综合体现各个终端的对于敏感数据的定义，还可以体现出各个网关设备上可能存在敏感数据数据泄露的次敏感数据的信息，相当于各个终端借助于其他终端以及各个网关上的数据来训练各自的模型。使得能够在终端设备对于敏感数据定义不足的情况下，利用其他终端设备的敏感数据和网关设备中恶意网络行为感兴趣的次敏感数据对本地模型进行训练，使得各个终端能够更为准确的检测哪些数据可能存在敏感信息的泄露。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本公开实施例的信息安全保障系统示意图；

图2是本公开实施例提供的一种联邦学习框架示意图；

图3是本公开实施例提供的一种信息安全保障模型训练方法的流程示意图；

图4是本公开实施例提供的一种信息安全保障模型训练装置的结构示意图；

图5是本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本公开实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本公开的描述。

智慧城市信息安全保障系统旨在保护敏感数据不被泄露，不被挖掘和非法利用，通常，在感知层进行敏感数据脱敏，即终端，例如，个人终端、企业端、医院端、政府端等对涉及到个人隐私、企业秘密、大众隐私数据和公共安全数据进行加密。在智慧城市建设中，往往需要感知层上传大量数据。

感知层在上传数据时，往往针对不同的通信对象，上传的数据的脱敏程度不同，或定义的敏感数据不同。并且，感知层总的终端不同，对于敏感数据的敏感程度定义也不同，尤其是对于个人终端上传的数据，对于一些敏感度高的数据并没有完全脱敏。

在网络层可能存在恶意网络行为劫取敏感数据，尤其是对于终端自定义为敏感程度较低的次敏感数据，往往通过网络层的恶意网络行为进行截取，导致用户无意识的泄露敏感数据。

基于此，本申请提出了一种信息安全保障模型训练方法，适用于安全保障系统，以对敏感数据进行保护。参见图1，信息安全保障系统可以包括：云端101、第一网关模块102和与所述第一网关模块102通信的多个终端103，在本实施例中，基于联邦学习框架对模型进行联合训练，初始模型可以为终端、所述第一网关模块和所述云端中的任意一个建立，并下发至另外两方，在本实施例中，可以以云端作为联邦学习中心节点，建立初始模型，并将初始模型下发至第一网关模块和终端两方的参与方。

联邦学习也称联邦机器学习，联邦学习，联盟学习，联邦学习是一个机器学习框架，能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下，进行数据使用和机器学习建模，联邦学习可使用的机器学习算法不局限于神经网络，还包括随机森林等重要算法。联邦学习作为分布式的机器学习范式，可以有效解决数据孤岛问题，让参与方在不共享数据的基础上联合建模，能从技术上打破数据孤岛问题，实现共同AI协作。联邦迁移学习可以让联邦学习更加通用化,可以在不同数据结构、不同机构间发挥作用，没有领域和算法限制，同时具有模型质量无损、保护隐私、确保数据安全的优势。联邦学习定义的机器学习框架，在此框架下可以通过设计虚拟模型解决不同数据拥有方在不交换数据的情况下进行协作的问题。虚拟模型是各方将数据聚合在一起的最优模型，各自区域依据模型为本地目标服务。联邦学习要求此建模结果应当无限接近传统模式，即将多个数据拥有方的数据汇聚到一处进行建模的结果。在联邦机制下，各参与者的身份和地位相同，可建立共享数据策略。由于数据不发生转移，因此不会泄露用户隐私或影响数据规范。为了保护数据隐私、满足合法合规的要求。

示例性的，参见图2所示的联邦学习基本框架，在联邦学习过程中，基本模型可以通过服务器201建立，服务器201将该模型发送至与其建立通信连接的参与方202、参与方203和参与方204。基本模型还可以是任一参与方建立后上传至服务器201，服务器201将该模型发送至与其建立通信连接的其他参与方。参与方202、参与方203和参与方204根据下载的基本结构和模型参数构建模型，利用本地数据进行模型训练，获得更新的模型参数，并将更新的模型参数加密上传至服务器201。服务器201对参与方202、参与方203和参与方204发送的模型参数进行聚合，获得全局聚合模型参数，并将全局聚合模型参数传回至参与方202、参与方203和参与方204。参与方202、参与方203和参与方204根据接收的全局聚合模型参数对各自的模型进行迭代，直到模型最终收敛，从而实现对模型的训练。在联邦学习过程中，参与方202、参与方203和参与方204上传的数据为模型参数，本地数据并不会上传至服务器201，且所有参与方可以共享最终的模型参数，因此可以在保证数据隐私的基础上实现共同建模。需要说明的是，参与方的数量不限于如上的三个，而是可以根据需要进行设置，本公开实施例对此不作限制。

本实施例中，模型训练适用于第一网关模块102，训练方法参见图3所示：

S301.第一网关模块获取终端的发送的第一训练参数，所述第一训练参数为所述终端利用终端本地敏感数据样本对初始模型进行训练得到的敏感数据识别模型的模型参数。

作为示例性的实施例，在终端收到云端下发的初始模型后，利用本地的敏感数据样本对初始模型进行多轮次的训练，在每轮训练过程中，都需向第一网关模块和云端上传每轮的模型训练参数。其中，上述模型训练参数是指初始模型中的全局参数或者部分参数，比如，对于采用卷积神经网络算法的初始模型，初始模型算法可以为卷积神经网络中各个权重参数以及偏差参数等，也可以为卷积神经网络中部分权重参数。训练得到模型可以为能够检测敏感数据的敏感数据检测模型，该模型可以检测即将上传的数据中的敏感数据。

S302.第一网关模块利用网关特征样本对所述初始模型进行训练，得到第二训练参数，并将所述第一训练参数与所述第二训练参数进行聚合，得到局部聚合训练参数，并将局部聚合训练参数上传至云端，其中，所述网关训练样本包括收集与终端本地敏感数据关联的次敏感数据的恶意网络行为特征样本。在本实施例中，在终端上传数据时往往通过对敏感数据进行加密之后再上传，通常，被加密或脱敏的敏感数据难以被恶意网路行为所劫获，然而，在上传的数据中除了加密的敏感数据，往往还有大量的与敏感数据关联的在终端认为的非敏感数据，而这些与敏感数据相关的非敏感数据，往往通过一些非逻辑关联，例如非敏感数据的存储、汇集、关联会衍生成为敏感数据，也可能造成敏感数据的被恶意网络行为窃取。

示例性的，恶意网络行为在一个数据集中，窃取了名字和姓氏；另一个数据集中窃取了名字、姓氏和电子邮件地址；第三个数据集中可能窃取了有关喜好和兴趣的数据。虽然每个数据集中均为非敏感数据，例如，身份证、银行卡账号、密码等进行了脱敏或加密处理，但是随着上传的数据包的增加，用户画像会越来越清晰，如果能够将这些数据合并到一个数据库中，那么犯罪分子就等于掌握了一些可用于发动网络钓鱼攻击或获取信用报告的“筹码”。

另外，对于企业，例如，电子邮件地址可用于充实组织的等级结构。分析来自多起数据泄露事件的合并数据可能会揭示公司的电子邮件地址合集，显示公司的等级结构，以帮助攻击者确认该组织是否属于有利可图的攻击目标。刚开始，攻击者掌握的可能是一推名字，随后他们会通过合并数据弄清楚这些名字的职位头衔，并且构建企业组织的结构图。这些信息帮助他们能够与该组织的成员进行更具针对性的沟通，以实施更有效的社会工程攻击。因此，恶意的网络行为可能通过与终端本地敏感数据关联的次敏感数据作为窃取敏感数据的起点。

作为可选地实施例，对于网关特征样本的选取可以基于网络行为分析确定各个网络行为获取的次敏感数据，所述次敏感数据为与终端敏感数据的关联度超过预设关联度，且数量超过预设数量的数据；基于大数据分析构建所述次敏感数据之间的非逻辑性关联；将指向终端的隐私信息的非逻辑性关联的次敏感数据和对应的网络行为作为网关特征样本。

在本实施例中，在第一网关模块中，可以以获取与终端本地敏感数据关联的次敏感数据的恶意网络行为特征样本对初始模型进行训练。在本实施例中，可以对通过第一网关模块的报文流进行分类和统计，例如，主动监测网络活动及未知标记，将表征获取与终端本地敏感数据关联的次敏感数据的网络行为进行统计和标记。在频次达到预设频次或获取的次敏感数据的关联度超过预设关联度后则被定义为恶意网络行为，作为恶意网络行为样本，对初始模型进行训练。训练后的初始模型可用于检测次敏感数据和后续通过所述第一网关模块的报文流是否具有恶意收集与终端本地敏感数据关联的次敏感数据的网络行为。

示例性的，网关中的局部聚合模型应用在网关检测通过自身传输的报文流的场景。网关中的局部聚合模型例如为通过机器学习算法训练得到的AI模型。在一些实施例中，局部聚合模型为通过监督学习算法训练得到的AI模型。例如，局部聚合模型为卷积神经网络(convolutional neural networks，CNN)模型或者随机森林模型。在另一些实施例中，局部聚合模型为通过非监督学习算法训练得到的AI模型。例如，局部聚合模型为自编码器(auto encoder，AE)或者孤立森林模型。

局部聚合模型的输入参数包括报文流的元数据(metadata)。报文流的元数据包括报文流的源IP地址、目的IP地址、源端口号、目的端口号、HTTP统一资源定位器(UniformResource Locator，URL)、用户代理(user agent，UA)字符串、发生时间或者持续时间中的至少一项。例如，局部聚合模型为CNN模型，CNN模型的输入参数包括报文流中的HTTP元数据。HTTP元数据例如为报文流的HTTP URL以及user agent字符串。

局部聚合模型的输出结果用于指示报文流是否具有恶意的劫取次敏感数据的行为。在一些实施例中，局部聚合模型的输出结果包括报文流的类型。报文流的类型包括恶意报文流或者正常报文流。例如，当将报文流的元数据输入局部聚合模型后，如果局部聚合模型输出1，表示报文流是恶意报文流。当将报文流的元数据输入检测模型后，如果局部聚合模型输出0，表示报文流是正常报文流。在另一些实施例中，局部聚合模型的输出结果包括报文流是恶意报文流的风险值或者概率值。

风险值用于表示报文流与恶意劫取次敏感数据的行为的相关性。例如风险值越高，报文流的恶意劫取次敏感数据的行为风险越高；或者风险值越低，报文流的恶意劫取次敏感数据的行为风险越低。

概率值表示报文流是恶意劫取次敏感数据的行为的可能性。概率值越大，表示报文流是恶意是劫取次敏感数据的行为的可能性越大。

此外，局部聚合模型还具有超参数(hyper parameter)。局部聚合模型的超参数包括的局部聚合模型学习率以及检测模型的初始参数。

局部聚合模型的学习率用于控制局部聚合模型在相邻两次迭代之间模型参数的差值。学习率越小，损失函数的变化速度越慢，聚不聚和模型在相邻两次迭代之间模型参数的差值越大。

局部聚合模型的初始参数例如是局部聚合模型在模型训练之前具有的模型参数。例如，局部聚合模型是包括卷积核的CNN模型，初始参数为CNN模型中卷积核的初始权重。在模型训练的过程中，初始参数会随着训练的不断迭代而不断更新，从而逐渐逼近最优值。

作为另一种实施例，还可以对容易被关联分析的次敏感数据进行标记，将容易被关联分析的次敏感数据作为网关特征样本，例如，一些能够作为终端画像起点的“种子信息”，如，用户名、物理地址和电子邮件等信息。在第一网关中对初始模型进行训练时，可以将容易被关联分析的次敏感数据也作为网关特征样本，与恶意网络行为样本共同对初始模型进行训练，以是初始模型能检测出在网络侧的终端敏感数据泄露因素。

作为示例性的实施例，网关特征样本还包括对终端本地敏感数据脱敏后得到脱敏数据样本。在本实施例中，可以以容易被关联分析的次敏感数据、恶意网络行为和脱敏数据作为网关特征样本，以使第一网关模块中训练得到的识别模型能够准确的检测恶意网络行为。

在第一网关模块中对初始模型进行多轮次训练，并将训练的第二训练参数和与第一网关模块通信连接的多个终端的第一训练参数据聚合，得到局部聚合训练参数，可以建立针对智慧城市中一个网关组成的局部系统中的敏感数据和次敏感数据以及对应的恶意网络行为进行检测。

在第一网关中训练完成之后，将第一训练参数与所述第二训练参数进行聚合，得到局部聚合训练参数，并将局部聚合训练参数上传至云端，在云端接收到多个网关发送的局部聚合训练参数后，在所述云端聚合得到所述全局聚合模型参数。

S303.第一网关模块接收所述云端下发的所述全局聚合模型参数，并基于所述全局聚合模型参数对所述局部聚合训练参数进行更新，得到所述局部聚合模型，并将全局聚合模型参数下发至所述终端，对所述第一训练参数进行更新。

在本实施例中，云端连接有第一网关模块可以包括多个网关设备，每一网关设备可以连接有多个终端，通过云端下发的初始模型，在各个终端以终端本体敏感数据样本进行训练，得到敏感数据检测模型，在各个网关设备以获取与终端本地敏感数据关联的次敏感数据的恶意网络行为特征样本进行训练，得到第二训练参数，并将第一训练参数进行聚合，再将聚合后的第一训练参数与第二训练参数进行二次聚合，之后在云端进行聚合得到全局聚合参数，并利用全局聚合参数分别对网关设备中的模型参数和终端中的模型参数进行更新，以使网关设备能够识别恶意网络行为，有助于终端设备不仅仅能够基于本地的敏感度定义识别敏感数据，还可以基于其他终端对敏感度定义识别敏感数据，以及还可以从网络攻击一方角度识别可能产生敏感数据泄露的次敏感数据，从而使得从终端至网关设备能够得出为防止敏感数据泄露对策。从而实现全面的保护敏感数据，使得不因终端对于敏感数据的敏感度定义的不同而导致的敏感数据无意识间泄漏，防止因次敏感数据上传而导致的敏感数据泄漏的问题。

作为示例性的实施例，由于针对不同的终端群体具有不同的网关设备，其敏感数据也不同，敏感数据的价值也不同，因此攻击者可能会存在差别攻击，在本实施例中，可以将网关设备和与网关设备连接的终端组成一个局部联邦学习框架，利用网关设备中的局部聚合训练参数对第一训练参数更新，使得同属性终端设备的识别效率和准确度更高。具体的，第一网关模块还用于将局部聚合训练参数和/或更新后的局部聚合训练参数下发至所述终端，以使所述终端基于所述局部聚合训练参数和/或更新后的局部聚合训练参数对所述第一训练参数进行更新。

下面对在终端和云端对于模型的训练和模型参数聚合进行详细介绍。

在所述终端内利用终端本地敏感数据样本对初始模型进行训练，得到所述训练后的所述敏感数据检测模型，所述敏感数据检测模型具有所述第一训练参数，并将所述第一训练参数上传至所述第一网关模块和所述云端；所述终端还用于接收所述全局聚合模型参数和/或局部聚合训练参数，并基于全局聚合模型参数和/或局部聚合训练参数对所述第一训练参数进行更新。

作为示例性的实施例，在对于终端本地敏感数据样本的选取，可以先对终端本体敏感数据进行敏感度度量，确定所述终端本体敏感数据的敏感度；基于所述敏感度选择本地敏感数据样本；利用选择的本地敏感数据样本对所述初始模型进行多轮次训练，得到敏感数据检测模型，所述敏感数据检测模型用于识别终端上传的数据中的敏感数据。

在本实施例中，可以先对本地敏感数据的敏感度进行度量，示例性的，可以基于敏感数据处理流程和敏感数据出现点的上下文定义敏感信息处理的固有属性，可变属性，构建固有属性和可变属性向敏感数据操作语义的映射规则，利用层次分析法和折中型多属性决策进行敏感度计量。作为可选，还可以采用本地预设的识别规则或行业规则，对敏感数据进行识别或度量。还可以基于元数据的敏感词匹配；数据内容通过正则表达式识别，以及自然语言处理的语义识别等方式进行敏感度度量。选择本地终端所认为的敏感度较高的敏感数据作为训练样本。

在云端所述第一训练参数和所述局部聚合训练参数，得到全局聚合模型参数，将全局聚合模型参数分别下发至所述第一网关模块和所述终端，以分别对所述局部聚合训练参数和第一训练参数进行更新。

作为示例性的实施例，下面对模型训练的过程进行详细的介绍，以云端下发初始模型为例：

在初始化阶段，云端选择哪些网关设备和终端参与联邦学习。云端选中参与联邦学习的参与方后，云端会将初始模型的超参数(如学习率、初始权重)以本下发到选中的各个网关设备和网关设备对应的终端中，使得初始模型的超参数同步至参与联邦学习的各个网关设备和网关设备对应的终端。

在第1次迭代时，参与联邦学习的各个网关设备和终端会分别基于云端下发的超参数和本地的样本进行模型训练，得到第1次迭代的模型参数。终端会将各自得到的第1次迭代的第一训练参数上传网关设备和云端，在网关设备中会将网关设备中第1次迭代的模型参数与各个终端上传的第一训练参数进行局部聚合，得到局部聚合训练参数，网关设备将局部聚合参数上传云端，云端接收各个网关设备和终端上传的模型参数后，会对各个网关设备第1次迭代的局部聚合训练参数和各个终端第一迭代的模型参数进行汇聚，并将汇聚后的模型参数同步至各个网关设备和终端。

在第2次迭代时，参与联邦学习的各个网关设备和各个终端会分别基于服务器下发的汇聚后的模型参数和本地样本进行模型训练，得到第2次迭代的模型参数。终端会将各自得到的第2次迭代的第一训练参数上传网关设备和云端，在网关设备中会将网关设备中第2次迭代的模型参数与各个终端上传的第一训练参数进行局部聚合，得到局部聚合训练参数，网关设备将局部聚合参数上传云端，云端接收各个网关设备和终端上传的模型参数后，会对各个网关设备第2次迭代的局部聚合训练参数和各个终端第一迭代的模型参数进行汇聚，并将汇聚后的模型参数同步至各个网关设备和终端。

通过执行n次迭代过程后，当云端确定损失函数收敛或者模型的准确率达到准确率阈值时，云端会停止模型训练过程。此时，模型训练过程结束，各个网关设备和终端在本次迭代得到的模型参数为模型训练后的参数。

本实施例通过提供上述模型训练方法，由于每次迭代时，各个终端分别将模型参数上传给网关设备和云端，且各个网关设备分别将局部聚合训练参数上传至云端，云端对各个终端和各个网关设备上的模型参数进行汇聚，将汇聚后的模型参数下发给各个网关设备和终端，各个终端和各个网关设备在下一次迭代时使用汇聚后的模型参数进行模型训练，使得各个网关设备模型训练时使用的数据更优，从而提升了模型训练的效果。

下面，对达到提升模型训练这一技术效果的技术原理进行详细分析。

从数据的角度来看，如果采用本地学习的方式模型训练，模型训练只能单独使用一个终端或一个网关设备上的数据。由于模型训练使用的数据不足，会严重影响模型的效果。而通过上述模型训练方法，由于各个终端上传的模型参数是不仅由其他终端使用各自拥有的样本训练得到，而且还包括了网关设备使用各自拥有的样本训练得到的，终端上传的参数模型分别可以提现各个终端上样本包含的信息，也可以包括各个网关设备上样本包含的信息(如各个网关设备自身传输的报文流的特征)，汇聚后的模型参数能够综合体现各个终端的对于敏感数据的定义，还可以体现出各个网关设备上可能存在敏感数据数据泄露的次敏感数据的信息，相当于各个终端借助于其他终端以及各个网关上的数据来训练各自的模型。使得能够在终端设备对于敏感数据定义不足的情况下，利用其他终端设备的敏感数据和网关设备中恶意网络行为感兴趣的次敏感数据对本地模型进行训练，使得各个终端能够更为准确的检测哪些数据可能存在敏感信息的泄露。

作为可选的实施例，网关设备与网关设备对应的终端设备还可以组成一个局部联邦学习框架，网关设备汇聚对应的各个终端设备上传的第一训练参数，并结合自身训练得到的第二训练参数得到局部聚合训练参数，还可以利用局部聚合训练参数对第一训练参数进行更新。

作为一种可选地实施例，智慧城城市用还包括与终端上传的数据应用的应用层，在应用层和云端之间，还具有多个第二网关。在应用层通过数据的抓取，对数据进行应用，然而，一些非法者可能会利用大数据挖掘，将一些碎片化数据和非敏感数据进行非逻辑性关联，进行挖掘出敏感数据，这往往需要对同一终端或同一种类型的终端进行长期大量的非敏感数据的收集。

基于此，在本实施例中，第二网关模块利用应用层的数据抓取行为特征样本对所述初始模型进行训练，得到第三训练参数，并将第三训练参数上传至云端，以使云端对聚合所述第一训练参数、所述局部聚合训练参数和第三训练参数，得到全局聚合模型参数，其中第二网关模块为应用层与云端之间的网关设备。作为示例性的实施例，第二网关可以对应用层与云端之间的报文流进行分析，确定应用层的抓取行为特征。示例性的，可以对抓取信息的报文流的源IP地址、目的IP地址、发生时间或者持续时间等元数据作为特征样本。在本实施例中，对于长期在同一目的IP抓取具有预设关联的数据的报文流可以作为恶意报文流，对初始模型进行训练，从而使得第二网关对应用层的抓取行为进行检测。

在本实施例中，在对第二网关进行多轮次训练，将训练后的第三训练参数上传云端，云端将各个终端和各个第一网关模块上传的模型参数以及第三训练参数进行聚合。进而使得终端模型也具有了恶意抓取行为的识别能力，以及也具有了哪些碎片化数据和非敏数据是大数据挖掘敏感数据感应兴趣的数据，可以针对性的进行处理。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

本申请实施例还提供了一种信息安全保障系统，参见图1所示，可以包括：云端101、第一网关模块102和与所述第一网关模块102通信的多个终端103，基于联邦学习框架对模型进行联合训练，初始模型可以为终端、所述第一网关模块和所述云端中的任意一个建立，并下发至另外两方。云端具有利用上述实施例的模型训练方法得到的全局聚合模型，所述第一网关模块具有利用上述实施例的模型训练方法得到的局部聚合模型，所述终端具有利用上述实施例的所述模型训练方法得到的敏感数据检测模型。

云端连接有第一网关模块可以包括多个网关设备，每一网关设备可以连接有多个终端，通过云端下发的初始模型，在各个终端以终端本体敏感数据样本进行训练，得到敏感数据检测模型，在各个网关设备以获取与终端本地敏感数据关联的次敏感数据的恶意网络行为特征样本进行训练，得到第二训练参数，并将第一训练参数进行聚合，再将聚合后的第一训练参数与第二训练参数进行二次聚合，之后在云端进行聚合得到全局聚合参数，并利用全局聚合参数分别对网关设备中的模型参数和终端中的模型参数进行更新，以使网关设备能够识别恶意网络行为，有助于终端设备不仅仅能够基于本地的敏感度定义识别敏感数据，还可以基于其他终端对敏感度定义识别敏感数据，以及还可以从网络攻击一方角度识别可能产生敏感数据泄露的次敏感数据，从而使得从终端至网关设备能够得出为防止敏感数据泄露对策。

并且，由于各个终端上传的模型参数是不仅由其他终端使用各自拥有的样本训练得到，而且还包括了网关设备使用各自拥有的样本训练得到的，终端上传的参数模型分别可以提现各个终端上样本包含的信息，也可以包括各个网关设备上样本包含的信息(如各个网关设备自身传输的报文流的特征)，汇聚后的模型参数能够综合体现各个终端的对于敏感数据的定义，还可以体现出各个网关设备上可能存在敏感数据数据泄露的次敏感数据的信息，相当于各个终端借助于其他终端以及各个网关上的数据来训练各自的模型。使得能够在终端设备对于敏感数据定义不足的情况下，利用其他终端设备的敏感数据和网关设备中恶意网络行为感兴趣的次敏感数据对本地模型进行训练，使得各个终端能够更为准确的检测哪些数据可能存在敏感信息的泄露。

图4是本公开实施例提供的一种装置的示意图。如图4所示，该装置包括：

获取模块401，用于获取终端的发送的第一训练参数，所述第一训练参数为所述终端利用终端本地敏感数据样本对初始模型进行训练得到的敏感数据识别模型的模型参数，所述初始模型为所述终端、所述第一网关模块或所述云端中的任意一个建立；

局部聚合模块402，用于利用网关特征样本对所述初始模型进行训练，得到第二训练参数，并将所述第一训练参数与所述第二训练参数进行聚合，得到局部聚合训练参数，并将局部聚合训练参数上传至云端，以在所述云端聚合得到所述全局聚合模型参数，其中，所述网关训练样本包括获取与终端本地敏感数据关联的次敏感数据的恶意网络行为特征样本；

更新模块403，用于接收所述云端下发的所述全局聚合模型参数，并基于所述全局聚合模型参数对所述局部聚合训练参数进行更新，得到所述局部聚合模型，并将全局聚合模型参数下发至所述终端，对所述第一训练参数进行更新。

根据本公开实施例提供的技术方案，由于各个终端上传的模型参数是不仅由其他终端使用各自拥有的样本训练得到，而且还包括了网关设备使用各自拥有的样本训练得到的，终端上传的参数模型分别可以提现各个终端上样本包含的信息，也可以包括各个网关设备上样本包含的信息(如各个网关设备自身传输的报文流的特征)，汇聚后的模型参数能够综合体现各个终端的对于敏感数据的定义，还可以体现出各个网关设备上可能存在敏感数据数据泄露的次敏感数据的信息，相当于各个终端借助于其他终端以及各个网关上的数据来训练各自的模型。使得能够在终端设备对于敏感数据定义不足的情况下，利用其他终端设备的敏感数据和网关设备中恶意网络行为感兴趣的次敏感数据对本地模型进行训练，使得各个终端能够更为准确的检测哪些数据可能存在敏感信息的泄露。。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本公开实施例的实施过程构成任何限定。

图5是本公开实施例提供的电子设备5的示意图。如图5所示，该实施例的电子设备5包括：处理器501、存储器502以及存储在该存储器502中并且可在处理器501上运行的计算机程序503。处理器501执行计算机程序503时实现上述各个方法实施例中的步骤。或者，处理器501执行计算机程序503时实现上述各装置实施例中各模块/单元的功能。

示例性地，计算机程序503可以被分割成一个或多个模块/单元，一个或多个模块/单元被存储在存储器502中，并由处理器501执行，以完成本公开。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序503在电子设备5中的执行过程。

电子设备5可以是终端、网关或云端服务器等电子设备。电子设备5可以包括但不仅限于处理器501和存储器502。本领域技术人员可以理解，图5仅仅是电子设备5的示例，并不构成对电子设备5的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如，电子设备还可以包括输入输出设备、网络接入设备、总线等。

处理器501可以是中央处理单元(Central Processing Unit，CPU)，也可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器502可以是电子设备5的内部存储单元，例如，电子设备5的硬盘或内存。存储器502也可以是电子设备5的外部存储设备，例如，电子设备5上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器502还可以既包括电子设备5的内部存储单元也包括外部存储设备。存储器502用于存储计算机程序以及电子设备所需的其它程序和数据。存储器502还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本公开的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

在本公开所提供的实施例中，应该理解到，所揭露的装置/电子设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/电子设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本公开实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如，在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围，均应包含在本公开的保护范围之内。

Claims

1.一种信息安全保障模型训练方法，其特征在于，应用于信息安全保障系统，所述信息安全保障系统包括云端、第一网关模块和与所述第一网关模块通信的多个终端，所述训练方法适用于所述第一网关模块，所述训练方法包括：

所述第一网关模块获取终端的发送的第一训练参数，所述第一训练参数为所述终端利用终端本地敏感数据样本对初始模型进行训练得到的敏感数据识别模型的模型参数，所述初始模型为所述终端、所述第一网关模块或所述云端中的任意一个建立；

所述第一网关模块利用网关特征样本对所述初始模型进行训练，得到第二训练参数，并将所述第一训练参数与所述第二训练参数进行聚合，得到局部聚合训练参数，并将局部聚合训练参数上传至云端，以在所述云端聚合得到全局聚合模型的全局聚合模型参数，其中，所述网关训练样本包括获取与终端本地敏感数据关联的次敏感数据的恶意网络行为特征样本；

所述第一网关模块接收所述云端下发的所述全局聚合模型参数，基于所述全局聚合模型参数对所述局部聚合训练参数进行更新，得到所述局部聚合模型，并将全局聚合模型参数下发至所述终端，对所述第一训练参数进行更新。

2.如权利要求1所述的信息安全保障模型训练方法，其特征在于，所述第一网关模块利用网关特征样本对所述初始模型进行训练包括：

基于网络行为分析确定各个网络行为获取的次敏感数据，所述次敏感数据为与终端敏感数据的关联度超过预设关联度，且数量超过预设数量的数据；

基于大数据分析构建所述次敏感数据之间的非逻辑性关联；

将指向终端的隐私信息的非逻辑性关联的次敏感数据和对应的网络行为作为网关特征样本对所述初始模型进行多轮次训练，得到初始局部聚合模型，所述初始局部聚合模型用于检测次敏感数据和后续通过所述第一网关模块的报文流是否具有恶意收集与终端本地敏感数据关联的次敏感数据的网络行为。

3.如权利要求2所述的信息安全保障模型训练方法，其特征在于，所述网关特征样本还包括其他第一网关模块共享的恶意行为特征样本。

4.如权利要求2或3所述的信息安全保障模型训练方法，其特征在于，所述网关特征样本还包括对终端本地敏感数据脱敏后得到脱敏数据样本。

5.如权利要求1所述的信息安全保障模型训练方法，其特征在于，所述第一网关模块还用于将局部聚合训练参数和/或更新后的局部聚合训练参数下发至所述终端，以使所述终端基于所述局部聚合训练参数和/或更新后的局部聚合训练参数对所述第一训练参数进行更新。

6.如权利要求1所述的信息安全保障模型训练方法，其特征在于，

在所述终端内利用终端本地敏感数据样本对初始模型进行训练，得到所述训练后的所述敏感数据识别模型，所述敏感数据识别模型具有所述第一训练参数，并将所述第一训练参数上传至所述第一网关模块和所述云端；

所述终端还用于接收所述全局聚合模型参数和/或局部聚合训练参数，并基于全局聚合模型参数和/或局部聚合训练参数对所述第一训练参数进行更新。

7.如权利要求6所述的信息安全保障模型训练方法，其特征在于，在所述终端内利用终端本地敏感数据样本对初始模型进行训练包括：

对终端本体敏感数据进行敏感度度量，确定所述终端本体敏感数据的敏感度；

基于所述敏感度选择本地敏感数据样本；

利用选择的本地敏感数据样本对所述初始模型进行多轮次训练，得到敏感数据检测模型，所述敏感数据检测模型用于识别终端上传的数据中的敏感数据。

8.如权利要求1所述的信息安全保障模型训练方法，其特征在于，在所述云端聚合所述第一训练参数和所述局部聚合训练参数，得到全局聚合模型参数，将全局聚合模型参数分别下发至所述第一网关模块和所述终端，以分别对所述局部聚合训练参数和第一训练参数进行更新。

9.如权利要求1所述的信息安全保障模型训练方法，其特征在于，还包括：第二网关模块利用应用层的数据抓取行为特征样本对所述初始模型进行训练，得到第三训练参数，并将第三训练参数上传至云端，以使云端对聚合所述第一训练参数、所述局部聚合训练参数和第三训练参数，得到全局聚合模型参数，其中第二网关模块为应用层与云端之间的网关设备。

10.一种信息安全保障系统，其特征在于，包括：云端、多个第一网关模块和与所述第一网关模块通信的多个终端，其中，所述云端具有利用权利要求1-9任意一项所述模型训练方法得到的全局聚合模型，所述第一网关模块具有利用权利要求1-9任意一项所述模型训练方法得到的局部聚合模型，所述终端具有利用权利要求1-9任意一项所述模型训练方法得到的敏感数据识别模型。