CN114897177A - 数据建模方法、装置、电子设备及存储介质 - Google Patents
数据建模方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114897177A CN114897177A CN202210358372.6A CN202210358372A CN114897177A CN 114897177 A CN114897177 A CN 114897177A CN 202210358372 A CN202210358372 A CN 202210358372A CN 114897177 A CN114897177 A CN 114897177A
- Authority
- CN
- China
- Prior art keywords
- data
- model training
- model
- modeling
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 98
- 238000012549 training Methods 0.000 claims abstract description 203
- 230000002776 aggregation Effects 0.000 claims abstract description 73
- 238000004220 aggregation Methods 0.000 claims abstract description 73
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 62
- 230000008569 process Effects 0.000 claims abstract description 34
- 238000012795 verification Methods 0.000 claims abstract description 34
- 230000005540 biological transmission Effects 0.000 claims description 24
- 238000010276 construction Methods 0.000 claims description 7
- 230000004931 aggregating effect Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 15
- 238000010801 machine learning Methods 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000005259 measurement Methods 0.000 description 8
- 230000006399 behavior Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/04—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
- H04L63/0428—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/12—Applying verification of the received information
- H04L63/123—Applying verification of the received information received data contents, e.g. message integrity
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/1466—Active attacks involving interception, injection, modification, spoofing of data unit addresses, e.g. hijacking, packet injection or TCP sequence number attacks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Storage Device Security (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本公开提供了一种数据建模方法、装置、电子设备及存储介质,涉及机器学习技术领域。所述方法包括:在可信执行环境下,利用所述各参与方服务器的本地用户数据进行模型训练;在所述模型训练过程中,对模型训练数据和模型训练算法进行一致性验证;在验证一致性后,获得模型训练的模型参数;与聚合服务器构建安全传输层协议;根据所述安全传输层协议将所述模型参数传输至所述聚合服务器,以使所述聚合服务器根据所述模型参数进行联合建模。基于可信执行环境技术防范恶意节点攻击,对数据的可信和安全进行充分验证。同时实现多方原始数据不出域前提下的数据协作,能够充分发挥多方数据的优势和价值,大幅提升联合建模的准确度和精度。
Description
技术领域
本公开涉及机器学习领域,尤其涉及一种数据建模方法、装置、电子设备及存储介质。
背景技术
联邦学习(Federated Learning)是一种特殊的分布式机器学习,能够实现多个机构在满足用户隐私保护、数据安全和政府法规的要求下进行数据使用和机器学习建模,让参与方在不共享数据的基础上联合建模,可以避免参与方的敏感数据出域和解决数据孤岛问题。
但是目前的联邦学习缺乏硬件层面的可信度量能力,无法充分防止恶意节点的攻击和参数汇聚过程导致的隐私泄露,且无法对参与方的机器学习建模过程进行直接控制,会影响最终联合建模所聚合模型的准确率。
因此,如何实现更加安全高效,且适用于多个数据提供方的联合建模,是一个亟待解决的问题。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种数据建模方法、装置、电子设备及存储介质,至少在一定程度上克服由于相关技术的联合建模的准确性问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一个方面,提供一种数据建模方法,应用于各参与方服务器,包括:在可信执行环境下,利用所述各参与方服务器的本地用户数据进行模型训练;
在所述模型训练过程中,对模型训练数据和模型训练算法进行一致性验证;
在验证一致性后,获得模型训练的模型参数;
与聚合服务器构建安全传输层协议;
根据所述安全传输层协议将所述模型参数传输至所述聚合服务器,以使所述聚合服务器根据所述模型参数进行联合建模。
在本公开一个实施例中,所述在可信执行环境下,利用所述各参与方服务器的本地用户数据进行模型训练,包括:
获取所述聚合服务器的初始化模型参数,所述初始化模型参数为所述聚合服务器进行一致性校验后获得的具有可信度的联合建模模型参数;
初始化联合建模训练容器,并在可信执行环境下对初始化的联合建模训练容器进行一致性度量校验;
在所述初始化的联合建模训练容器中利用所述初始化模型参数和所述本地用户数据进行模型训练。
在本公开一个实施例中,所述在模型训练过程中,对模型训练数据和模型训练算法进行一致性验证步骤之前,包括:
基于可信执行环境,对所述模型训练数据和所述模型训练算法进行哈希计算,获取所述模型训练数据和所述模型训练算法对应的第一哈希度量值。
在本公开一个实施例中,所述在模型训练过程中,对模型训练数据和模型训练算法进行一致性验证步骤,包括:
在模型训练过程中,计算所述模型训练数据和所述模型训练算法的第二哈希度量值;
检验所述第一哈希度量值和所述第二哈希度量值的一致性。
根据本公开的另一个方面,提供一种数据建模方法,应用于聚合服务器,所述方法包括:
与各参与方服务器构建安全传输层协议;
根据所述安全传输层协议接收所述各参与方服务器发送的模型参数,其中,所述模型参数为所述各参与方服务器在可信执行环境下,利用本地用户数据进行模型训练,并在模型训练过程中,对模型训练数据和模型训练算法进行一致性验证后,获得模型训练对应的所述模型参数;
聚合所述各参与服务器对应的模型参数,进行联合建模;
输出联合建模的全局模型。
在本公开一个实施例中,所述方法还包括:
对联合建模模型参数进行初始化;
基于可信执行环境,对所述联合建模模型参数的算法进行一致性校验,获得具有可信度的初始化模型参数;
将所述初始化模型参数发送至所述各参与方服务器。
根据本公开的再一个方面,提供一种数据建模装置,应用于各参与方服务器,包括:
模型训练模块,用于在可信执行环境下,利用所述各参与方服务器的本地用户数据进行模型训练;
校验模块,用于在模型训练过程中,对模型训练的数据和模型训练算法进行一致性验证;
参数获取模块,用于在验证一致性后,获得模型训练的模型参数;
传输协议构建模块,用于与聚合服务器构建安全传输层协议;
传输模块,用于根据所述安全传输层协议将所述模型参数传输至所述聚合服务器,以使所述聚合服务器根据所述模型参数进行联合建模。
根据本公开的再一个方面,提供一种数据建模装置,应用于聚合服务器,包括:
传输协议构建模块,用于与各参与方服务器构建安全传输层协议;
发送模块,用于根据所述安全传输层协议接收所述各参与方服务器发送的模型参数,其中,所述模型参数为所述各参与方服务器在可信执行环境下,利用本地用户数据进行模型训练,并在模型训练过程中,对模型训练的数据和模型训练算法进行一致性验证后,获得模型训练对应的所述模型参数;
聚合模块,用于聚合所述各参与服务器对应的模型参数;
输出模块,用于输出联合建模的全局模型。
根据本公开的又一个方面,提供一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述数据建模方法。
根据本公开的又一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的数据建模方法。
本公开的实施例所提供的数据建模方法,各参与方服务器在可信执行环境下,利用各参与方服务器的本地用户数据进行模型训练,从而实现多参与方本地数据在不出域前提下的数据协作,能够充分发挥多方数据的优势和价值。在模型训练过程中,对模型训练数据和模型训练算法进行一致性验证,在验证一致性后,获得模型训练的模型参数。可以防范恶意节点攻击,对数据的可信和安全进行充分验证和保障。同时与聚合服务器构建安全传输层协议;根据所述安全传输层协议将所述模型参数传输至所述聚合服务器,进行加密连接实现联合建模时多方之间的模型参数的可信传输与汇聚,在保证数据隐私和安全的前提下,最终实现联合建模,大幅提升建模的安全性和准确度。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本公开一个实施例中一种数据建模方法流程图;
图2示出本公开一个实施例中一种数据建模系统结构图;
图3示出本公开另一个实施例中一种数据建模方法流程图;
图4示出本公开又一个实施例中一种数据建模方法流程图;
图5示出本公开再一个实施例中一种数据建模方法流程图;
图6示出本公开一个实施例中一种数据建模装置示意图;和
图7示出本公开另一个实施例中一种数据建模装置示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
本申请提供的方案,基于可信执行环境技术之上的多方联邦机器学习隐私计算方法,在保护各方隐私数据的同时,实现多个数据提供方的用户行为大数据联合建模,在保证数据隐私和安全的前提下,打通不同行业、不同公司之间数据的数据孤岛。为了便于理解,下面首先对本申请涉及到的几个名词进行解释。
可信执行环境(Trusted Execution Environment,TEE),通过软硬件方法在中央处理器中构建一个安全区域,保证其内部加载的程序和数据在机密性和完整性上得到保护。TEE基础原理:将系统的硬件和软件资源划分为两个执行环境——可信执行环境和普通执行环境。两个环境是安全隔离的,有独立的内部数据通路和计算所需存储空间。普通执行环境的应用程序无法访问TEE,即使在TEE内部,多个应用的运行也是相互独立的,不能无授权而互访。
联邦学习(Federated Learning)是一种新兴的人工智能基础技术,原本用于解决安卓手机终端用户在本地更新模型的问题,其目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。
本申请实施例提供的方案涉及联合数据建模等技术,具体通过如下实施例进行说明:
根据本公开的一个实施例,提供一种数据建模方法,应用于各参与方服务器,包括:
S101,在可信执行环境下,利用所述各参与方服务器的本地用户数据进行模型训练;
具体地,图2示出本实施例数据建模系统的结构示意图,其中各参与方服务器在图2中示出为,参与方服务器1标号为201、参与方服务器2 标号为202以及参与方服务器N标号为20N。本实施例中存在多个参与方服务器,参与方服务器的数量N根据实际需要进行联合建模的参与方的数量来确定。
各参与方服务器的本地用户数据为参与方服务器本地的用户行为数据,各参与方服务器在可信执行环境下,进行本地机器学习训练,从而实现多方本地参与方服务器基于局部数据的模型训练,实现多参与方本地数据在不出域前提下的数据协作,能够充分发挥多方数据的优势和价值,大幅提升建模的准确度和精度。
S102,在所述模型训练过程中,对模型训练数据和模型训练算法进行一致性验证;
具体地,模型训练数据是指数据挖掘过程中用于训练数据挖掘模型的数据。训练数据选择一般有以下要求:数据样本尽可能大、数据多样化,数据样本质量较高。模型训练算法是指各参与方服务器在本地模型训练时所用的算法。在各参与方服务器中进行模型训练,其中,由数据元提供方为其提供模型训练数据。算法提供方提供模型训练算法。
本步骤S102同样在可信执行环境下进行,各参与方服务器在可信执行环境下实现可信度量,对模型训练数据和模型训练算法进行一致性验证,可信执行环境可以将模型训练数据和模型训练算法隔离起来,使其不对普通操作系统可见,保护本地数据隐私性。在模型训练过程中判断此时的模型训练数据和模型训练算法,是否与数据提供方和算法提供方提供的是否一致,即判断数据是否与承诺的一致。从而在模型训练过程中,对本地的模型训练的可信度进行检验,进行相关数据、算法一致性度量验证,以确保本地模型训练的可信性。
S103,在验证一致性后,获得模型训练的模型参数;
若确定模型训练数据和模型训练算法在模型训练过程中具有一致性,即证明与其数据元提供方和算法提供方所提供的信息保持一致,则验证通过,证明模型训练的结果是可信的。同时在确定具有验证一致性后,获得的模型训练的模型参数也是可信的。通过一致性验证可以防范恶意节点攻击,对数据的可信和安全进行充分验证和保障。
S104,与聚合服务器构建安全传输层协议;
同时与聚合服务器构建安全传输层协议,构建各参与方服务器与聚合服务器之间端到端的加密通讯,本实施例提供的构建安全传输层协议是基于可信执行环境构建的。安全传输层协议(Transport Layer Security TLS),是一种安全协议,目的是为互联网通信提供安全及数据完整性保障。此外本实施例还可以选择其他基于可信执行环境的加密方式例如,基于芯片硬件的加解密算法,支持各类对称加密、非对称加密、国密算法、签名认证、MAC算法等,从而对数据做加解密处理,保护数据的安全性。
S105,根据所述安全传输层协议将所述模型参数传输至所述聚合服务器,以使所述聚合服务器根据所述模型参数进行联合建模。
图2示出,本实施例数据建模系统的结构示意图,其中包括聚合服务器210,通过聚合服务器210聚合标号为201的参与方服务器1、标号为 202的参与方服务器2以及标号为20N的参与方服务器N的模型参数,其中,聚合服务器210的数量为一个,参与方服务器的数量有多个。
参与方服务器1、参与方服务器2以及参与方服务器N,与聚合服务器组成分布式机器学习框架。
根据所述安全传输层协议将所述模型参数传输至所述聚合服务器,进行加密连接以使所述聚合服务器根据所述模型参数进行联合建模,从而实现联合建模时多方之间的模型参数的可信传输与汇聚,使得多个参与方的本地模型安全聚合,在保证数据隐私和安全的前提下,最终实现联合建模。
本实施例通过上述步骤,各参与方服务器在可信执行环境下,利用各参与方服务器的本地用户数据进行模型训练,从而实现多方本地参与方服务器基于局部数据的模型训练,实现多参与方本地数据在不出域前提下的数据协作,能够充分发挥多方数据的优势和价值,大幅提升建模的准确度和精度。在模型训练过程中,对模型训练数据和模型训练算法进行一致性验证,对本地的模型训练的可信度进行检验。在验证一致性后,获得模型训练的模型参数。可以防范恶意节点攻击,对数据的可信和安全进行充分验证和保障。同时与聚合服务器构建安全传输层协议;根据所述安全传输层协议将所述模型参数传输至所述聚合服务器,进行加密连接以使所述聚合服务器根据所述模型参数进行联合建模,实现联合建模时多方之间的模型参数的可信传输与汇聚,使得多个参与方的本地模型安全聚合,在保证数据隐私和安全的前提下,最终实现联合建模。
本实施例是基于可信执行环境结合联邦建模的手段,实现多个参与方服务器的用户行为大数据联合建模,在保证数据隐私和安全的前提下,打通不同行业、不同公司之间数据的数据孤岛。多方分布式模型训练解决本方敏感数据出域的问题;在达成了基于多方大数据提升模型准确率的目标同时,解决了因原始数据离开各个数据拥有方而产生的隐私信息泄露问题。
并且通过可信执行环境技术解决了联合建模模型参数共享汇聚处理的问题;基于可信执行环境技术,可以防范恶意节点攻击,对数据的可信和安全进行充分验证和保障。同时基于联邦学习技术实现多方原始数据不出域前提下的数据协作,能够充分发挥多方数据的优势和价值,大幅提升联合建模的准确度和精度。基于可信执行环境技术和联邦学习技术,进行了用户行为建模算法的改造和优化,实现了传统机器学习算法的适配,加强了本方法在各业务场景中的通用性。
本实施例提供的数据建模方法,解决不同公司之间数据互联互通困难的问题,打通公司之间的各个数据孤岛,促进对于数据的统一管理和安全流通。通过联合建模深度挖掘数据价值,充分激活企业数据资产,在医疗、治安、金融等领域的应用,进而提供数据智能化的产品和服务。
可选地,图3示出数据建模方法流程图,所述在可信执行环境下,利用所述各参与方服务器的本地用户数据进行模型训练,上述方法包括:
S301,获取所述聚合服务器的初始化模型参数,所述初始化模型参数为所述聚合服务器进行一致性校验后获得的具有可信度的联合建模模型参数;
具体地,在进行多方联合建模之前,各参与方服务器要从聚合服务器获取初始化模型参数,从而进行本地模型训练,可选的初始化方式包括:正态分布初始化、均分分布初始化等,选择合适的初始化方式。初始化对模型训练结果有很大的影响,使得不同段的数据特征依然保留着强烈的不同特点,防止数据过拟合。其中的初始化模型参数在聚合服务器端进行算法一致性度量校验,确保具有可信性。
S302,初始化联合建模训练容器,并在可信执行环境下对初始化的联合建模训练容器进行一致性校验;
具体地,各参与方服务器对联合建模训练容器进行初始化,联合建模训练容器是预先创建的,用于接收本地模型训练的所需要的所有数据的一个容器,为模型训练提供一个运行的环境。并且基于可信执行环境对初始化的联合建模训练容器进行一致性度量校验,以确保本地建模训练容器的可信性。
S303,在所述初始化的联合建模训练容器中利用所述初始化模型参数和所述本地用户数据进行模型训练。
各参与方服务器模型训练是利用初始化的联合建模训练容器以及从聚合服务器获取的初始化模型参数,然后利用本地用户数据进行模型的训练。
本实施例中各参与方服务器进行本地模型训练,采用初始化的联合建模训练容器以及从聚合服务器获取的初始化模型参数,然后利用本地用户数据进行模型的训练。通过本地模型训练后的结果,从而对聚合服务器端的联合建模模型参数进行更新或者替换。
此外,在使用数据时,不能判断在网络传输中数据有没有被恶意串改为了对数据完整性校验。采用S102,在所述模型训练过程中,对模型训练数据和模型训练算法进行一致性验证。
可选地,所述在模型训练过程中,对模型训练数据和模型训练算法进行一致性验证步骤之前,包括:
基于可信执行环境,对所述模型训练数据和所述模型训练算法进行哈希计算,获取所述模型训练数据和所述模型训练算法对应的第一哈希度量值。
在进行模型训练之前,对于每一个模型训练数据和模型训练算法通过哈希算法都对应着一个哈希度量值。此时的哈希度量值命名为第一哈希度量值。
可选地,所述在模型训练过程中,对模型训练数据和模型训练算法进行一致性验证步骤,包括:
在模型训练过程中,计算所述模型训练数据和所述模型训练算法的第二哈希度量值;
检验所述第一哈希度量值和所述第二哈希度量值的一致性。
在进行模型训练时,将模型训练数据和模型训练算法通过模型后输出的模型训练数据和模型训练算法都对应着一个哈希度量值。此时的哈希度量值命名为第二哈希度量值。
在模型训练过程中判断此时的模型训练数据和模型训练算法对应的第二哈希度量值,是否与数据提供方和算法提供方提供的第一哈希度量值是否一致,即判断数据是否与承诺的一致。从而在模型训练过程中,对本地的模型训练的可信度进行检验,进行相关数据、算法一致性度量验证,以确保本地模型训练的可信性。
本公开实施例还提供一种数据建模方法,应用于聚合服务器,如图4 所述方法包括:
S401,与各参与方服务器构建安全传输层协议;
具体地,对应于上述实施例的应用于各参与方服务器的数据建模方法,本实施例对应提供应用于聚合服务器的数据建模方法。聚合服务器与个参与方服务器基于双方的可信执行环境构建安全传输层协议。
S402,根据所述安全传输层协议接收所述各参与方服务器发送的模型参数,其中,所述模型参数为所述各参与方服务器在可信执行环境下,利用本地用户数据进行模型训练,并在模型训练过程中,对模型训练数据和模型训练算法进行一致性验证后,获得模型训练对应的所述模型参数;
其次,聚合服务器接收上述实施例中各参与方服务器本地训练获得的模型参数。
S403,聚合所述各参与服务器对应的模型参数,进行联合建模;
通过加密连接,实现数据传输与模型参数聚合的,实现多方本地模型安全聚合。
S404,输出联合建模的全局模型。
实现联合建模时多方之间的模型参数的可信传输与汇聚,使得多个参与方的本地模型安全聚合,在保证数据隐私和安全的前提下,最终实现联合建模。
本实施例在聚合服务器端实现与各参与方服务器的加密连接,在保证数据隐私和安全,在联合建模时将多个参与方服务器的模型参数进行可信传输与汇聚,实现本地模型安全聚合,最终实现联合建模。实现多参与方本地数据在不出域前提下的数据协作,能够充分发挥多方数据的优势和价值,大幅提升建模的准确度和精度。
根据上述实施例,可选的,如图5示出的数据建模方法,所述方法还包括:
S501,对联合建模模型参数进行初始化;
S502,基于可信执行环境,对所述联合建模模型参数的算法进行一致性校验,获得具有可信度的初始化模型参数;
S503,将所述初始化模型参数发送至所述各参与方服务器。
具体地,聚合服务器端提供联合建模模型参数,此时的联合建模模型参数是待更新或替换的模型参数,在各参与方服务器进行联合建模后生成的新的全局模型将会对此联合建模模型参数进行更新。聚合服务器度联合建模模型参数进行初始化后将初始化模型参数提供给各参与方服务器用于本地模型训练。
聚合服务器为各参与方服务器提供用于本地模型训练的初始化模型参数,并且在聚合服务器端对初始化模型参数进行算法一致性度量校验,确保其具有可信性。可选的一致性校验方法可为上述的通过哈希度量值进行一致性校验的方法。然后将初始化之后的模型参数发送给各参与方服务器,以使各参与方服务器利用初始化模型参数进行本地模型训练。
根据本公开的再一个方面,提供一种数据建模装置,应用于各参与方服务器,图6所示的数据建模装置示意图,数据建模装置600包括:
模型训练模块601,用于在可信执行环境下,利用所述各参与方服务器的本地用户数据进行模型训练;
校验模块602,用于在模型训练过程中,对模型训练的数据和模型训练算法进行一致性验证;
参数获取模块603,用于在验证一致性后,获得模型训练的模型参数;
传输协议构建模块604,用于与聚合服务器构建安全传输层协议;
传输模块605,用于根据所述安全传输层协议将所述模型参数传输至所述聚合服务器,以使所述聚合服务器根据所述模型参数进行联合建模。
利用模型训练模块601,各参与方服务器在可信执行环境下,利用各参与方服务器的本地用户数据进行模型训练,从而实现多方本地参与方服务器基于局部数据的模型训练,实现多参与方本地数据在不出域前提下的数据协作,能够充分发挥多方数据的优势和价值,大幅提升建模的准确度和精度。校验模块602在模型训练过程中,对模型训练数据和模型训练算法进行一致性验证,对本地的模型训练的可信度进行检验。参数获取模块 603在验证一致性后,获得模型训练的模型参数。可以防范恶意节点攻击,对数据的可信和安全进行充分验证和保障。同时传输协议构建模块604使得与聚合服务器构建安全传输层协议;传输模块605根据所述安全传输层协议将所述模型参数传输至所述聚合服务器,进行加密连接以使所述聚合服务器根据所述模型参数进行联合建模,实现联合建模时多方之间的模型参数的可信传输与汇聚,使得多个参与方的本地模型安全聚合,在保证数据隐私和安全的前提下,最终实现联合建模。
本实施例是基于可信执行环境结合联邦建模的手段,实现多个参与方服务器的用户行为大数据联合建模,在保证数据隐私和安全的前提下,打通不同行业、不同公司之间数据的数据孤岛。多方分布式模型训练解决本方敏感数据出域的问题;在达成了基于多方大数据提升模型准确率的目标同时,解决了因原始数据离开各个数据拥有方而产生的隐私信息泄露问题。通过可信执行环境技术解决了联合建模模型参数共享汇聚处理的问题;基于可信执行环境技术,可以防范恶意节点攻击,对数据的可信和安全进行充分验证和保障。同时基于联邦学习技术实现多方原始数据不出域前提下的数据协作,能够充分发挥多方数据的优势和价值,大幅提升联合建模的准确度和精度。基于可信执行环境技术和联邦学习技术,进行了用户行为建模算法的改造和优化,实现了传统机器学习算法的适配,加强了本方法在各业务场景中的通用性。
可选的,本实施例提供一种数据建模装置,应用于聚合服务器,如图 7示出的数据建模装置示意图,所述数据建模装置700包括:
传输协议构建模块,701,用于与各参与方服务器构建安全传输层协议;
发送模块702,用于根据所述安全传输层协议接收所述各参与方服务器发送的模型参数,其中,所述模型参数为所述各参与方服务器在可信执行环境下,利用本地用户数据进行模型训练,并在模型训练过程中,对模型训练数据和模型训练算法进行一致性验证后,获得模型训练对应的所述模型参数;
聚合模块703,用于聚合所述各参与服务器对应的模型参数;
输出模块704,用于输出联合建模的全局模型。
具体地,利用传输协议构建模块701与与各参与方服务器构建安全传输层协议,发送模块702接收各参与方服务器发送的模型参数,模型参数是通过上述实施例获取的,多个参与方服务器的用户行为大数据联合建模,在保证数据隐私和安全的前提下,打通不同行业、不同公司之间数据的数据孤岛。聚合模块703聚合所述各参与服务器对应的模型参数,输出模块 704,用于输出联合建模的全局模型。多方分布式模型训练解决本方敏感数据出域的问题;在达成了基于多方大数据提升模型准确率的目标同时,解决了因原始数据离开各个数据拥有方而产生的隐私信息泄露问题。
根据本公开实施例的又一个方面,提供一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述数据建模方法。
其中,所述存储器存储有程序代码,所述程序代码可以被所述处理器执行,使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理器可以执行如图1中所示的步骤。
存储器可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)和/或高速缓存存储单元,还可以进一步包括只读存储单元 (ROM)。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是 CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
在本公开的示例性实施例中,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的数据建模方法。
本实施例提供的计算机可读存储介质,存储有计算机程序,可以实现上述的数据建模方法,在此不再赘述。
具体地,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。
描述了根据本发明的实施方式的用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如 Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是 CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。
Claims (10)
1.一种数据建模方法,其特征在于,应用于各参与方服务器,所述方法包括:
在可信执行环境下,利用所述各参与方服务器的本地用户数据进行模型训练;
在所述模型训练过程中,对模型训练数据和模型训练算法进行一致性验证;
在验证一致性后,获得模型训练的模型参数;
与聚合服务器构建安全传输层协议;
根据所述安全传输层协议将所述模型参数传输至所述聚合服务器,以使所述聚合服务器根据所述模型参数进行联合建模。
2.根据权利要求1所述的数据建模方法,其特征在于,所述在可信执行环境下,利用所述各参与方服务器的本地用户数据进行模型训练,包括:
获取所述聚合服务器的初始化模型参数,所述初始化模型参数为所述聚合服务器进行一致性校验后获得的具有可信度的联合建模模型参数;
初始化联合建模训练容器,并在可信执行环境下对初始化的联合建模训练容器进行一致性校验;
在所述初始化的联合建模训练容器中利用所述初始化模型参数和所述本地用户数据进行模型训练。
3.根据权利要求1所述的数据建模方法,其特征在于,所述在模型训练过程中,对模型训练数据和模型训练算法进行一致性验证步骤之前,包括:
基于可信执行环境,对所述模型训练数据和所述模型训练算法进行哈希计算,获取所述模型训练数据和所述模型训练算法对应的第一哈希度量值。
4.根据权利要求3所述的数据建模方法,其特征在于,所述在模型训练过程中,对模型训练数据和模型训练算法进行一致性验证步骤,包括:
在模型训练过程中,计算所述模型训练数据和所述模型训练算法的第二哈希度量值;
检验所述第一哈希度量值和所述第二哈希度量值的一致性。
5.一种数据建模方法,其特征在于,应用于聚合服务器,所述方法包括:
与各参与方服务器构建安全传输层协议;
根据所述安全传输层协议接收所述各参与方服务器发送的模型参数,其中,所述模型参数为所述各参与方服务器在可信执行环境下,利用本地用户数据进行模型训练,并在模型训练过程中,对模型训练数据和模型训练算法进行一致性验证后,获得模型训练对应的所述模型参数;
聚合所述各参与服务器对应的模型参数,进行联合建模;
输出联合建模的全局模型。
6.根据权利要求5所述的数据建模方法,其特征在于,所述方法还包括:
对联合建模模型参数进行初始化;
基于可信执行环境,对所述联合建模模型参数的算法进行一致性校验,获得具有可信度的初始化模型参数;
将所述初始化模型参数发送至所述各参与方服务器。
7.一种数据建模装置,其特征在于,应用于各参与方服务器,包括:
模型训练模块,用于在可信执行环境下,利用所述各参与方服务器的本地用户数据进行模型训练;
校验模块,用于在模型训练过程中,对模型训练的数据和模型训练算法进行一致性验证;
参数获取模块,用于在验证一致性后,获得模型训练的模型参数;
传输协议构建模块,用于与聚合服务器构建安全传输层协议;
传输模块,用于根据所述安全传输层协议将所述模型参数传输至所述聚合服务器,以使所述聚合服务器根据所述模型参数进行联合建模。
8.一种数据建模装置,其特征在于,应用于聚合服务器,包括:
传输协议构建模块,用于与各参与方服务器构建安全传输层协议;
发送模块,用于根据所述安全传输层协议接收所述各参与方服务器发送的模型参数,其中,所述模型参数为所述各参与方服务器在可信执行环境下,利用本地用户数据进行模型训练,并在模型训练过程中,对模型训练数据和模型训练算法进行一致性验证后,获得模型训练对应的所述模型参数;
聚合模块,用于聚合所述各参与服务器对应的模型参数;
输出模块,用于输出联合建模的全局模型。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1~6中任意一项所述数据建模方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~6中任意一项所述的数据建模方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210358372.6A CN114897177B (zh) | 2022-04-06 | 2022-04-06 | 数据建模方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210358372.6A CN114897177B (zh) | 2022-04-06 | 2022-04-06 | 数据建模方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114897177A true CN114897177A (zh) | 2022-08-12 |
CN114897177B CN114897177B (zh) | 2024-07-23 |
Family
ID=82715097
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210358372.6A Active CN114897177B (zh) | 2022-04-06 | 2022-04-06 | 数据建模方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114897177B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116628682A (zh) * | 2023-07-24 | 2023-08-22 | 中电科大数据研究院有限公司 | 一种基于数据沙盒的数据契约式开放方法及相关设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111723404A (zh) * | 2020-08-21 | 2020-09-29 | 支付宝(杭州)信息技术有限公司 | 联合训练业务模型的方法及装置 |
CN112334917A (zh) * | 2018-12-31 | 2021-02-05 | 英特尔公司 | 对采用人工智能的系统进行防护 |
WO2021051629A1 (zh) * | 2019-09-20 | 2021-03-25 | 深圳前海微众银行股份有限公司 | 联邦学习隐私数据处理方法、设备、系统及存储介质 |
CN113157400A (zh) * | 2021-05-17 | 2021-07-23 | 北京冲量在线科技有限公司 | 基于x86计算芯片的多方非监督学习联合建模方法 |
CN113609508A (zh) * | 2021-08-24 | 2021-11-05 | 上海点融信息科技有限责任公司 | 一种基于区块链的联邦学习方法、装置、设备及存储介质 |
WO2021232754A1 (zh) * | 2020-05-22 | 2021-11-25 | 深圳前海微众银行股份有限公司 | 联邦学习建模方法、设备及计算机可读存储介质 |
CN113761513A (zh) * | 2020-06-28 | 2021-12-07 | 京东城市(北京)数字科技有限公司 | 数据处理方法、装置、设备及计算机可读存储介质 |
CN113761067A (zh) * | 2021-09-10 | 2021-12-07 | 北京冲量在线科技有限公司 | 基于区块链和可信执行环境的去中心化联合建模系统 |
CN113837761A (zh) * | 2021-11-26 | 2021-12-24 | 北京理工大学 | 一种基于区块链和可信执行环境的联邦学习方法及系统 |
-
2022
- 2022-04-06 CN CN202210358372.6A patent/CN114897177B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112334917A (zh) * | 2018-12-31 | 2021-02-05 | 英特尔公司 | 对采用人工智能的系统进行防护 |
WO2021051629A1 (zh) * | 2019-09-20 | 2021-03-25 | 深圳前海微众银行股份有限公司 | 联邦学习隐私数据处理方法、设备、系统及存储介质 |
WO2021232754A1 (zh) * | 2020-05-22 | 2021-11-25 | 深圳前海微众银行股份有限公司 | 联邦学习建模方法、设备及计算机可读存储介质 |
CN113761513A (zh) * | 2020-06-28 | 2021-12-07 | 京东城市(北京)数字科技有限公司 | 数据处理方法、装置、设备及计算机可读存储介质 |
CN111723404A (zh) * | 2020-08-21 | 2020-09-29 | 支付宝(杭州)信息技术有限公司 | 联合训练业务模型的方法及装置 |
CN113157400A (zh) * | 2021-05-17 | 2021-07-23 | 北京冲量在线科技有限公司 | 基于x86计算芯片的多方非监督学习联合建模方法 |
CN113609508A (zh) * | 2021-08-24 | 2021-11-05 | 上海点融信息科技有限责任公司 | 一种基于区块链的联邦学习方法、装置、设备及存储介质 |
CN113761067A (zh) * | 2021-09-10 | 2021-12-07 | 北京冲量在线科技有限公司 | 基于区块链和可信执行环境的去中心化联合建模系统 |
CN113837761A (zh) * | 2021-11-26 | 2021-12-24 | 北京理工大学 | 一种基于区块链和可信执行环境的联邦学习方法及系统 |
Non-Patent Citations (3)
Title |
---|
GUOWEN XU 等: "VerifyNet: Secure and Verifiable Federated Learning", 《IEEE TRANSACTIONS ON INFORMATION FORENSICS AND SECURITY》, vol. 15, 31 December 2020 (2020-12-31) * |
董业;侯炜;陈小军;曾帅;: "基于秘密分享和梯度选择的高效安全联邦学习", 计算机研究与发展, no. 10, 9 October 2020 (2020-10-09) * |
郭艳卿 等: "面向隐私安全的联邦决策树算法", 《计算机学报》, vol. 44, no. 10, 31 October 2021 (2021-10-31) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116628682A (zh) * | 2023-07-24 | 2023-08-22 | 中电科大数据研究院有限公司 | 一种基于数据沙盒的数据契约式开放方法及相关设备 |
CN116628682B (zh) * | 2023-07-24 | 2023-11-14 | 中电科大数据研究院有限公司 | 一种基于数据沙盒的数据契约式开放方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN114897177B (zh) | 2024-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chadwick et al. | A cloud-edge based data security architecture for sharing and analysing cyber threat information | |
CN108965230B (zh) | 一种安全通信方法、系统及终端设备 | |
CN111164948B (zh) | 使用区块链网络管理网络安全漏洞 | |
US11244054B2 (en) | Method and apparatus for trusted computing | |
CN112131316B (zh) | 应用于区块链系统的数据处理方法及装置 | |
CN111460453A (zh) | 机器学习训练方法、控制器、装置、服务器、终端和介质 | |
CN110708162B (zh) | 资源的获取方法、装置、计算机可读介质及电子设备 | |
CN110619222A (zh) | 基于区块链的授权处理方法、装置、系统及介质 | |
CN116671062A (zh) | 硬件安全模块的远程管理 | |
Asgari et al. | Identification of threats and security risk assessments for recursive Internet architecture | |
CN114372245A (zh) | 基于区块链的物联网终端认证方法、系统、设备及介质 | |
Huszti et al. | Scalable, password-based and threshold authentication for smart homes | |
Horne et al. | Introducing zero trust by design: Principles and practice beyond the zero trust hype | |
CN117061105A (zh) | 数据处理方法、装置、可读介质及电子设备 | |
Zhao et al. | Security analysis of SM2 key exchange protocol in TPM2. 0 | |
CN114897177B (zh) | 数据建模方法、装置、电子设备及存储介质 | |
Talib et al. | Towards new data access control technique based on multi agent system architecture for cloud computing | |
CN114329565A (zh) | 一种数据共享方法、装置及存储介质 | |
Lou et al. | Blockchain-based privacy-preserving data-sharing framework using proxy re-encryption scheme and interplanetary file system | |
Rani et al. | A block chain-based approach using proof of continuous work consensus algorithm to secure the educational records | |
CN116561820A (zh) | 可信数据处理方法及相关装置 | |
CN115859371A (zh) | 基于区块链的隐私计算方法、电子设备和存储介质 | |
CN112417403B (zh) | 一种基于GitLab API的系统自动化认证和授权处理方法 | |
Megala et al. | A Review on Blockchain-Based Device Authentication Schemes for IoT | |
Wang | Analyzing and Improving Security-Enhanced Communication Protocols |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |