CN113449318A - 一种数据分级模型训练方法、装置、数据分级方法、装置 - Google Patents
一种数据分级模型训练方法、装置、数据分级方法、装置 Download PDFInfo
- Publication number
- CN113449318A CN113449318A CN202110680359.8A CN202110680359A CN113449318A CN 113449318 A CN113449318 A CN 113449318A CN 202110680359 A CN202110680359 A CN 202110680359A CN 113449318 A CN113449318 A CN 113449318A
- Authority
- CN
- China
- Prior art keywords
- parameter value
- classification model
- data
- participating host
- data classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013145 classification model Methods 0.000 title claims abstract description 321
- 238000012549 training Methods 0.000 title claims abstract description 123
- 238000000034 method Methods 0.000 title claims abstract description 97
- 238000012545 processing Methods 0.000 claims abstract description 66
- 230000006870 function Effects 0.000 claims description 52
- 230000008569 process Effects 0.000 claims description 28
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000003860 storage Methods 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 20
- 238000011156 evaluation Methods 0.000 description 20
- 238000012790 confirmation Methods 0.000 description 12
- 238000004519 manufacturing process Methods 0.000 description 12
- 238000007726 management method Methods 0.000 description 11
- 238000010801 machine learning Methods 0.000 description 8
- 230000003993 interaction Effects 0.000 description 6
- 238000013461 design Methods 0.000 description 4
- 230000004083 survival effect Effects 0.000 description 4
- 238000009776 industrial production Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013475 authorization Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Data Mining & Analysis (AREA)
- Computer Hardware Design (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种数据分级模型训练方法、装置、数据分级方法、装置,包括:接收中心服务器下发的数据分级模型,并使用参与主机设备的本地数据对数据分级模型进行训练;在对数据分级模型训练完成后,基于随机数对数据分级模型的初始参数值进行混淆处理,得到第一参数值;将第一参数值发送至中心服务器;接收中心服务器发送的平均参数值,并根据平均参数值确定数据分级模型的最优参数值,从而得到目标数据分级模型。本发明参与主机设备不需要将数据发送给中心服务器,避免了参与主机设备的本地数据的流出,保护了数据隐私,并且参与主机设备对初始参数值进行混淆处理后发送给中心服务器处理,进一步保护了数据隐私,避免了数据隐私的泄露。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种数据分级模型训练方法、装置、数据分级方法、装置。
背景技术
随着大数据、人工智能的发展,互联网平台能够集数据、算法、算力于一体,对数据进行处理,但同时数据的隐私、安全问题也成为重大挑战。
目前为保护互联网数据安全,会将分散在各参与主机中的本地数据上传到数据中心汇集,数据中心对汇集的数据进行统一的ETL(Extract-Transform-Load,数据仓库技术)处理,将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中。然后数据中心构建机器学习模型,利用汇集处理后的数据训练机器学习模型,并将训练好的机器学习模型发送给各个参与主机,各个参与主机利用机器学习模型对本地数据区分安全等级,做到高安全等级数据强保护,低安全等级数据弱保护。
但是,目前机器学习模型训练的方案中,在涉密环境下将数据汇集到数据中心对机器学习模型进行训练,数据隐私容易泄露。
发明内容
本发明实施例提供一种数据分级模型训练方法、装置、数据分级方法、装置,以解决现有技术中在涉密环境下将数据汇集到数据中心对机器学习模型进行训练,数据隐私容易泄露的问题。
第一方面,本发明实施例提供了一种数据分级模型训练方法,应用于参与主机设备,该方法包括:
接收中心服务器下发的数据分级模型,并使用所述参与主机设备的本地数据对所述数据分级模型进行训练;
在对所述数据分级模型训练完成后,基于随机数对所述数据分级模型的初始参数值进行混淆处理,得到第一参数值;
将所述第一参数值发送至所述中心服务器,以供所述中心服务器根据所述第一参数值以及至少一个其它参与主机设备发送的第二参数值计算得到平均参数值;所述第二参数值是其它参与主机设备的初始参数值通过随机数混淆处理后得到的;
接收所述中心服务器发送的所述平均参数值,并根据所述平均参数值确定所述数据分级模型的最优参数值,从而得到目标数据分级模型。
第二方面,本发明实施例提供了一种数据分级方法,应用于参与主机设备,该方法包括:
将所述参与主机设备的本地数据输入目标分级模型,得到所述本地数据的安全等级;所述目标分级模型是通过本发明所提供的数据分级模型训练方法训练得到的。
第三方面,本发明实施例还提供了一种数据分级模型训练方法,应用于中心服务器,该方法包括:
将数据分级模型下发至参与主机设备,以供所述参与主机设备使用所述参与主机设备的本地数据对所述数据分级模型进行训练;
接收所述参与主机设备发送的参数值,所述参数值是所述参与主机设备基于随机数,对训练后的数据分级模型的初始参数值进行混淆处理得到的;
根据所有所述参数值,计算得到平均参数值;
将所述平均参数值发送给所述参与主机设备,以供所述参与主机设备根据所述平均参数值确定所述数据分级模型的最优参数值,从而得到目标数据分级模型。
第四方面,本发明实施例还提供了一种数据分级模型训练装置,应用于参与主机设备,该装置包括:
训练模块,用于接收中心服务器下发的数据分级模型,并使用所述参与主机设备的本地数据对所述数据分级模型进行训练;
第一混淆模块,用于在对所述数据分级模型训练完成后,基于随机数对所述数据分级模型的初始参数值进行混淆处理,得到第一参数值;
第一发送模块,用于将所述第一参数值发送至所述中心服务器,以供所述中心服务器根据所述第一参数值以及至少一个其它参与主机设备发送的第二参数值计算得到平均参数值;所述第二参数值是其它参与主机设备的初始参数值通过随机数混淆处理后得到的;
确定模块,用于接收所述中心服务器发送的所述平均参数值,并根据所述平均参数值确定所述数据分级模型的最优参数值,从而得到目标数据分级模型。
第五方面,本发明实施例还提供了一种数据分级装置,应用于参与主机设备,该装置包括:
分级模块,用于将所述参与主机设备的本地数据输入目标分级模型,得到所述本地数据的安全等级;所述目标分级模型是通过本发明所提供的数据分级模型训练方法训练得到的。
第六方面,本发明实施例还提供了一种数据分级模型训练装置,应用于中心服务器,该装置包括:
第三发送模块,用于将数据分级模型下发至参与主机设备,以供所述参与主机设备使用所述参与主机设备的本地数据对所述数据分级模型进行训练;
第二接收模块,用于接收所述参与主机设备发送的第一参数值以及至少一个其它参与主机设备发送的第二参数值,所述第一参数值是所述参与主机设备基于随机数,对训练后的数据分级模型的初始参数值进行混淆处理得到的;所述第二参数值是其它参与主机设备的初始参数值通过随机数混淆处理后得到的;
计算模块,用于根据所述第一参数值和所述第二参数值,计算得到平均参数值;
第四发送模块,用于将所述平均参数值发送给所述参与主机设备,以供所述参与主机设备根据所述平均参数值确定所述数据分级模型的最优参数值,从而得到目标数据分级模型。
在本发明实施例中,参与主机设备接收中心服务器下发的数据分级模型,并使用参与主机设备的本地数据对数据分级模型进行训练;在对数据分级模型训练完成后,基于随机数对数据分级模型的初始参数值进行混淆处理,得到第一参数值;将第一参数值发送至中心服务器,以供中心服务器根据第一参数值以及至少一个其它参与主机设备发送的第二参数值计算得到平均参数值;第二参数值是其它参与主机设备的初始参数值通过随机数混淆处理后得到的;接收中心服务器发送的平均参数值,并根据平均参数值确定数据分级模型的最优参数值,从而得到目标数据分级模型。本发明中心服务器将数据分级模型下发给参与主机设备,参与主机设备不需要将数据发送给中心服务器,而是直接在本地使用参与主机设备的本地数据对数据分级模型进行训练,避免了参与主机设备的本地数据的流出,保护了数据隐私,并且参与主机设备对初始参数值进行混淆处理,将混淆处理后得到的第一参数值发送给中心服务器处理,由于初始参数值已经被混淆,即便参与主机设备与中心服务器交互过程中第一参数值泄露,也无法从第一参数值得到初始参数值,进一步保护了数据隐私,避免了数据隐私的泄露。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
图1是本发明实施例提供的一种参与主机设备侧的数据分级模型训练方法的步骤流程图;
图2是本发明实施例提供的一种参与主机设备与中心服务器的组成图;
图3是本发明实施例提供的一种数据分级方法的步骤流程图;
图4是本发明实施例提供的一种中心服务器侧的数据分级模型训练方法的步骤流程图;
图5是本发明实施例提供的一种数据特征与安全等级的散点图;
图6是本发明实施例提供的一种数据分级模型训练方法的交互步骤流程图;
图7是本发明实施例提供的一种配对结果图;
图8是本发明实施例提供的一种情况下的随机数协商图;
图9是本发明实施例提供的另一种情况下的随机数协商图;
图10是本发明实施例提供的再一种情况下的随机数协商图;
图11是本发明实施例提供的一种损失函数图;
图12是本发明实施例提供的另一种损失函数图;
图13是本发明实施例提供的一种参与主机设备侧的数据分级模型训练装置的框图;
图14是本发明实施例提供的一种数据分级装置的框图;
图15是本发明实施例提供的一种中心服务器侧的数据分级模型训练装置的框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1是本发明实施例提供的一种参与主机设备侧的数据分级模型训练方法的步骤流程图,如图1所示,该方法可以包括:
步骤101、接收中心服务器下发的数据分级模型,并使用所述参与主机设备的本地数据对所述数据分级模型进行训练。
在企业运行生产过程中,会产生各种各样的数据,涉及不同的领域。但是这些数据有的需要保护,有的并不需要保护。例如,对于泄露会对企业或者个人产生一定损失的数据需要保护,但是对于一些公知的数据并不需要保护。因此,为了避免人力和物力资源的浪费,采用数据分级模型将数据分为不同的数据安全级别,进行不同程度的保护。
在本发明实施例中,多个参与主机设备与中心服务器建立通信连接,中心服务器对与其连接的参与主机设备进行管理,能够与参与主机设备进行信息交互,而参与主机设备是存储有重要数据的主机节点。
例如,参照图2,示出了本发明实施例提供的一种参与主机设备与中心服务器的组成图,参与主机设备A、参与主机设备B与参与主机设备C等多个参与主机设备与中心服务器建立有通信连接,在参与主机设备存储有重要的数据。
该步骤中,中心服务器可以主动下发数据分级模型参与主机设备,也可以是参与主机设备向中心服务器发送请求指令,中心服务器下发数据分级模型。参与主机设备接收中心服务器下发的需要训练的数据分级模型,使得参与主机设备在将其本身的本地数据作为训练样本对数据分级模型进行训练,以便可以使用训练后的数据分级模型对本地数据进行安全等级的划分,标识本地数据的安全等级。
例如,参照图2,参与主机设备A可以接收中心服务器发送的数据分级模型Y=B+∑Wi×Xi,其中Y为安全等级,B是系数,Xi是数据安全特征,Wi是各个特征的权重。参与主机设备A在接收到该数据分级模型后,使用本地数据对数据分级模型进行训练。参与主机设备B也可以接收中心服务器发送的数据分级模型Y=B+∑Wi×Xi,并利用参与主机设备B的本地数据对数据分级模型进行训练。
在本发明实施例中,参与主机设备可以不将本地数据发送给中心服务器汇总,直接在本地对数据分级模型进行训练,确保本地数据不会流出参与主机设备,从而保护了数据的隐私。
步骤102、在对所述数据分级模型训练完成后,基于随机数对所述数据分级模型的初始参数值进行混淆处理,得到第一参数值。
具体的,数据分级模型的训练可以采用如下模型训练方法进行训练,在对数据分级模型训练一次后,利用相应的损失函数计算数据分级模型的损失值,在损失值不满足设定的损失函数阈值的情况下利用损失值对数据分级模型的参数值进行调整并再次训练,在损失值满足损失函数阈值的情况下,完成对数据分级模型的训练。
例如,可以在参与主机设备预先设定损失函数L(W,B)=∑m n=1(yn-(B+Wi×Xi))2和损失函数阈值0.3,其中yn是将本地数据作为训练集,训练集中数据的安全等级,L(W,B)是损失值,通过损失函数计算数据分级模型的损失值,在损失值小于等于0.3的情况下,完成对数据分级模型的训练,停止本地化学习。
可以理解的,上述示例只是方便对本发明的理解所作的举例说明,并不构成对本发明的限制。
在本发明实施例中,对数据分级模型训练完成后,此时数据分级模型的参数值并不是最优的参数值,因此还可以通过中心服务器对数据分级模型的初始参数值作进一步的处理。
考虑到中心服务器对数据分级模型的初始参数值优化需要参与主机设备与中心服务器之间进行数据交互,依然可能泄露数据的隐私。因此通过随机数对数据分级模型的初始参数值进行混淆处理,得到混淆后的第一参数值。
其中,对初始参数值进行混淆处理是对初始参数值按照设定的方法进行计算,得到第一参数值,从而对初始参数值混淆,使得在不知道计算方法的前提下,无法根据混淆后的第一参数值反推得到初始参数值。
例如,可以通过设置在参与主机设备中的随机数生成器生成随机数,将初始参数值加上,或者减去随机数来对初始参数值进行混淆处理,得到混淆后的第一参数值。
步骤103、将所述第一参数值发送至所述中心服务器,以供所述中心服务器根据所述第一参数值以及至少一个其它参与主机设备发送的第二参数值计算得到平均参数值;所述第二参数值是其它参与主机设备的初始参数值通过随机数混淆处理后得到的。
在本发明实施例中,在对数据分级模型的初始参数值进行混淆处理,得到第一参数值后,可以将第一参数值发送至中心服务器以使得中心服务器对第一参数值进行优化。此时即使第一参数值被泄露,但是由于第一参数值是被混淆后的值,并不是真实的数据分级模型的初始参数值,因此根本无法反推得到初始参数值,从而保护了数据的隐私。
同时,由于在企业运行、工业生产过程中,会产生不同领域的重要数据,这些数据会存储在不同的参与主机设备中。例如,在工业生产过程中,涉及生产配方、质量控制、工艺标准、财务会计等多个领域的重要数据,这些数据存储在不同的参与主机设备中,每个参与主机设备在使用其本地数据对数据分级模型训练后所得到的初始参数值差别较大,因此每个参与主机设备在训练完数据分级模型训练后,将数据分级模型的初始参数值通过随机数混淆处理,并发送给中心服务器,使得中心服务器对接收到的第一参数值以及至少一个其它参与主机设备发送的第二参数值计算得到平均参数值,减少每个参与主机设备中数据分级模型的初始参数值差别,对初始参数值进行优化。
例如,参照图2,示出了本发明实施例提供的一种参与主机设备与中心服务器的组成图,参与主机设备A、参与主机设备B、参与主机设备C等多个参与主机设备可以在训练完数据分级模型训练后,将数据分级模型的初始参数值通过随机数混淆处理,并发送给中心服务器。
步骤104、接收所述中心服务器发送的所述平均参数值,并根据所述平均参数值确定所述数据分级模型的最优参数值,从而得到目标数据分级模型。
参与主机设备在接收到中心服务器计算并发送的平均参数值后,已经对初始参数值进行了优化,平均参数值就是优化后的参数值,可以依据平均参数值确定数据分级模型的最优参数值。
例如,可以将数据分级模型的初始参数值替换为平均参数值,通过损失函数计算替换后的数据分级模型的损失值,将替换后的数据分级模型的损失值,与替换前的数据分级模型,也就是以初始参数值为数据分级模型的模型参数的损失值比较,在替换后的数据分级模型的损失值小于等于替换前的数据分级模型的损失值的情况下,确定平均参数值为最优参数值,在替换后的数据分级模型的损失值大于替换前的数据分级模型的损失值的情况下,确定初始参数值为最优参数值,由此得到以最优参数值作为数据分级模型的模型参数的目标数据分级模型。
进一步地,可以保存最终的目标数据分级模型,利用目标数据分级模型对参与主机设备的本地数据进行数据安全级别的识别。
综上所述,本发明实施例提供的一种参与主机设备侧的数据分级模型训练方法,包括:接收中心服务器下发的数据分级模型,并使用参与主机设备的本地数据对数据分级模型进行训练;在对数据分级模型训练完成后,基于随机数对数据分级模型的初始参数值进行混淆处理,得到第一参数值;将第一参数值发送至中心服务器,以供中心服务器根据第一参数值以及至少一个其它参与主机设备发送的第二参数值计算得到平均参数值;第二参数值是其它参与主机设备的初始参数值通过随机数混淆处理后得到的;接收中心服务器发送的平均参数值,并根据平均参数值确定数据分级模型的最优参数值,从而得到目标数据分级模型。本发明中心服务器将数据分级模型下发给参与主机设备,参与主机设备不需要将数据发送给中心服务器,而是直接在本地使用参与主机设备的本地数据对数据分级模型进行训练,避免了参与主机设备的本地数据的流出,保护了数据隐私,并且参与主机设备对初始参数值进行混淆处理,将混淆处理后得到的第一参数值发送给中心服务器处理,由于初始参数值已经被混淆,即便参与主机设备与中心服务器交互过程中第一参数值泄露,也无法从第一参数值得到初始参数值,进一步保护了数据隐私,避免了数据隐私的泄露。
图3是本发明实施例提供的一种数据分级方法的步骤流程图。
如图3所示,在经过接收所述中心服务器发送的所述平均参数值,并根据所述平均参数值确定所述数据分级模型的最优参数值,从而得到目标数据分级模型步骤之后,执行步骤200,将所述参与主机设备的本地数据输入目标分级模型,得到所述本地数据的安全等级。
该步骤中,将参与主机设备的本地数据输入目标分级模型,经由目标分级模型输出对应数据的安全等级。
例如,参与主机设备已经得到了目标数据分级模型,将参与主机设备存储的工艺路线数据输入到目标数据分级模型,输出工艺路线数据的安全等级是4级,将生产订单数据输入到目标数据分级模型,输出生产订单数据的安全等级是2级。
本发明实施例中,通过第一方面得到的目标数据分级模型对本地数据的安全等级进行标识。在得到目标数据分级模型的过程中,中心服务器将数据分级模型下发给参与主机设备,参与主机设备不需要将数据发送给中心服务器,而是直接在本地使用参与主机设备的本地数据对数据分级模型进行训练,避免了参与主机设备的本地数据的流出,保护了数据隐私,并且参与主机设备对初始参数值进行混淆处理,将混淆处理后得到的第一参数值发送给中心服务器处理,由于初始参数值已经被混淆,即便参与主机设备与中心服务器交互过程中第一参数值泄露,也无法从第一参数值得到初始参数值,进一步保护了数据隐私,避免了数据隐私的泄露。并且,参与主机设备利用本地数据对数据分级模型,提升了数据的使用效率,且参与主机设备直接利用得到的目标数据分级模型对本地数据的安全等级进行标识,提高了对数据安全等级标识的效率。
图4是本发明实施例提供的一种中心服务器侧的数据分级模型训练方法的步骤流程图,如图4所示,该方法可以包括:
步骤201、将数据分级模型下发至参与主机设备,以供所述参与主机设备使用所述参与主机设备的本地数据对所述数据分级模型进行训练。
在本发明实施例中,中心服务器可以对参与机器学习的参与主机设备进行管理,中心服务器构建数据分级模型,并将构建好的数据分级模型下发给参与主机设备,以便参与主机设备将其本身的本地数据作为训练样本对数据分级模型进行训练,使用训练后的数据分级模型对本地数据进行安全等级的划分,标识本地数据的安全等级。
另外,对于数据的安全等级划分,数据对象的主体要求和以数据安全属性(完整性、保密性、可用性)遭到破坏后可能对客体造成的影响是数据安全等级的重要判断依据。其主要包含有如表1所示的要素:
表1
如表1所示,数据对象的主体要求指标包含有合规要求和公开范围。其中,合规要求是指数据对象主体是否有明确的管理要求,从高到底依次包括A类、B类、C类和D类,A类要求最高,D类要求最低。
而公开范围是指数据对象在企业内部允许使用的范围,从高到低依次为特定人员公开、指定范围公开、企业内部公开、外部公开。
其中,特定人员公开是指处理个人身份原始信息的人员;指定范围公开是指对数据对象有明确知悉范围要求的人员(如决策层、管理层、执行层、财务、生产、人力等);企业内部公开是指企业内部所有人员;外部公开是指对企业外部所有人员公开。
另外,数据对象的客体影响指标主要有影响业务和影响对象两个方面。其中,影响业务是指数据对象的安全属性被破坏后,最大可能影响到哪种业务服务,从高到低依次包括企业生存、核心业务、经营管理业务、普通业务。
企业生存业务是指会导致企业注销的业务;核心业务是指完成企业生产的工业现场设备,如工业控制系统、制造企业生产过程执行系统(MES,Manufacturing ExecutionSystem)、企业资源计划(ERP,Enterprise Resource Planning)等;经营管理及衍生业务是指企业日常经营管理类业务,如ERP、办公自动化(OA,Office Automation)等;普通业务是指外网网站业务及日常办公类业务。
而影响对象是指数据对象的安全属性被破坏后,可能对相关服务对象的经济活动秩序、生产经营秩序等造成影响,从高到低依次包括重要对象、次要对象、一般对象和不重要对象。
在通过企业或者个人的同意、授权后,在对数据进行安全等级划分时,需要依据上述的合规要求、公开范围、影响业务和影响对象这四项评价指标项综合评价,对数据进行安全等级标识。
相应的,数据的安全等级一般使用等级描述标识进行描述,结合工业企业的实际业务及可能造成的影响,建议轨道交通装备制造业数据安全等级分为四级,描述标识分为数据级别标识和数据重要程度标识两类,相互一一对应。
其中,数据级别标识从高到低依次划分为:4、3、2、1四个等级,也就是说数据的安全等级有4、3、2、1四个等级。相应的,合规要求、公开范围、影响业务和影响对象这四项评价指标项中,每个评价指标项相应的都有四个指标级别,如下表2所示:
表2
如表2所示,合规要求、公开范围、影响业务和影响对象这四项评价指标项中都四个等级,对数据的四项评价指标项进行判断,确定数据的每项评价指标项的指标级别。
例如,对数据的合规要求评价指标项进行确定,若数据满足A类要求,则数据的合规要求评价指标项的指标级别为4,若数据满足C类要求,则数据的合规要求评价指标项的指标级别为2。
也就是说,在对数据的安全等级划分时,需要确定数据合规要求:确定该数据对象可能面临的最高管理要求,包括A类、B类、C类和D类。确定数据的公开范围:确定该数据对象允许访问使用的最小范围,包括特定人员、指定范围、企业内部或外部公开。确定影响的业务:确定该数据对象安全属性(完整性、保密性、可用性)遭到破坏后可能影响的业务,包括企业生存、核心业务、经营管理及衍生业务和普通业务。确定影响的对象:确定该数据对象安全属性(完整性、保密性、可用性)遭到破坏后可能影响的目标对象类型,包括重要对象、次要对象、一般对象和不重要对象。进而依据上述四项评价指标项综合评价,对数据进行安全等级划分。
其中,在通过企业或者个人的同意、授权后,数据进行安全等级划分时,遵循从高原则,即评价指标项的指标级别中级别最高的即为此数据对象的数据级别。如下表3所示:
表3
在表3中,数据对象是对数据的分类,例如在产品生产过程中产生的关于工艺标准的信息,可以将其分为工艺标准信息。而在数据进行安全等级划分时,遵循从高原则。例如,对于产量信息,其在合规要求评价指标项和公开范围评价指标项的指标级别为2级,在影响业务评价指标项和影响对象评价指标项的指标级别为3级,那么最终产量信息数据的安全等级为这四项评价指标项中指标级别最高的3级。
如表4所示的数据分级结果示例
表4
根据表4所示的数据分级结果示例,可以知道在数据进行安全等级划分时,遵循从高原则。例如其中的工序设计数据,其公开范围评价指标项的指标级别为3级,但是合规要求评价指标项、影响业务评价指标项和影响对象评价指标项的指标级别为4级,那么选择指标级别最高的4级作为工序设计数据的安全等级。
而数据的安全等级,从高到低,一般具有如下数据特征,对于最高安全等级4级的数据,主要用于企业生存或核心业务使用,一般针对特定人员公开,而对于3级的数据,用于核心业务或企业经营管理使用,一般针对指定范围人员公开,2级数据用于普通业务使用,一般针对企业内部所有人员公开,一般指内部管理且不宜广泛公开的数据,1级数据一般可被公开或可被公众获知、使用。
依据上述数据安全等级的划分方法,中心服务器构建相应的数据分级模型,如构建数据分级模型Y=B+∑Wi×Xi,其中数据安全特征Xi设定为合规要求、公开范围、影响业务、影响对象这四项特征,安全等级Y分为1、2、3、4,四个安全等级,并将构建好的数据分级模型下发给参与主机设备。参照图5,图5示出了本发明实施例提供的一种数据特征与安全等级的散点图,如图所示,在去掉离散点后,可以看出,随着合规要求的提升,数据的安全等级也越来越高。
步骤202、接收所述参与主机设备发送的参数值,所述参数值是所述参与主机设备基于随机数,对训练后的数据分级模型的初始参数值进行混淆处理得到的。
在该步骤中,考虑到在企业运行、工业生产过程中,会产生不同领域的重要数据,这些数据会存储在不同的参与主机设备中。因此,中心服务器可以将构建好的数据分级模型下发给多个参与主机设备,每个参与主机设备在训练完数据分级模型后,将训练好的数据分级模型的初始参数值通过随机数混淆处理,发送给中心服务器,中心服务器相应的接收每个参与主机设备混淆处理后的参数值,也即接收参与主机设备发送的第一参数值以及至少一个其它参与主机设备发送的第二参数值。
例如,参照图2,中心服务器接收参与主机设备A、参与主机设备B、参与主机设备C等多个参与主机设备,将数据分级模型的初始参数值通过随机数混淆处理后的参数值。
步骤203、根据所有所述参数值,计算得到平均参数值。
该步骤中,考虑到不同的参与主机设备在使用其本地数据对数据分级模型训练后所得到的初始参数值差别较大,因此,对数据分级模型的初始参数值进行处理。
具体的,中心服务器在接收到参与主机设备发送的参数值后,将接收到的所有的参数值求和,用求和后的值除以向中心服务器发送参数的所有的参与主机设备的数量,从而得到平均参数值。
步骤204、将所述平均参数值发送给所述参与主机设备,以供所述参与主机设备根据所述平均参数值确定所述数据分级模型的最优参数值,从而得到目标数据分级模型。
具体的,在中心服务器计算得到平均参数值后,将得到的平均参数值下发给参与主机设备,以使得参与主机设备可以依据平均参数值确定数据分级模型的最优参数值。
综上所述,本发明实施例提供的一种中心服务器侧的数据分级模型训练方法,包括:将数据分级模型下发至参与主机设备,以供参与主机设备使用参与主机设备的本地数据对数据分级模型进行训练;接收参与主机设备发送的第一参数值以及至少一个其它参与主机设备发送的第二参数值,第一参数值是参与主机设备基于随机数,对训练后的数据分级模型的初始参数值进行混淆处理得到的;第二参数值是其它参与主机设备的初始参数值通过随机数混淆处理后得到的;根据第一参数值和第二参数值,计算得到平均参数值;将平均参数值发送给参与主机设备,以供参与主机设备根据平均参数值确定数据分级模型的最优参数值,从而得到目标数据分级模型。本发明中心服务器将数据分级模型下发给参与主机设备,以使得参与主机设备不需要将数据发送给中心服务器,而是直接在本地使用参与主机设备的本地数据对数据分级模型进行训练,避免了参与主机设备的本地数据的流出,保护了数据隐私,,并且中心服务器接收到的第一参数值是参与主机设备对初始参数值进行混淆处理得到的,由于初始参数值已经被混淆,即便参与主机设备与中心服务器交互过程中第一参数值泄露,也无法从第一参数值得到初始参数值,进一步保护了数据隐私,避免了数据隐私的泄露。
图6是本发明实施例提供的一种数据分级模型训练方法的交互步骤流程图,如图6所示,该方法可以包括:
步骤301、中心服务器将数据分级模型下发至参与主机设备,以供所述参与主机设备使用所述参与主机设备的本地数据对所述数据分级模型进行训练。
该步骤具体可以参照上述步骤201,此处不再赘述。
步骤302、参与主机设备接收中心服务器下发的数据分级模型,并使用所述参与主机设备的本地数据对所述数据分级模型进行训练。
该步骤具体可以参照上述步骤101,此处不再赘述。
步骤303、参与主机设备在对所述数据分级模型训练完成后,向所述中心服务器发送学习完成指令,以供所述中心服务器根据所述学习完成指令反馈配对指令,对所述参与主机设备进行配对。
具体的,参与主机设备在对数据分级模型训练完成后,向中心服务器发送学习完成指令,通知中心服务器根据学习完成指令反馈配对指令。对已经完成数据分级模型训练的参与主机设备进行配对。
例如,参与主机设备A、参与主机设备B、参与主机设备C、参与主机设备D完成了对数据分级模型训练,向中心服务器发送学习完成指令,中心服务器会对这四台参与主机设备进行配对,并向相互配对的参与主机设备反馈配对指令。
在本发明实施例中,参与主机设备完成对数据分级模型的训练,便会向中心服务器发送完成指令,使得中心服务器能够随时得知参与主机设备对数据分级模型训练的完成情况,更好的对参与主机设备进行管理。
步骤304、中心服务器接收参与主机设备发送的学习完成指令,并在所述学习完成指令的数量大于预设数量,且所述学习完成指令的数量为偶数的情况下,为每个参与主机设备分配配对参与主机设备。
具体的,中心服务器接收每个参与主机设备发送的学习完成指令,并在完成数据分级模型训练的参与主机设备的数量满足预设数量,也即接收到的学习完成指令的数量满足预设数量且学习完成指令的数量为偶数的情况下,将参与主机设备两两配对,为每个参与主机设备分配配对参与主机设备。
例如,可以在参与主机设备达到90%已经完成数据分级模型训练,且参与主机设备的数量是偶数的情况下,为每个参与主机设备分配配对参与主机设备。其中,由于算力、机器故障、网络故障等原因影响,有的参与主机设备可能永远不会完成数据分级模型训练,消耗过长时间,所以在匹配过中,参与主机数量低于100%是较为合理的方案。
当然,考虑到所有的参与主机设备一起配对,所耗时间过长,因此整个匹配过程可以分为两个阶段。例如第一阶段,在参与主机设备达到50%已经完成数据分级模型训练,且参与主机设备的数量是偶数的情况下,为每个参与主机设备分配配对参与主机设备,第二阶段,在剩余的参与主机设备达到96%已经完成数据分级模型训练,且参与主机设备的数量是偶数的情况下,为每个参与主机设备分配配对参与主机设备。
具体的,参照图7,图7是本发明实施例提供的一种配对结果图。通过中心服务器中的匹配模块,采用首位匹配法,对参与主机设备进行两两配对,当然,也可以通过其它匹配方法对参与主机设备进行配对,本发明实施例对此不作限制。
本发明实施例中,通过设定预设数量,中心服务器在已经完成数据分级模型训练的参与主机设备的数量大于预设数量的情况下,为参与主机设备配对,避免了所有的参与主机设备一起配对,所耗时间过长的问题,提升了配对效率。
步骤305、中心服务器将相互配对的参与主机设备的标识信息添加进配对指令,并将所述配对指令发送至相互配对的参与主机设备,以供所述参与主机设备确定与所述参与主机设备进行配对的配对参与主机设备。
在本发明实施例中,对于相互配对的两个参与主机设备,中心服务器将参与主机设备的标识信息添加进配对指令,并将配对指令发送至相互配对的两个参与主机设备,使得参与主机设备可以根据配对指令中的标识信息,相互确定与之相配对的配对参与主机设备。
例如,中心服务器将参与主机设备A与参与主机设备B配对,可以将指令{AB}发送给参与主机设备A与参与主机设备B,此时参与主机设备A可以得知其配对参与主机设备是参与主机设备B,同时参与主机设备B也能够知道其配对参与主机设备是参与主机设备A。
步骤306、参与主机设备响应于所述中心服务器发送的所述配对指令,确定与所述参与主机设备进行配对的配对参与主机设备。
该步骤中,参与主机设备根据中心服务器发送的配对指令确定与自己进行配对的配对参与主机设备。
可选的,步骤306具体是根据所述配对指令中的配对参与主机设备的标识信息,确定与所述参与主机设备进行配对的配对参与主机设备。
例如,参与主机设备A接收到了配对指令{AB},可以根据配对指令中参与主机设备A的标识信息,得到其配对参与主机设备是参与主机设备B,并且参与主机设备B也会接收到该配对指令,能够知道其配对参与主机设备是参与主机设备A。
步骤307、参与主机设备通过所述参与主机设备的随机数生成器生成第一随机数,将所述第一随机数发送至与所述参与主机设备配对的配对参与主机设备,并接收所述配对参与主机设备发送的第二随机数,所述第二随机数是所述配对参与主机设备的随机数生成器生成的。
具体的,相互配对的两个参与主机设备会相互发送随机数,也就是说参与主机设备在收到中心服务器发送的配对指令,确定配对参与主机设备后,通过设备自身的随机数生成器生成第一随机数,并将第一随机数发送至与参与主机设备配对的配对参与主机设备,同时还会接收配对参与主机设备发送的通过其自身的随机数生成器生成的第二随机数。
例如,参与主机设备A确定其配对参与主机设备是参与主机设备B后,通过随机数生成器生成第一随机数M,并将第一随机数M发送给参与主机设备B时,参与主机设备B也会生成第二随机数N,参与主机设备A接收参与主机设备B生成的第二随机数N。
进一步地,相互配对的两个参与主机设备在收到对方发送的随机数后,还会生成确认码,并将确认码反馈至对方。
步骤308、参与主机设备根据预设规则,从所述第一随机数和第二随机数中确定目标随机数,并基于所述目标随机数对所述初始参数值进行混淆处理,得到所述第一参数值。
在该步骤中,由于参与主机设备自身生成有第一随机数,同时还会接收配对参与主机设备发送的第一随机数,因此可以根据预设规则,从第一随机数和第二随机数中确定一个作为目标随机数。
可选的,预设规则包括选取所述参与主机设备和所述配对参与主机设备中,算力最大的设备所生成的随机数为所述目标随机数。
具体的,通常参与主机设备的算力是不同的,有大有小,可以通过算力最优原则,将算力最大的设备所生成的随机数为目标随机数。
其中算力最优原则是算力弱的一方在发送随机数、接收确认码前,停止后续操作,使用算力强的一方的随机数作为目标随机数。
例如,参与主机设备A确定其配对参与主机设备是参与主机设备B后,生成第一随机数M,立即将第一随机数M发送给参与主机设备B,参与主机设备B在收到第一随机数M后,会向参与主机设备A发送确认码。与此同时,参与主机设备A还会接收参与主机设备B发送的第二随机数N,参与主机设备A在收到第二随机数N后,会向参与主机设备B发送确认码。
在这个过程中,如果参与主机设备A算力大,使得参与主机设备B先收到了参与主机设备A发送的第一随机数M或者确认码,则确定第一随机数M为目标随机数。参照图8,图8示出了本发明实施例提供的一种情况下的随机数协商图,参照图9,图9示出了本发明实施例提供的另一种情况下的随机数协商图。如图8,参与主机设备B先收到参与主机设备A发送的第一随机数M,此时参与主机设备B将不再向参与主机设备A发送第二随机数N,而是直接生成确认码并反馈给参与主机设备A。如图9,参与主机设备B收到参与主机设备A发送的第一随机数M,同时参与主机设备A也收到了参与主机设备B发送的第二随机数N,但是参与主机设备B先收到参与主机设备A发送的确认码,此时参与主机设备B将不再向参与主机设备A反馈确认码,将第一随机数M作为目标随机数。
同时,考虑到极端情况下,双方均接收到了对方的确认码,参照图10,图10示出了本发明实施例提供的再一种情况下的随机数协商图。这种情况下,采取排名优先原则,选取中心服务器下发的配对指令中参与主机设备编号在前的参与主机设备生成的随机数作为目标随机数,如配对指令{AB},则选取参与主机设备A生成的第一随机数M作为目标随机数。
在本发明实施例中,采用算力最优原则,使用性能较强主机,也即算力最大的设备所生成的随机数作为目标随机数,提高了整体的训练效率。
同时在相互配对的参与主机设备的算力与网络连接性能接近时,由于网络波动、流量传输、本地计算机时间片轮转等影响,双方同时生成随机数、同时接收到随机数、同时生产确认码、同时接收到确认码在微秒级性的概率几乎为零,但影响双方时间性能的最大因素是网络,由于网络延时等因素影响,双方会快速同时接到确认码,这种情况下采用排名优先原则,即不影响计算效能,不也影响交互效能,保障在最佳性能下,完成随机数协商。
可选的,步骤308包括:
子步骤3081、参与主机将所述初始参数值与所述目标随机数的加和值作为所述第一参数值,并通知所述配对参与主机设备将所述配对参与主机设备的数据分级模型的初始参数值与所述目标随机数的差值作为所述第二参数值。
具体的,参与主机将初始参数值与目标随机数的加和值作为第一参数值,也就是说,参与主机将数据分级模型的初始参数值加上目标随机数,得到第一参数值,并通知配对参与主机设备将其训练的数据分级模型的初始参数值减去目标随机数,得到第二参数值。
例如,参与主机设备A的数据分级模型的初始参数值C1=x,混淆处理后,得到第一参数值x+M,并通知配对参与主机设备,即参与主机设备B,将参与主机设备B的数据分级模型的初始参数值C1=y,减去目标随机数M,得到第二参数值y-M。
或,子步骤3082参与主机将所述初始参数值与所述目标随机数的差值作为所述第一参数值,并通知所述配对参与主机设备将所述配对参与主机设备的数据分级模型的初始参数值与所述目标随机数的加和值作为所述第二参数值。
具体的,参与主机将初始参数值与目标随机数的差值作为第一参数值,并通知配对参与主机设备加和目标随机数。也就是说,参与主机将数据分级模型的初始参数值减去目标随机数,得到第一参数值。并通知配对参与主机设备将其训练的数据分级模型的初始参数值加上目标随机数,得到第二参数值。
例如,参与主机设备A的数据分级模型的初始参数值C1=x,混淆处理后,得到第一参数值x-M,并通知配对参与主机设备,即参与主机设备B,将参与主机设备B的数据分级模型的初始参数值C1=y,减去目标随机数M,得到第二参数值y+M。
其中,随机数生成器生成的随机数可以选用长度为128位的随机数,如第一随机数M为876538538…233(长度128位),从而大幅提升逆向分析难度。
经过混淆处理,参与主机将混淆处理后的参数值发送给中心服务器,由于初始参数值已经被混淆,中心服务器无法推断得到参与主机的真实参数值,也就是数据分级模型的初始参数值,并且即便参与主机设备与中心服务器交互过程中第一参数值泄露,也无法从第一参数值得到初始参数值保护了数据隐私,避免了数据隐私的泄露。
步骤309、参与主机设备将所述第一参数值发送至所述中心服务器,以供所述中心服务器根据所述第一参数值以及至少一个其它参与主机设备发送的第二参数值计算得到平均参数值;所述第二参数值是其它参与主机设备的初始参数值通过随机数混淆处理后得到的。
该步骤具体可以参照上述步骤103,此处不再赘述。
步骤310、中心服务器根据所述第一参数值和所述第二参数值,计算得到平均参数值。
该步骤具体可以参照上述步骤203,此处不再赘述。
步骤311、中心服务器将所述平均参数值发送给所述参与主机设备,以供所述参与主机设备根据所述平均参数值确定所述数据分级模型的最优参数值,从而得到目标数据分级模型。
该步骤具体可以参照上述步骤204,此处不再赘述。
步骤312、参与主机设备接收所述中心服务器发送的所述平均参数值,并根据所述平均参数值确定所述数据分级模型的最优参数值,从而得到目标数据分级模型。
该步骤具体可以参照上述步骤104,此处不再赘述。
可选的,步骤312包括:
子步骤3121、参与主机设备接收所述中心服务器发送的所述平均参数值,并将所述数据分级模型的初始参数值替换为所述平均参数值。
具体的,中心服务器将计算的平均参数值发送给参与主机设备后,参与主机设备对数据分级模型进行调参,将数据分级模型的初始参数值替换为平均参数值。
需要说明的是,数据分级模型的模型参数的形式根据中心服务器构建的数据分级模型而定。例如,中心服务器构建好的数据分级模型Y=B+∑Wi×Xi,其中Y为安全等级,B是系数,数据安全特征Xi设定为合规要求、公开范围、影响业务、影响对象这四项特征,Wi是各个特征的权重。其数据分级模型的模型参数是由W和B组成的矩阵,相应的中心服务器下发的平均参数值也是一个矩阵,如下表5所示:
特征 | W | B |
合规要求 | 76 | 96 |
公开范围 | 56 | 45 |
影响业务 | 98 | 56 |
影响对象 | 16 | 86 |
表5
如表5所示,数据分级模型的模型参数由各特征的特征权重和该特征对应的系数共同组成,以矩阵的形式展现,此处为方便理解,将其用表格表示,并不构成对本发明的限制。
子步骤3122、参与主机设备根据调整后的数据分级模型、所述损失函数和所述本地数据,计算得到第二损失值。
进一步地,在将数据分级模型的初始参数值替换为平均参数值后,利用替换后的数据分级模型、损失函数和本地数据,再次计算数据分级模型的第二损失值,进而可以通过第二损失值判断平均参数值是否为最优参数。
子步骤3123、参与主机设备在所述第二损失值小于等于所述预设阈值的情况下,确定所述平均参数值为所述最优参数值,从而得到所述目标数据分级模型。
将计算得到的第二损失值与预设阈值再次进行比较,判断第二损失值是否小于等于预设阈值,在第二损失值小于等于预设阈值的情况下,表示平均参数值可以使用,符合实际情况,同时平均参数值是对初始参数值进行优化后的参数,因此确定平均参数值为最优参数值,以平均参数值为模型参数值的数据分级模型是目标数据分级模型。
子步骤3124、参与主机设备在所述第二损失值大于所述预设阈值的情况下,确定所述初始参数值所述为最优参数值,从而得到所述目标数据分级模型。
在第二损失值大于预设阈值的情况下,表示平均参数值不可以使用,不符合实际情况,因此将训练完后的数据分级模型的初始参数值确定为最优参数值,参与主机设备训练完成后的数据分级模型是目标数据分级模型。
另外,也可以对第一损失值与第二损失值进行比较,因此损失值越小,表示数据分级模型越能够准确地对数据进行安全等级标识。因此将第一损失值与第二损失值进行比较,在第二损失值小于等于第一损失值的情况下,确定平均参数值为最优参数值,在第二损失值大于第一损失值的情况下,确定初始参数值为最优参数值。
例如,参照图11,图11示出了本发明实施例提供的一种损失函数图,参照图12,图12示出了本发明实施例提供的另一种损失函数图。
其中,图11是采用第一损失值运行损失函数L(W,B)=∑m n=1(yn-(B+Wi×Xi))2的损失函数图,图12是采用第二损失值运行损失函数L(W,B)=∑m n=1(yn-(B+Wi×Xi))2的损失函数图,对比可以知道,图12中的函数图形更加平衡,梯度下降更加平缓,因此第二损失值小于第一损失值,确定平均参数值为最优参数值。
在本发明实施例中,在对数据分级模型的初始参数值进行处理得到平均参数值后,将数据分级模型的初始参数值替换为平均参数值,并计算替换后的数据分级模型的第二损失值,通过第二损失值与第一损失值的比较,确定最优参数值,提高了最优参数值的准确性,使得得到的目标数据分级模型对数据的安全等级的标识更准确。
可选的,所述方法还包括:
步骤313、参与主机设备基于随机数对所述最优参数值进行混淆处理,得到第三参数值。
在确定最优参数值后,为了方便对数据分级模型的管理,需要将最优参数值发送给中心服务器进行保存。
为了防止数据隐私的泄露,再次基于随机数对确定的最优参数值进行混淆处理,得到第三参数值,使得中心服务器无法推到得到数据分级模型的最优参数值。
步骤314、参与主机设备将所述第三参数值发送至所述中心服务器,以供所述中心服务器保存。
参与主机设备将混淆处理后得到的第三参数值发送至中心服务器进行汇总保存。
本发明实施例中,在确定最优参数值后,将确定的最优参数值进行混淆处理,将混淆处理后得到的第三参数值发送给中心服务器保存,由于确定最优参数值已经被混淆,即便参与主机设备与中心服务器交互过程中第三参数值泄露,也无法从第三参数值得到最优参数值,保护了数据隐私,避免了数据隐私的泄露,并且,将确定的最优参数值发送给中心服务器保存,方便了中心服务器对参与主机设备的管理。
步骤315、中心服务器接收所述参与主机设备发送的第三参数值,并保存所述第三参数值;所述第三参数值是所述参与主机设备基于随机数对所述最优参数值进行混淆处理得到的。
中心服务器接收参与主机设备将混淆处理后得到的第三参数值,并进行汇总保存,以方便对数据分级模型的管理。
可选的,所述方法还包括:
步骤316、中心服务器在所述将数据分级模型下发至参与主机设备,以供所述参与主机设备使用所述参与主机设备的本地数据对所述数据分级模型进行训练的过程中,将损失函数和预设阈值发送至所述参与主机设备,以供所述参与主机设备利用所述损失函数计算所述数据分级模型的第一损失值,并在所述第一损失值小于等于所述预设阈值的情况下,完成对所述数据分级模型的训练。
在本发明实施例中,中心服务器构建数据分级模型和损失函数,并设置损失函数的预设阈值,并在将构建好的数据分级模型下发给参与主机设备的同时,将损失函数和设定的损失函数的预设阈值一同下发给每个参与主机设备,使得参与主机设备可以利用参与主机设备的本地数据对数据分级模型进行训练。
例如,中心服务器构建数据分级模型Y=B+∑Wi×Xi,其中数据安全特征Xi设定为合规要求、公开范围、影响业务、影响对象这四项特征,安全等级Y分为1、2、3、4,四个安全等级,B是系数,Wi是各个特征的权重。同时构建可以对数据分级模型进行判断的损失函数L(W,B)=∑m n=1(yn-(B+Wi×Xi))2,其中yn是将本地数据作为训练集,训练集中数据的安全等级,训练集中数据已经被标识完成,如对于数据对象为设计BOM的数据的安全等级是4,则yn=4,L(W,B)是计算得到的损失值,并且L(W,B)的结果越小,表示数据分级模型Y=B+∑Wi×Xi越能够准确的对数据进行安全等级标识。根据实际情况设置损失函数的预设阈值,如0.3,即表示当参数值小于等于0.3时,参数可以使用,符合实际情况。然后将数据分级模型Y=B+∑Wi×Xi、损失函数L(W,B)=∑m n=1(yn-(B+Wi×Xi))2和预设阈值0.3一起下发给参数主机设备。
可以理解的,上述示例是为了方便对本发明理解所做的举例说明,并不构成对本发明的限制。
本发明实施例中,中心服务器将数据分级模型、损失函数以及损失函数的预设阈值一同下发给参与主机设备,保证了参与主机设备使用其本地数据对数据分级模型训练完成判断的准确性。
步骤317、参与主机设备在所述接收中心服务器下发的数据分级模型,并使用所述参与主机设备的本地数据对所述数据分级模型进行训练的过程中,接收所述中心服务器下发的损失函数和预设阈值。
具体的,参与主机在接收到中心服务器下发的需要训练的数据分级模型,将其本身的本地数据作为训练样本对数据分级模型进行训练,同时可以使用中心服务器下发的损失函数和预设阈值对数据分级模型训练是否完成进行判断。
步骤318、参与主机设备利用所述损失函数计算所述数据分级模型的第一损失值,在所述第一损失值小于等于所述预设阈值的情况下,完成对所述数据分级模型的训练。
该步骤中,利用损失函数计算数据分级模型的损失值,在损失值不满足设定的预设阈值的情况下利用损失值对数据分级模型的参数值进行调整并再次训练,在损失值满足预设阈值的情况下,完成对数据分级模型的训练。
例如,对于中心服务器下发的数据分级模型Y=B+∑Wi×Xi、损失函数L(W,B)=∑m n=1(yn-(B+Wi×Xi))2和预设阈值0.3,通过损失函数L(W,B)=∑m n=1(yn-(B+Wi×Xi))2计算数据分级模型的损失值,在损失值小于等于0.3的时,完成对数据分级模型的训练,停止本地化学习。
综上所述,本发明实施例提供的一种数据分级模型训练方法,中心服务通过将数据分级模型、损失函数和预设阈值下发至参与主机设备,参与主机设备不需要将数据发送给中心服务器,而是直接在本地使用参与主机设备的本地数据对数据分级模型进行训练,避免了参与主机设备的本地数据的流出,保护了数据隐私,并且参与主机设备对初始参数值进行混淆处理,将混淆处理后得到的第一参数值发送给中心服务器处理,由于初始参数值已经被混淆,即便参与主机设备与中心服务器交互过程中第一参数值泄露,也无法从第一参数值得到初始参数值,进一步保护了数据隐私,避免了数据隐私的泄露。
参照图13,示出了本发明实施例提供的一种参与主机设备侧的数据分级模型训练装置的框图,具体可以包括如下模块:
训练模块501,用于接收中心服务器下发的数据分级模型,并使用所述参与主机设备的本地数据对所述数据分级模型进行训练;
第一混淆模块502,用于在对所述数据分级模型训练完成后,基于随机数对所述数据分级模型的初始参数值进行混淆处理,得到第一参数值;
可选的,第一混淆模块502,包括:
发送子模块,用于向所述中心服务器发送学习完成指令,以供所述中心服务器根据所述学习完成指令反馈配对指令,对所述参与主机设备进行配对;
第一确定子模块,用于响应于所述中心服务器发送的所述配对指令,确定与所述参与主机设备进行配对的配对参与主机设备;
可选的,所述配对指令包括所述中心服务器为所述参与主机设备分配的配对参与主机设备的标识信息,所述第一确定子模块,具体用于根据所述配对指令中的配对参与主机设备的标识信息,确定与所述参与主机设备进行配对的配对参与主机设备。
生成子模块,用于通过所述参与主机设备的随机数生成器生成第一随机数,将所述第一随机数发送至与所述参与主机设备配对的配对参与主机设备,并接收所述配对参与主机设备发送的第二随机数,所述第二随机数是所述配对参与主机设备的随机数生成器生成的;
混淆子模块,用于根据预设规则,从所述第一和第二中确定目标随机数,并基于所述目标随机数对所述初始参数值进行混淆处理,得到所述第一参数值。
可选的,混淆子模块,包括:
加法单元,用于将所述初始参数值与所述目标随机数的加和值作为所述第一参数值,并通知所述配对参与主机设备将所述配对参与主机设备的初始参数值与所述目标随机数的差值作为所述第二参数值;
减法单元,用于将所述初始参数值与所述目标随机数的差值作为所述第一参数值,并通知所述配对参与主机设备将所述配对参与主机设备的初始参数值与所述目标随机数的加和值作为所述第二参数值。
其中所述预设规则包括:
选取所述参与主机设备和所述配对参与主机设备中,算力最大的设备所生成的随机数为所述目标随机数。
第一发送模块503,用于将所述第一参数值发送至所述中心服务器,以供所述中心服务器根据所述第一参数值以及至少一个其它参与主机设备发送的第二参数值计算得到平均参数值;所述第二参数值是其它参与主机设备的初始参数值通过随机数混淆处理后得到的;
确定模块504,用于接收所述中心服务器发送的所述平均参数值,并根据所述平均参数值确定所述数据分级模型的最优参数值,从而得到目标数据分级模型。
可选的,确定模块504,包括:
替换子模块,用于接收所述中心服务器发送的所述平均参数值,并将所述数据分级模型的初始参数值替换为所述平均参数值;
计算子模块,用于根据调整后的数据分级模型、所述损失函数和所述本地数据,计算得到第二损失值;
第二确定子模块,用于在所述第二损失值小于等于所述预设阈值的情况下,确定所述平均参数值为所述最优参数值,从而得到所述目标数据分级模型;
第三确定子模块,用于在所述第二损失值大于所述预设阈值的情况下,确定所述初始参数值所述为最优参数值,从而得到所述目标数据分级模型。
可选的,装置还包括:
第一接收模块,用于接收所述中心服务器下发的损失函数和预设阈值;
训练完成模块,用于利用所述损失函数计算所述数据分级模型的第一损失值,在所述第一损失值小于等于所述预设阈值的情况下,完成对所述数据分级模型的训练。
第二混淆模块,用于基于另一随机数对所述最优参数值进行混淆处理,得到第三参数值;
第二发送模块,用于将所述第三参数值发送至所述中心服务器,以供所述中心服务器保存。
综上,本发明实施例提供的一种参与主机设备侧的数据分级模型训练方法,包括:接收中心服务器下发的数据分级模型,并使用参与主机设备的本地数据对数据分级模型进行训练;在对数据分级模型训练完成后,基于随机数对数据分级模型的初始参数值进行混淆处理,得到第一参数值;将第一参数值发送至中心服务器,以供中心服务器根据第一参数值以及至少一个其它参与主机设备发送的第二参数值计算得到平均参数值;第二参数值是其它参与主机设备的初始参数值通过随机数混淆处理后得到的;接收中心服务器发送的平均参数值,并根据平均参数值确定数据分级模型的最优参数值,从而得到目标数据分级模型。本发明中心服务器将数据分级模型下发给参与主机设备,参与主机设备不需要将数据发送给中心服务器,而是直接在本地使用参与主机设备的本地数据对数据分级模型进行训练,避免了参与主机设备的本地数据的流出,保护了数据隐私,并且参与主机设备对初始参数值进行混淆处理,将混淆处理后得到的第一参数值发送给中心服务器处理,由于初始参数值已经被混淆,即便参与主机设备与中心服务器交互过程中第一参数值泄露,也无法从第一参数值得到初始参数值,进一步保护了数据隐私,避免了数据隐私的泄露。
参照图14,图14是本发明实施例提供的一种数据分级装置的框图,应用于参与主机设备,具体可以包括如下模块:
分级模块600,用于将所述参与主机设备的本地数据输入目标分级模型,得到所述本地数据的安全等级;所述目标分级模型是通过上述所述的数据分级模型训练方法训练得到的。
综上,本发明实施例提供的一种数据分级方法,通过第一方面得到的目标数据分级模型对本地数据的安全等级进行标识。在得到目标数据分级模型的过程中,中心服务器将数据分级模型下发给参与主机设备,参与主机设备不需要将数据发送给中心服务器,而是直接在本地使用参与主机设备的本地数据对数据分级模型进行训练,避免了参与主机设备的本地数据的流出,保护了数据隐私,并且参与主机设备对初始参数值进行混淆处理,将混淆处理后得到的第一参数值发送给中心服务器处理,由于初始参数值已经被混淆,即便参与主机设备与中心服务器交互过程中第一参数值泄露,也无法从第一参数值得到初始参数值,进一步保护了数据隐私,避免了数据隐私的泄露。并且,参与主机设备利用本地数据对数据分级模型,提升了数据的使用效率,且参与主机设备直接利用得到的目标数据分级模型对本地数据的安全等级进行标识,提高了对数据安全等级标识的效率。
参照图15,示出了本发明实施例提供的一种中心服务器侧的数据分级模型训练装置的框图,具体可以包括如下模块:
第三发送模块701,用于将数据分级模型下发至参与主机设备,以供所述参与主机设备使用所述参与主机设备的本地数据对所述数据分级模型进行训练;
第二接收模块702,用于接收所述参与主机设备发送的参数值,所述参数值是所述参与主机设备基于随机数,对训练后的数据分级模型的初始参数值进行混淆处理得到的;
计算模块703,用于根据所有所述参数值,计算得到平均参数值;
第四发送模块704,用于将所述平均参数值发送给所述参与主机设备,以供所述参与主机设备根据所述平均参数值确定所述数据分级模型的最优参数值,从而得到目标数据分级模型。
可选的,装置还包括:
配对模块,用于接收所述参与主机设备发送的学习完成指令,并在所述学习完成指令的数量大于预设数量,且所述学习完成指令的数量为偶数的情况下,为每个参与主机设备分配配对参与主机设备;
第五发送模块,用于将相互配对的参与主机设备的标识信息添加进配对指令,并将所述配对指令发送至相互配对的参与主机设备,以供所述参与主机设备确定与所述参与主机设备进行配对的配对参与主机设备。
第六发送模块,用于在所述将数据分级模型下发至参与主机设备,以供所述参与主机设备使用所述参与主机设备的本地数据对所述数据分级模型进行训练的过程中,将损失函数和预设阈值发送至所述参与主机设备,以供所述参与主机设备利用所述损失函数计算所述数据分级模型的第一损失值,并在所述第一损失值小于等于所述预设阈值的情况下,完成对所述数据分级模型的训练。
保存模块,用于接收所述参与主机设备发送的第三参数值,并保存所述第三参数值;所述第三参数值是所述参与主机设备基于另一随机数对所述最优参数值进行混淆处理得到的。
综上,综上所述,本发明实施例提供的一种中心服务器侧的数据分级模型训练方法,包括:将数据分级模型下发至参与主机设备,以供参与主机设备使用参与主机设备的本地数据对数据分级模型进行训练;接收参与主机设备发送的第一参数值以及至少一个其它参与主机设备发送的第二参数值,第一参数值是参与主机设备基于随机数,对训练后的数据分级模型的初始参数值进行混淆处理得到的;第二参数值是其它参与主机设备的初始参数值通过随机数混淆处理后得到的;根据第一参数值和第二参数值,计算得到平均参数值;将平均参数值发送给参与主机设备,以供参与主机设备根据平均参数值确定数据分级模型的最优参数值,从而得到目标数据分级模型。本发明中心服务器将数据分级模型下发给参与主机设备,以使得参与主机设备不需要将数据发送给中心服务器,而是直接在本地使用参与主机设备的本地数据对数据分级模型进行训练,避免了参与主机设备的本地数据的流出,保护了数据隐私,,并且中心服务器接收到的第一参数值是参与主机设备对初始参数值进行混淆处理得到的,由于初始参数值已经被混淆,即便参与主机设备与中心服务器交互过程中第一参数值泄露,也无法从第一参数值得到初始参数值,进一步保护了数据隐私,避免了数据隐私的泄露。
对于上述装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域技术人员易于想到的是:上述各个实施例的任意组合应用都是可行的,故上述各个实施例之间的任意组合都是本发明的实施方案,但是由于篇幅限制,本说明书在此就不一一详述了。
在此提供的展示方法不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造具有本发明方案的系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的展示方法中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (26)
1.一种数据分级模型训练方法,应用于参与主机设备,其特征在于,所述方法包括:
接收中心服务器下发的数据分级模型,并使用所述参与主机设备的本地数据对所述数据分级模型进行训练;
在对所述数据分级模型训练完成后,基于随机数对所述数据分级模型的初始参数值进行混淆处理,得到第一参数值;
将所述第一参数值发送至所述中心服务器,以供所述中心服务器根据所述第一参数值以及至少一个其它参与主机设备发送的第二参数值计算得到平均参数值;所述第二参数值是其它参与主机设备的初始参数值通过随机数混淆处理后得到的;
接收所述中心服务器发送的所述平均参数值,并根据所述平均参数值确定所述数据分级模型的最优参数值,从而得到目标数据分级模型。
2.根据权利要求1所述的数据分级模型训练方法,其特征在于,所述基于随机数对所述数据分级模型的初始参数值进行混淆处理,得到第一参数值,包括:
在对所述数据分级模型训练完成后,向所述中心服务器发送学习完成指令,以供所述中心服务器根据所述学习完成指令反馈配对指令,对所述参与主机设备进行配对;
响应于所述中心服务器发送的所述配对指令,确定与所述参与主机设备进行配对的配对参与主机设备;
通过所述参与主机设备的随机数生成器生成第一随机数,将所述第一随机数发送至与所述参与主机设备配对的配对参与主机设备,并接收所述配对参与主机设备发送的第二随机数,所述第二随机数是所述配对参与主机设备的随机数生成器生成的;
根据预设规则,从所述第一随机数和第二随机数中确定目标随机数,并基于所述目标随机数对所述初始参数值进行混淆处理,得到所述第一参数值。
3.根据权利要求2所述的数据分级模型训练方法,其特征在于,所述基于所述目标随机数对所述初始参数值进行混淆处理,得到所述第一参数值,包括:
将所述初始参数值与所述目标随机数的加和值作为所述第一参数值,并通知所述配对参与主机设备将所述配对参与主机设备的数据分级模型的初始参数值与所述目标随机数的差值作为所述第二参数值;
或,将所述初始参数值与所述目标随机数的差值作为所述第一参数值,并通知所述配对参与主机设备将所述配对参与主机设备的数据分级模型的初始参数值与所述目标随机数的加和值作为所述第二参数值。
4.根据权利要求2所述的数据分级模型训练方法,其特征在于,所述预设规则包括:
选取所述参与主机设备和所述配对参与主机设备中,算力最大的设备所生成的随机数为所述目标随机数。
5.根据权利要求2所述的数据分级模型训练方法,其特征在于,所述配对指令包括所述中心服务器为所述参与主机设备分配的配对参与主机设备的标识信息,所述响应于所述中心服务器发送的所述配对指令,确定与所述参与主机设备进行配对的配对参与主机设备,包括:
根据所述配对指令中的配对参与主机设备的标识信息,确定与所述参与主机设备进行配对的配对参与主机设备。
6.根据权利要求1所述的数据分级模型训练方法,其特征在于,所述方法还包括:
在所述接收中心服务器下发的数据分级模型,并使用所述参与主机设备的本地数据对所述数据分级模型进行训练的过程中,接收所述中心服务器下发的损失函数和预设阈值;
利用所述损失函数计算所述数据分级模型的第一损失值,在所述第一损失值小于等于所述预设阈值的情况下,完成对所述数据分级模型的训练。
7.根据权利要求6所述的数据分级模型训练方法,其特征在于,所述接收所述中心服务器发送的所述平均参数值,根据所述平均参数值确定所述数据分级模型的最优参数值,从而得到目标数据分级模型,包括:
接收所述中心服务器发送的所述平均参数值,并将所述数据分级模型的初始参数值替换为所述平均参数值;
根据调整后的数据分级模型、所述损失函数和所述本地数据,计算得到第二损失值;
在所述第二损失值小于等于所述预设阈值的情况下,确定所述平均参数值为所述最优参数值,从而得到所述目标数据分级模型;
在所述第二损失值大于所述预设阈值的情况下,确定所述初始参数值所述为最优参数值,从而得到所述目标数据分级模型。
8.根据权利要求1所述的数据分级模型训练方法,其特征在于,所述方法还包括:
基于另一随机数对所述最优参数值进行混淆处理,得到第三参数值;
将所述第三参数值发送至所述中心服务器,以供所述中心服务器保存。
9.一种数据分级方法,应用于参与主机设备,其特征在于,包括:
将所述参与主机设备的本地数据输入目标分级模型,得到所述本地数据的安全等级;所述目标分级模型是通过权利要求1~8任一项所述的数据分级模型训练方法训练得到的。
10.一种数据分级模型训练方法,应用于中心服务器,其特征在于,所述方法包括:
将数据分级模型下发至参与主机设备,以供所述参与主机设备使用所述参与主机设备的本地数据对所述数据分级模型进行训练;
接收所述参与主机设备发送的参数值,所述参数值是所述参与主机设备基于随机数,对训练后的数据分级模型的初始参数值进行混淆处理得到的;
根据所有所述参数值,计算得到平均参数值;
将所述平均参数值发送给所述参与主机设备,以供所述参与主机设备根据所述平均参数值确定所述数据分级模型的最优参数值,从而得到目标数据分级模型。
11.根据权利要求10所述的数据分级模型训练方法,其特征在于,在所述接收所述参与主机设备发送的参数值之前,所述方法还包括:
接收所述参与主机设备发送的学习完成指令,并在所述学习完成指令的数量大于预设数量,且所述学习完成指令的数量为偶数的情况下,为每个参与主机设备分配配对参与主机设备;
将相互配对的参与主机设备的标识信息添加进配对指令,并将所述配对指令发送至相互配对的参与主机设备,以供所述参与主机设备确定与所述参与主机设备进行配对的配对参与主机设备。
12.根据权利要求10所述的数据分级模型训练方法,其特征在于,所述方法还包括:
在所述将数据分级模型下发至参与主机设备,以供所述参与主机设备使用所述参与主机设备的本地数据对所述数据分级模型进行训练的过程中,将损失函数和预设阈值发送至所述参与主机设备,以供所述参与主机设备利用所述损失函数计算所述数据分级模型的第一损失值,并在所述第一损失值小于等于所述预设阈值的情况下,完成对所述数据分级模型的训练。
13.根据权利要求10所述的数据分级模型训练方法,其特征在于,所述方法还包括:
接收所述参与主机设备发送的第三参数值,并保存所述第三参数值;所述第三参数值是所述参与主机设备基于另一随机数对所述最优参数值进行混淆处理得到的。
14.一种数据分级模型训练装置,应用于参与主机设备,其特征在于,所述装置包括:
训练模块,用于接收中心服务器下发的数据分级模型,并使用所述参与主机设备的本地数据对所述数据分级模型进行训练;
第一混淆模块,用于在对所述数据分级模型训练完成后,基于随机数对所述数据分级模型的初始参数值进行混淆处理,得到第一参数值;
第一发送模块,用于将所述第一参数值发送至所述中心服务器,以供所述中心服务器根据所述第一参数值以及至少一个其它参与主机设备发送的第二参数值计算得到平均参数值;所述第二参数值是其它参与主机设备的初始参数值通过随机数混淆处理后得到的;
确定模块,用于接收所述中心服务器发送的所述平均参数值,并根据所述平均参数值确定所述数据分级模型的最优参数值,从而得到目标数据分级模型。
15.根据权利要求14所述的数据分级模型训练装置,其特征在于,所述第一混淆模块,包括:
发送子模块,用于向所述中心服务器发送学习完成指令,以供所述中心服务器根据所述学习完成指令反馈配对指令,对所述参与主机设备进行配对;
第一确定子模块,用于响应于所述中心服务器发送的所述配对指令,确定与所述参与主机设备进行配对的配对参与主机设备;
生成子模块,用于通过所述参与主机设备的随机数生成器生成第一随机数,将所述第一随机数发送至与所述参与主机设备配对的配对参与主机设备,并接收所述配对参与主机设备发送的第二随机数,所述第二随机数是所述配对参与主机设备的随机数生成器生成的;
混淆子模块,用于根据预设规则,从所述第一和第二中确定目标随机数,并基于所述目标随机数对所述初始参数值进行混淆处理,得到所述第一参数值。
16.根据权利要求15所述的数据分级模型训练装置,其特征在于,所述混淆子模块,包括:
加法单元,用于将所述初始参数值与所述目标随机数的加和值作为所述第一参数值,并通知所述配对参与主机设备将所述配对参与主机设备的初始参数值与所述目标随机数的差值作为所述第二参数值;
减法单元,用于将所述初始参数值与所述目标随机数的差值作为所述第一参数值,并通知所述配对参与主机设备将所述配对参与主机设备的初始参数值与所述目标随机数的加和值作为所述第二参数值。
17.根据权利要求15所述的数据分级模型训练装置,其特征在于,所述预设规则包括:
选取所述参与主机设备和所述配对参与主机设备中,算力最大的设备所生成的随机数为所述目标随机数。
18.根据权利要求15所述的数据分级模型训练装置,其特征在于,所述配对指令包括所述中心服务器为所述参与主机设备分配的配对参与主机设备的标识信息,所述第一确定子模块,具体用于根据所述配对指令中的配对参与主机设备的标识信息,确定与所述参与主机设备进行配对的配对参与主机设备。
19.根据权利要求14所述的数据分级模型训练装置,其特征在于,所述装置还包括:
第一接收模块,用于在所述接收中心服务器下发的数据分级模型,并使用所述参与主机设备的本地数据对所述数据分级模型进行训练的过程中,接收所述中心服务器下发的损失函数和预设阈值;
训练完成模块,用于利用所述损失函数计算所述数据分级模型的第一损失值,在所述第一损失值小于等于所述预设阈值的情况下,完成对所述数据分级模型的训练。
20.根据权利要求19所述的数据分级模型训练装置,其特征在于,所述确定模块,包括:
替换子模块,用于接收所述中心服务器发送的所述平均参数值,并将所述数据分级模型的初始参数值替换为所述平均参数值;
计算子模块,用于根据调整后的数据分级模型、所述损失函数和所述本地数据,计算得到第二损失值;
第二确定子模块,用于在所述第二损失值小于等于所述预设阈值的情况下,确定所述平均参数值为所述最优参数值,从而得到所述目标数据分级模型;
第三确定子模块,用于在所述第二损失值大于所述预设阈值的情况下,确定所述初始参数值所述为最优参数值,从而得到所述目标数据分级模型。
21.根据权利要求14所述的数据分级模型训练装置,其特征在于,所述装置还包括:
第二混淆模块,用于基于另一随机数对所述最优参数值进行混淆处理,得到第三参数值;
第二发送模块,用于将所述第三参数值发送至所述中心服务器,以供所述中心服务器保存。
22.一种数据分级装置,应用于参与主机设备,其特征在于,包括:
分级模块,用于将所述参与主机设备的本地数据输入目标分级模型,得到所述本地数据的安全等级;所述目标分级模型是通过权利要求1~8任一项所述的数据分级模型训练方法训练得到的。
23.一种数据分级模型训练装置,应用于中心服务器,其特征在于,所述装置包括:
第三发送模块,用于将数据分级模型下发至参与主机设备,以供所述参与主机设备使用所述参与主机设备的本地数据对所述数据分级模型进行训练;
第二接收模块,用于接收所述参与主机设备发送的参数值,所述参数值是所述参与主机设备基于随机数,对训练后的数据分级模型的初始参数值进行混淆处理得到的;
计算模块,用于根据所有所述参数值,计算得到平均参数值;
第四发送模块,用于将所述平均参数值发送给所述参与主机设备,以供所述参与主机设备根据所述平均参数值确定所述数据分级模型的最优参数值,从而得到目标数据分级模型。
24.根据权利要求23所述的数据分级模型训练装置,其特征在于,所述装置还包括:
配对模块,用于接收所述参与主机设备发送的学习完成指令,并在所述学习完成指令的数量大于预设数量,且所述学习完成指令的数量为偶数的情况下,为每个参与主机设备分配配对参与主机设备;
第五发送模块,用于将相互配对的参与主机设备的标识信息添加进配对指令,并将所述配对指令发送至相互配对的参与主机设备,以供所述参与主机设备确定与所述参与主机设备进行配对的配对参与主机设备。
25.根据权利要求23所述的数据分级模型训练装置,其特征在于,所述装置还包括:
第六发送模块,用于在所述将数据分级模型下发至参与主机设备,以供所述参与主机设备使用所述参与主机设备的本地数据对所述数据分级模型进行训练的过程中,将损失函数和预设阈值发送至所述参与主机设备,以供所述参与主机设备利用所述损失函数计算所述数据分级模型的第一损失值,并在所述第一损失值小于等于所述预设阈值的情况下,完成对所述数据分级模型的训练。
26.根据权利要求23所述的数据分级模型训练装置,其特征在于,所述装置还包括:
保存模块,用于接收所述参与主机设备发送的第三参数值,并保存所述第三参数值;所述第三参数值是所述参与主机设备基于另一随机数对所述最优参数值进行混淆处理得到的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110680359.8A CN113449318B (zh) | 2021-06-18 | 2021-06-18 | 一种数据分级模型训练方法、装置、数据分级方法、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110680359.8A CN113449318B (zh) | 2021-06-18 | 2021-06-18 | 一种数据分级模型训练方法、装置、数据分级方法、装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113449318A true CN113449318A (zh) | 2021-09-28 |
CN113449318B CN113449318B (zh) | 2024-03-19 |
Family
ID=77811836
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110680359.8A Active CN113449318B (zh) | 2021-06-18 | 2021-06-18 | 一种数据分级模型训练方法、装置、数据分级方法、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113449318B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115361311A (zh) * | 2022-08-25 | 2022-11-18 | 广州中南网络技术有限公司 | 互联网区块链数字标志传输识别方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110572253A (zh) * | 2019-09-16 | 2019-12-13 | 济南大学 | 一种联邦学习训练数据隐私性增强方法及系统 |
CN110704860A (zh) * | 2019-11-18 | 2020-01-17 | 深圳前海微众银行股份有限公司 | 提升安全性的纵向联邦学习方法、设备、系统及存储介质 |
CN110795477A (zh) * | 2019-09-20 | 2020-02-14 | 平安科技(深圳)有限公司 | 数据的训练方法及装置、系统 |
CN111611610A (zh) * | 2020-04-12 | 2020-09-01 | 西安电子科技大学 | 联邦学习信息处理方法、系统、存储介质、程序、终端 |
US20200358599A1 (en) * | 2019-05-07 | 2020-11-12 | International Business Machines Corporation | Private and federated learning |
US20210049298A1 (en) * | 2019-08-14 | 2021-02-18 | Google Llc | Privacy preserving machine learning model training |
CN112862001A (zh) * | 2021-03-18 | 2021-05-28 | 中山大学 | 一种隐私保护下的去中心化数据建模方法 |
CN112966298A (zh) * | 2021-03-01 | 2021-06-15 | 广州大学 | 一种复合隐私保护方法、系统、计算机设备及存储介质 |
-
2021
- 2021-06-18 CN CN202110680359.8A patent/CN113449318B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200358599A1 (en) * | 2019-05-07 | 2020-11-12 | International Business Machines Corporation | Private and federated learning |
US20210049298A1 (en) * | 2019-08-14 | 2021-02-18 | Google Llc | Privacy preserving machine learning model training |
CN110572253A (zh) * | 2019-09-16 | 2019-12-13 | 济南大学 | 一种联邦学习训练数据隐私性增强方法及系统 |
CN110795477A (zh) * | 2019-09-20 | 2020-02-14 | 平安科技(深圳)有限公司 | 数据的训练方法及装置、系统 |
CN110704860A (zh) * | 2019-11-18 | 2020-01-17 | 深圳前海微众银行股份有限公司 | 提升安全性的纵向联邦学习方法、设备、系统及存储介质 |
CN111611610A (zh) * | 2020-04-12 | 2020-09-01 | 西安电子科技大学 | 联邦学习信息处理方法、系统、存储介质、程序、终端 |
CN112966298A (zh) * | 2021-03-01 | 2021-06-15 | 广州大学 | 一种复合隐私保护方法、系统、计算机设备及存储介质 |
CN112862001A (zh) * | 2021-03-18 | 2021-05-28 | 中山大学 | 一种隐私保护下的去中心化数据建模方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115361311A (zh) * | 2022-08-25 | 2022-11-18 | 广州中南网络技术有限公司 | 互联网区块链数字标志传输识别方法 |
CN115361311B (zh) * | 2022-08-25 | 2023-08-22 | 广州中南网络技术有限公司 | 互联网区块链数字标志传输识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113449318B (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nie et al. | Pythagorean fuzzy multiple criteria decision analysis based on Shapley fuzzy measures and partitioned normalized weighted Bonferroni mean operator | |
Li et al. | TDBF: Two‐dimensional belief function | |
Zhang et al. | Emergency management evaluation by a fuzzy multi-criteria group decision support system | |
CN111444514B (zh) | 信息安全风险评估方法及装置、设备、存储介质 | |
CN101150432A (zh) | 一种信息系统风险评估方法及系统 | |
Fan et al. | A novel two‐stage model for cloud service trustworthiness evaluation | |
Li et al. | A process mining based approach to knowledge maintenance | |
CN112417492A (zh) | 基于数据分类分级的服务提供方法 | |
CN110866277A (zh) | 一种DaaS应用的数据集成的隐私保护方法 | |
Celikel et al. | A risk management approach to RBAC | |
Alabool et al. | A novel evaluation framework for improving trust level of Infrastructure as a Service | |
Wang et al. | A Dynamic multi-sensor data fusion approach based on evidence theory and WOWA operator | |
CN113449318B (zh) | 一种数据分级模型训练方法、装置、数据分级方法、装置 | |
Wang et al. | Finding main causes of elevator accidents via multi-dimensional association rule in edge computing environment | |
Choudhuri et al. | Privacy-Preserving Techniques in Artificial Intelligence Applications for Industrial IoT Driven Digital Transformation | |
CN113139191B (zh) | 一种漏洞处置修复优先级的统计方法 | |
Yang et al. | A Blockchain technology application maturity assessment model for digital government public service projects | |
Mehrabi et al. | Towards multi-objective statistically fair federated learning | |
CN113935070A (zh) | 基于区块链的数据处理方法、装置、设备以及存储介质 | |
Handoko et al. | Analysis of external auditor intentions in adopting artificial intelligence as fraud detection with the unified theory of acceptance and use of technology (UTAUT) approach | |
Bijwe et al. | Adapting the square process for privacy requirements engineering | |
CN110298582A (zh) | 一种构建专利价值分析评价模型的方法 | |
CN103729369B (zh) | 自动处理撞单的方法及装置 | |
Yang et al. | A subjective risk analysis approach of container supply chains | |
CN114025371A (zh) | 铁路gsm-r网络运用质量评价方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |