CN110750520A - 特征数据处理方法、装置、设备及可读存储介质 - Google Patents
特征数据处理方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN110750520A CN110750520A CN201911014572.4A CN201911014572A CN110750520A CN 110750520 A CN110750520 A CN 110750520A CN 201911014572 A CN201911014572 A CN 201911014572A CN 110750520 A CN110750520 A CN 110750520A
- Authority
- CN
- China
- Prior art keywords
- number set
- sample number
- feature data
- sample
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims description 34
- 238000012545 processing Methods 0.000 claims abstract description 245
- 238000010606 normalization Methods 0.000 claims abstract description 82
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000012935 Averaging Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 abstract description 29
- 230000005540 biological transmission Effects 0.000 abstract description 17
- 238000010586 diagram Methods 0.000 description 8
- 235000015243 ice cream Nutrition 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种特征数据处理方法、装置、设备和可读存储介质,所述特征数据处理方法包括:获取第一样本数集,对所述第一样本数集进行归一化处理和随机数处理,获得第一样本数集处理结果,将所述第一样本数集处理结果发送给所述纵向联邦学习的第二设备,其中,所述第二设备用于获取第二样本数集,对所述第二样本数集进行所述归一化处理,获得第二样本数集处理结果,并基于所述第一样本数集处理结果和所述第二样本数集处理结果,确定所述第一样本数集和所述第二样本数集之间的特征相关性。本发明解决了特征相关性计算时的数据传输和计算效率低的技术问题。
Description
技术领域
本发明涉及金融科技(Fintech)的机器学习技术领域,尤其涉及一种特征数据处理方法、装置、设备及可读存储介质。
背景技术
随着金融科技,尤其是互联网科技金融的不断发展,越来越多的技术(如分布式、区块链Blockchain、人工智能等)应用在金融领域,但金融业也对技术提出了更高的要求,如对金融业对应待办事项的分发也有更高的要求。
随着人工智能的不断发展,纵向联邦学习渐渐成为用于机器学习的重要手段之一,在现有技术中,在进行纵向联邦学习之前,通常由纵向联邦学习的一参与方A对其本地样本数据以进行常规加密,进而保证本地样本数据的隐私性,例如同态加密、对称加密或者非对称加密等,进一步地,将加密后的本地样本数据发送至另一参与方,然后由另一参与方B通过解密获得参与方A的本地样本数据,进而进行A和B的各自对应的的本地样本数据之间的相关性计算,然而,这种将数据进行常规加密传输的方式,会在极大程度上降低数据的传输和计算效率,所以,现有技术中存在特征相关性计算时的数据传输和计算效率低的技术问题。
发明内容
本发明的主要目的在于提供一种特征数据处理方法、装置、设备和可读存储介质,旨在解决现有技术中特征相关性计算时的数据传输和计算效率低的技术问题。
为实现上述目的,本发明实施例提供一种特征数据处理方法,所述特征数据处理方法应用于纵向联邦学习的第一设备,所述特征数据处理方法包括:
获取第一样本数集,对所述第一样本数集进行归一化处理和随机数处理,获得第一样本数集处理结果;
将所述第一样本数集处理结果发送给所述纵向联邦学习的第二设备,其中,所述第二设备用于获取第二样本数集,对所述第二样本数集进行所述归一化处理,获得第二样本数集处理结果,并基于所述第一样本数集处理结果和所述第二样本数集处理结果,确定所述第一样本数集和所述第二样本数集之间的特征相关性。
可选地,所述第一样本数集包括多个第一特征数据,
所述对所述第一样本数集进行归一化处理和随机数处理,获得第一样本数集处理结果的步骤包括:
对各所述第一特征数据进行归一化处理,获取归一化处理结果;
将所述归一化处理结果对应的每一数值与预设随机数相加,获得第一样本数集处理结果。
可选地,所述对所述第一样本数集进行归一化处理,获取归一化处理结果的步骤包括:
对各所述第一特征数据进行去均值处理,获得第一特征数据差值;
将所述第一特征数据差值与所述第一特征数据对应的标准差相除,获得所述归一化处理结果。
可选地,所述对各所述第一特征数据进行去均值处理,获得第一特征数据差值的步骤包括:
求取各所述第一特征数据的平均值,获得第一特征数据均值;
将各所述第一特征数据中的数值均减去所述第一特征数据均值,获得各所述第一特征数据的第一特征数据差值。
可选地,所述特征相关性通过相关系数进行表示,所述相关系数为皮尔逊系数,所述皮尔逊系数为所述第二设备通过计算所述第一样本数集处理结果和所述第二样本数集处理结果之间的乘积,以及计算所述乘积的数学期望得到的。
可选地,所述获取第一样本数集,对所述第一样本数集进行归一化处理和随机数处理,获得第一样本数集处理结果的步骤之前包括:
与所述第二设备进行样本对齐,获得第一样本对齐结果,其中,所述第二设备用于与所述第一设备进行样本对齐,获得第二样本对齐结果,所述第二样本对齐结果用于基于预设纵向联邦数据特征获取第二样本数集;
基于所述预设纵向联邦数据特征,在所述第一样本对齐结果中进行数据选取,获得第一样本数集。
可选地,所述特征相关性通过相关系数进行表示,所述相关系数为皮尔逊系数,所述第一样本数集包括多个第一特征数据,所述第二样本数集包括多个第二特征数据,所述皮尔逊系数用于与预设皮尔逊系数阀值进行比对,若所述皮尔逊系数小于所述预设皮尔逊系数阀值,则判定可基于所述第一特征数据和所述第二特征数据进行预设纵向联邦学习操作,若所述皮尔逊系数大于或者等于所述预设皮尔逊系数阀值,则判定不可基于所述第一特征数据和所述第二特征数据进行所述预设纵向联邦学习操作。
本发明还提供一种特征数据处理装置,其特征在于,所述特征数据处理装置应用于纵向联邦学习的第一设备,所述特征数据处理装置包括:
第一数据处理模块,用于所述获取第一样本数集,对所述第一样本数集进行归一化处理和随机数处理,获得第一样本数集处理结果;
发送模块,用于所述将所述第一样本数集处理结果发送给所述纵向联邦学习的第二设备,其中,所述第二设备用于获取第二样本数集,对所述第二样本数集进行所述归一化处理,获得第二样本数集处理结果,并基于所述第一样本数集处理结果和所述第二样本数集处理结果,确定所述第一样本数集和所述第二样本数集之间的特征相关性。
可选地,所述第一数据处理模块包括:
归一化子模块,用于所述对各所述第一特征数据进行归一化处理,获取归一化处理结果;
随机数子模块,用于所述将所述归一化处理结果对应的每一数值与预设随机数相加,获得第一样本数集处理结果。
可选地,所述归一化子模块包括:
求差单元,用于所述对各所述第一特征数据进行去均值处理,获得第一特征数据差值;
相除单元,用于所述将所述第一特征数据差值与所述第一特征数据对应的标准差相除,获得所述归一化处理结果。
可选地,所述求差单元包括:
求平均值子单元,用于所述求取各所述第一特征数据的平均值,获得第一特征数据均值;
求差子单元,用于所述将各所述第一特征数据中的数值均减去所述第一特征数据均值,获得各所述第一特征数据的第一特征数据差值。
可选地,所述特征数据处理装置还包括:
样本对齐模块,用于所述与所述第二设备进行样本对齐,获得第一样本对齐结果,其中,所述第二设备用于与所述第一设备进行样本对齐,获得第二样本对齐结果,所述第二样本对齐结果用于基于预设纵向联邦数据特征获取第二样本数集;
选取模块,用于所述基于所述预设纵向联邦数据特征,在所述第一样本对齐结果中进行数据选取,获得第一样本数集。
此外,为实现上述目的,本发明还提供一种用于纵向联邦学习的特征相关性计算装置,所述特征相关性计算装置应用于所述第二设备,所述第二设备可与所述第一设备进行通信连接,所述特征相关性计算装置包括:
特征相关性确定模块,用于所述获取第二样本数集,对所述第二样本数集进行所述归一化处理,获得第二样本数集处理结果,并基于所述第一样本数集处理结果和所述第二样本数集处理结果,确定所述第一样本数集和所述第二样本数集之间的特征相关性。
可选地,所述特征相关性确定模块包括:
皮尔逊系数计算模块,所述皮尔逊系数计算模块用于计算皮尔逊系数,其中,所述特征相关性通过相关系数进行表示,所述相关系数为皮尔逊系数,所述皮尔逊系数为所述第二设备通过计算所述第一样本数集处理结果和所述第二样本数集处理结果之间的乘积,以及计算所述乘积的数学期望得到的。
可选地,所述特征相关性计算装置还包括:
判断模块,所述比对模块用于判断是否可基于所述第一特征数据和所述第二特征数据进行预设纵向联邦学习操作,其中,所述特征相关性通过相关系数进行表示,所述相关系数为皮尔逊系数,所述第一样本数集包括多个第一特征数据,所述第二样本数集包括多个第二特征数据,所述皮尔逊系数用于与预设皮尔逊系数阀值进行比对,若所述皮尔逊系数小于所述预设皮尔逊系数阀值,则判定可基于所述第一特征数据和所述第二特征数据进行预设纵向联邦学习操作,若所述皮尔逊系数大于或者等于所述预设皮尔逊系数阀值,则判定不可基于所述第一特征数据和所述第二特征数据进行所述预设纵向联邦学习操作。
本发明还提供一种特征数据处理设备,所述特征数据处理设备包括所述第一设备,所述特征数据处理设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述特征数据处理方法的程序,所述特征数据处理方法的程序被处理器执行时可实现如上述的特征数据处理方法的步骤。
本发明还提供一种可读存储介质,所述可读存储介质上存储有实现特征数据处理方法的程序,所述特征数据处理方法的程序被处理器执行时实现如上述的特征数据处理方法的步骤。
本申请通过获取第一样本数集,对所述第一样本数集进行归一化处理和随机数处理,获得第一样本数集处理结果,并将所述第一样本数集处理结果发送至预设第二设备,进而将所述第一样本数集处理结果发送给所述纵向联邦学习的第二设备,其中,所述第二设备用于获取第二样本数集,对所述第二样本数集进行所述归一化处理,获得第二样本数集处理结果,并基于所述第一样本数集处理结果和所述第二样本数集处理结果,确定所述第一样本数集和所述第二样本数集之间的特征相关性。也即,本申请首先获取第一样本数集,进而进行对所述第一样本数集的归一化处理和随机数处理,获得第一样本数集处理结果,并将所述第一样本数集处理结果发送至纵向联邦学习的第二设备,进而通过所述第二设备获取第二样本数集,并进行对所述第二样本数集的归一化处理,获得第二样本数集处理结果,进一步地,通过所述第二设备基于所述第一样本数集处理结果和所述第二样本数集处理结果,确定所述第一样本数集和所述第二样本数集之间的特征相关性。也即,本申请中通过进行随机数处理保障数据传输的隐私性,避免了第一设备在将所述第一样本数集处理结果发送至第二设备时泄露所述第一样本数集和对所述第一样本数集进行归一化处理的结果,且该方法并未使用已有的加密方法对数据进行加密,并且通过第二设备基于所述第一样本数集处理结果和所述第二样本数集处理结果,可直接计算样本收集的特征相关性,无需加解密过程和额外的数据传输过程,所以,本申请在保证数据传输的隐私性的基础上,极大程度地提高了计算所述特征相关性时的数据传输和计算效率,所以,解决了现有技术中特征相关性计算时的数据传输和计算效率低的技术问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明特征数据处理方法第一实施例的流程示意图;
图2为本发明特征数据处理方法中解析某应用软件界面的树状界面完整逻辑模型的示意图;
图3为本发明特征数据处理方法建立所述界面完整逻辑模型的流程图示意图;
图4为本发明特征数据处理方法第二实施例的流程示意图;
图5为本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种特征数据处理方法,所述特征数据处理方法应用于纵向联邦学习的第一设备,在本申请特征数据处理方法的第一实施例中,参照图1,所述特征数据处理方法包括:
步骤S10,获取第一样本数集,对所述第一样本数集进行归一化处理和随机数处理,获得第一样本数集处理结果;
在本实施例中,需要说明的是,进行所述纵向联邦学习的参与方包括第一设备和设第二设备,所述第一样本数据包括多个第一特征数据,例如,假设所述第一样本数据对为A地区冰激凌的销量,则所述第一特征数据包括气温对销量的影响数据、客户年龄对销量的影响数据等,所述归一化处理包括对数据进行去均值,再除去标准差的过程。
获取第一样本数集,对所述第一样本数集进行归一化处理和随机数处理,获得第一样本数集处理结果,具体地,从所述预设第一设备的样本数据库中提取第一样本数集,对所述第一样本数集每一条第一特征数据进行去均值化,再将去均值化的各所述第一特征数据除以各所述第一特征数据的标准差,获得归一化处理数据,进而将各所述归一化处理数据加上一个随机数,获得第一样本数集处理结果。
其中,所述获取第一样本数集,对所述第一样本数集进行归一化处理和随机数处理,获得第一样本数集处理结果的步骤之前包括:
步骤A10,与所述第二设备进行样本对齐,获得第一样本对齐结果,其中,所述第二设备用于与所述第一设备进行样本对齐,获得第二样本对齐结果,所述第二样本对齐结果用于基于预设纵向联邦数据特征获取第二样本数集;
在本实施例中,需要说明的是,所述第一设备与所述第二设备均适用于纵向联邦学习,其中,所述纵向联邦学习是在参与者的数据特征重叠较小,而用户重叠较多的情况下,取出参与者用户相同而用户数据特征不同的那部分用户及数据进行联合机器学习训练。
与所述第二设备进行样本对齐,获得第一样本对齐结果,其中,所述第二设备用于与所述第一设备进行样本对齐,获得第二样本对齐结果,所述第二样本对齐结果用于基于预设纵向联邦数据特征获取第二样本数集,具体地,基于所述纵向联邦需求的数据类型,所述第一设备将与所述第二设备进行样本对齐,获得样本对齐结果,其中,所述样本对齐结果包括第一样本对齐结果和第二样本对齐结果,其中,所述第二样本对齐结果用于基于预设纵向联邦数据特征获取第二样本数集,如图2所示图2中左侧图即为第一样本对齐结果,图2中右侧图即为第二样本对齐结果,其中,X1、X2、X3、X4和X5为相同用户而用户特征数据不同的特征数据,Y为不同于X的其他用户的特征数据。
步骤A20,基于所述预设纵向联邦数据特征,在所述第一样本对齐结果中进行数据选取,获得第一样本数集。
在本实施例中,需要说明的是,所述预设纵向联邦数据特征指的是本次进行纵向联邦学习所需的训练数据的特征。
基于所述预设纵向联邦数据特征,在所述第一样本对齐结果中进行数据选取,获得第一样本数集,具体地,在所述第一样本对齐结果中查询与所述预设纵向联邦数据特征相匹配的样本数集,获得第一样本数集,进一步地,将所述第一样本数集存储至所述预设第一设备的本地样本数据库中。
步骤S20,将所述第一样本数集处理结果发送给所述纵向联邦学习的第二设备,其中,所述第二设备用于获取第二样本数集,对所述第二样本数集进行所述归一化处理,获得第二样本数集处理结果,并基于所述第一样本数集处理结果和所述第二样本数集处理结果,确定所述第一样本数集和所述第二样本数集之间的特征相关性。
在本实施例中,需要说明的是,所述第二样本数集是与所述第一样本数集相对应的,例如,假设所述第一样本数集为与冰激凌销量有关的特征数据,则所述第二样本数集也是与冰激凌销量有关的特征数据。
将所述第一样本数集处理结果发送给所述纵向联邦学习的第二设备,其中,所述第二设备用于获取第二样本数集,对所述第二样本数集进行所述归一化处理,获得第二样本数集处理结果,并基于所述第一样本数集处理结果和所述第二样本数集处理结果,确定所述第一样本数集和所述第二样本数集之间的特征相关性,具体地,在将所述第一样本数集处理结果发送给所述纵向联邦学习的第二设备,其中,所述第二设备用于与所述第一设备进行样本对齐,获得第二样本对齐结果,所述第二样本对齐结果用于基于预设纵向联邦数据特征获取第二样本数集,进而通过所述第二设备基于所述第一样本数集处理结果和所述第二样本数集处理结果,求取所述第一样本数集处理结果和所述第二样本数集处理结果之间的乘积,进而通过所述第二设备计算所述乘积的数学期望,获得特征相关性系数,也即,通过所述第二设备生成所述第一样本数集和所述第二样本数集之间的特征相关性,其中,所述特征相关性通过相关系数进行表示,所述相关系数为皮尔逊系数,所述皮尔逊系数为所述第二设备通过计算所述第一样本数集处理结果和所述第二样本数集处理结果之间的乘积,以及计算所述乘积的数学期望得到的,其中,所述皮尔逊系数即为pearson系数,所述皮尔逊系数为一种用于衡量数据之间的相关性的统计学参数,皮尔逊系数可使用如下公式计算所述皮尔逊系数,其中,X和Y分别代
表第二样本数集中的一条第二特征数据和第一样本数集中的一条第一特征数据,μx为X对应的均值,μy为Y对应的均值,σx为X对应的标准差,σy为Y对应的标准差,P为皮尔逊系数,而在本实施例中,由于对归一化处理后的第二特征数据中进行了随机数处理,也即,在((X-μx)/σx)后面加上了一个随机数,所以,可对上述公式进行变形,其中,公式变形推导如下:
令
其中,R为所述预设第二设备在本地加上的随机数,因此与Y的归一化显然是独立的,因此R和((Y-μy)/σy)的期望等于两者期望的乘积。同时,Y归一化后,期望也为0,因此R和((Y-μy)/σy)的乘积,期望为0,也即,在((X-μx)/σx)后面加上了一个随机数并不影响皮尔逊系数的计算,同时又对X进行加密,且没有增加过多的数据计算和传输负担,如图3所示即为所述预设第一设备和所述预设第二设备联合计算皮尔逊系数的示意图,其中,B为第一样本数集,A为第二样本数集。
进一步地,需要说明的是,所述特征相关性通过相关系数进行表示,所述相关系数为皮尔逊系数,所述第一样本数集包括多个第一特征数据,所述第二样本数集包括多个第二特征数据,所述皮尔逊系数用于与预设皮尔逊系数阀值进行比对,若所述皮尔逊系数小于所述预设皮尔逊系数阀值,则判定可基于所述第一特征数据和所述第二特征数据进行预设纵向联邦学习操作,若所述皮尔逊系数大于或者等于所述预设皮尔逊系数阀值,则判定不可基于所述第一特征数据和所述第二特征数据进行所述预设纵向联邦学习操作。
具体地,通过所述第二设备将所述皮尔逊系数与预设皮尔逊系数阀值进行比对,当所述皮尔逊系数小于所述预设皮尔逊系数阀值时,则判定所述第一特征数据和所述第二特征数据的相关性弱,对纵向联邦学习的影响弱,不会在进行纵向联邦学习时给数据处理带来噪声,进而判定可基于所述第一特征数据和所述第二特征数据进行预设纵向联邦学习操作,当所述皮尔逊系数大于或者等于所述预设皮尔逊系数阀值时,则判定所述第一特征数据和所述第二特征数据的相关性强,对纵向联邦学习的影响强,会在进行纵向联邦学习时给数据处理带来噪声,进而判定不可基于所述第一特征数据和所述第二特征数据进行所述预设纵向联邦学习操作。
本实施例通过获取第一样本数集,对所述第一样本数集进行归一化处理和随机数处理,获得第一样本数集处理结果,并将所述第一样本数集处理结果发送至预设第二设备,进而将所述第一样本数集处理结果发送给所述纵向联邦学习的第二设备,其中,所述第二设备用于获取第二样本数集,对所述第二样本数集进行所述归一化处理,获得第二样本数集处理结果,并基于所述第一样本数集处理结果和所述第二样本数集处理结果,确定所述第一样本数集和所述第二样本数集之间的特征相关性。也即,本实施例首先获取第一样本数集,进而进行对所述第一样本数集的归一化处理和随机数处理,获得第一样本数集处理结果,并将所述第一样本数集处理结果发送至纵向联邦学习的第二设备,进而通过所述第二设备获取第二样本数集,并进行对所述第二样本数集的归一化处理,获得第二样本数集处理结果,进一步地,通过所述第二设备基于所述第一样本数集处理结果和所述第二样本数集处理结果,确定所述第一样本数集和所述第二样本数集之间的特征相关性。也即,本实施例中通过进行随机数处理保障数据传输的隐私性,避免了第一设备在将所述第一样本数集处理结果发送至第二设备时泄露所述第一样本数集和对所述第一样本数集进行归一化处理的结果,且该方法并未使用已有的加密方法对数据进行加密,并且通过第二设备基于所述第一样本数集处理结果和所述第二样本数集处理结果,可直接计算样本收集的特征相关性,无需加解密过程和额外的数据传输过程,所以,本实施例在保证数据传输的隐私性的基础上,极大程度地提高了计算所述特征相关性时的数据传输和计算效率,所以,解决了现有技术中特征相关性计算时的数据传输和计算效率低的技术问题。
进一步地,参照图4,基于本申请中第一实施例,在特征数据处理方法的另一实施例中,所述第一样本数集包括多个第一特征数据,
在步骤S10中,所述对所述第一样本数集进行归一化处理和随机数处理,获得第一样本数集处理结果的步骤包括:
步骤S11,对各所述第一特征数据进行归一化处理,获取归一化处理结果;
在本实施例中,对各所述第一特征数据进行归一化处理,获取归一化处理结果,具体地,对所述第一特征数据进行去均值处理,获得去均值处理结果,进而将所述去均值处理结果除以所述第一特征数据的标准差,获得所述归一化处理结果。
其中,所述对所述第一样本数集进行归一化处理,获取归一化处理结果的步骤包括:
步骤S111,对各所述第一特征数据进行去均值处理,获得第一特征数据差值;
在本实施例中,对各所述第一特征数据进行去均值处理,获得第一特征数据差值,具体地,计算所述第一特征数据对应的平均值,进而将所述第一特征数据中每一数值均减去所述第一特征数据对应的平均值,获得所述一特征数据差值。
步骤S112,将所述第一特征数据差值与所述第一特征数据对应的标准差相除,获得所述归一化处理结果。
在本实施例中,将所述第一特征数据差值与所述第一特征数据对应的标准差相除,获得所述归一化处理结果,具体地,计算所述一特征数据对应的标准差,进而将所述第一特征数据差值与所述第一特征数据对应的标准差相除,获得所述归一化处理结果。
其中,所述对各所述第一特征数据进行去均值处理,获得第一特征数据差值的步骤包括:
步骤B10,求取各所述第一特征数据的平均值,获得第一特征数据均值;
在本实施例中,需要说明的是,所述第一特征数据包括多个数值,例如,假设所述第一特征数据为气温对冰激凌销量的影响数据,则所述第一特征数据包括不同气温时的冰激凌的销量。
步骤B20,将各所述第一特征数据中的数值均减去所述第一特征数据均值,获得各所述第一特征数据的第一特征数据差值。
在本实施例中,将各所述第一特征数据中的数值均减去所述第一特征数据均值,获得各所述第一特征数据的第一特征数据差值,具体地,假设所述第一特征数据为气温对冰激凌销量的影响数据,当气温为0至10摄氏度时,冰激凌销量为每月100个,当气温为10至20摄氏度时,冰激凌销量为每月500个,所以,所述第一特征数据均值为300,所述第一特征数据差值则为-200和200。
步骤S12,将所述归一化处理结果对应的每一数值与预设随机数相加,获得第一样本数集处理结果。
在本实施例中,将所述归一化处理结果对应的每一数值与预设随机数相加,获得第一样本数集处理结果,具体地,假设所述第一特征数据为X,则所述第一特征数据均值为μx,所述第一特征数据标准差为σx,所以,所述归一化处理结果为((X-μx)/σx),若所述预设随机数为R,则所述第一样本数集处理结果为((X-μx)/σx+R)。
本实施例通过对各所述第一特征数据进行归一化处理,获取归一化处理结果,进而将所述归一化处理结果对应的每一数值与预设随机数相加,获得第一样本数集处理结果。也即,本实施例首先进行对所述第一特征数据的归一化处理,获取归一化处理结果,进而进行对所述归一化处理结果后的每一数值与预设随机数的相加,获得第一样本数集处理结果。也即,本实施例提供了一种对所述第一样本数集进行归一化处理和随机数处理的方法,该方法通过对各所述第一特征数据进行归一化处理,获取归一化处理结果,进而通过将所述归一化处理结果后的每一数值与预设随机数相加,实现了对第一样本数集的加密,避免了在进行相关性计算时的隐私泄露,且进行该随机数处理时,并未产生额外的数据计算和传输,所以,为解决现有技术中存在特征相关性计算时的数据传输和计算效率低的技术问题奠定了基础。
参照图5,图5是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
如图5所示,该特征数据处理设备可以包括:处理器1001,例如CPU,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
可选地,该特征数据处理设备还可以包括矩形用户接口、网络接口、摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。矩形用户接口可以包括显示屏(Display)、输入子模块比如键盘(Keyboard),可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
本领域技术人员可以理解,图5中示出的特征数据处理设备结构并不构成对特征数据处理设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图5所示,作为一种计算机存储可读存储介质的存储器1005中可以包括操作系统、网络通信模块以及特征数据处理程序。操作系统是管理和控制特征数据处理设备硬件和软件资源的程序,支持特征数据处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与特征数据处理系统中其它硬件和软件之间通信。
在图5所示的特征数据处理设备中,处理器1001用于执行存储器1005中存储的特征数据处理程序,实现上述任一项所述的特征数据处理方法的步骤。
本发明特征数据处理设备具体实施方式与上述特征数据处理方法各实施例基本相同,在此不再赘述。
本发明还提供一种特征数据处理装置,其特征在于,所述特征数据处理装置应用于纵向联邦学习的第一设备,所述特征数据处理装置包括:
第一数据处理模块,用于所述获取第一样本数集,对所述第一样本数集进行归一化处理和随机数处理,获得第一样本数集处理结果;
发送模块,用于所述将所述第一样本数集处理结果发送给所述纵向联邦学习的第二设备,其中,所述第二设备用于获取第二样本数集,对所述第二样本数集进行所述归一化处理,获得第二样本数集处理结果,并基于所述第一样本数集处理结果和所述第二样本数集处理结果,确定所述第一样本数集和所述第二样本数集之间的特征相关性。
可选地,所述第一数据处理模块包括:
归一化子模块,用于所述对各所述第一特征数据进行归一化处理,获取归一化处理结果;
随机数子模块,用于所述将所述归一化处理结果对应的每一数值与预设随机数相加,获得第一样本数集处理结果。
可选地,所述归一化子模块包括:
求差单元,用于所述对各所述第一特征数据进行去均值处理,获得第一特征数据差值;
相除单元,用于所述将所述第一特征数据差值与所述第一特征数据对应的标准差相除,获得所述归一化处理结果。
可选地,所述求差单元包括:
求平均值子单元,用于所述求取各所述第一特征数据的平均值,获得第一特征数据均值;
求差子单元,用于所述将各所述第一特征数据中的数值均减去所述第一特征数据均值,获得各所述第一特征数据的第一特征数据差值。
可选地,所述特征数据处理装置还包括:
样本对齐模块,用于所述与所述第二设备进行样本对齐,获得第一样本对齐结果,其中,所述第二设备用于与所述第一设备进行样本对齐,获得第二样本对齐结果,所述第二样本对齐结果用于基于预设纵向联邦数据特征获取第二样本数集;
选取模块,用于所述基于所述预设纵向联邦数据特征,在所述第一样本对齐结果中进行数据选取,获得第一样本数集。
此外,为实现上述目的,本发明还提供一种用于纵向联邦学习的特征相关性计算装置,所述特征相关性计算装置应用于所述第二设备,所述特征相关性计算装置包括:
特征相关性确定模块,用于所述获取第二样本数集,对所述第二样本数集进行所述归一化处理,获得第二样本数集处理结果,并基于所述第一样本数集处理结果和所述第二样本数集处理结果,确定所述第一样本数集和所述第二样本数集之间的特征相关性。
可选地,所述特征相关性确定模块包括:
皮尔逊系数计算单元,所述皮尔逊系数计算单元用于计算皮尔逊系数,其中,所述特征相关性通过相关系数进行表示,所述相关系数为皮尔逊系数,所述皮尔逊系数为所述第二设备通过计算所述第一样本数集处理结果和所述第二样本数集处理结果之间的乘积,以及计算所述乘积的数学期望得到的。
可选地,所述特征相关性计算装置还包括:
判断模块,所述比对模块用于判断是否可基于所述第一特征数据和所述第二特征数据进行预设纵向联邦学习操作,其中,所述特征相关性通过相关系数进行表示,所述相关系数为皮尔逊系数,所述第一样本数集包括多个第一特征数据,所述第二样本数集包括多个第二特征数据,所述皮尔逊系数用于与预设皮尔逊系数阀值进行比对,若所述皮尔逊系数小于所述预设皮尔逊系数阀值,则判定可基于所述第一特征数据和所述第二特征数据进行预设纵向联邦学习操作,若所述皮尔逊系数大于或者等于所述预设皮尔逊系数阀值,则判定不可基于所述第一特征数据和所述第二特征数据进行所述预设纵向联邦学习操作。
本发明特征数据处理装置的具体实施方式与上述特征数据处理方法各实施例基本相同,在此不再赘述。
本发明提供了一种可读存储介质,所述可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的特征数据处理方法的步骤。
本发明可读存储介质具体实施方式与上述特征数据处理方法各实施例基本相同,在此不再赘述。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利处理范围内。
Claims (10)
1.一种特征数据处理方法,其特征在于,应用于纵向联邦学习的第一设备,所述特征数据处理方法包括:
获取第一样本数集,对所述第一样本数集进行归一化处理和随机数处理,获得第一样本数集处理结果;
将所述第一样本数集处理结果发送给所述纵向联邦学习的第二设备,其中,所述第二设备用于获取第二样本数集,对所述第二样本数集进行所述归一化处理,获得第二样本数集处理结果,并基于所述第一样本数集处理结果和所述第二样本数集处理结果,确定所述第一样本数集和所述第二样本数集之间的特征相关性。
2.如权利要求1所述特征数据处理方法,其特征在于,所述第一样本数集包括多个第一特征数据,
所述对所述第一样本数集进行归一化处理和随机数处理,获得第一样本数集处理结果的步骤包括:
对各所述第一特征数据进行归一化处理,获取归一化处理结果;
将所述归一化处理结果对应的每一数值与预设随机数相加,获得第一样本数集处理结果。
3.如权利要求2所述特征数据处理方法,其特征在于,所述对所述第一样本数集进行归一化处理,获取归一化处理结果的步骤包括:
对各所述第一特征数据进行去均值处理,获得第一特征数据差值;
将所述第一特征数据差值与所述第一特征数据对应的标准差相除,获得所述归一化处理结果。
4.如权利要求3所述特征数据处理方法,其特征在于,所述对各所述第一特征数据进行去均值处理,获得第一特征数据差值的步骤包括:
求取各所述第一特征数据的平均值,获得第一特征数据均值;
将各所述第一特征数据中的数值均减去所述第一特征数据均值,获得各所述第一特征数据的第一特征数据差值。
5.如权利要求1所述特征数据处理方法,其特征在于,所述特征相关性通过相关系数进行表示,所述相关系数为皮尔逊系数,所述皮尔逊系数为所述第二设备通过计算所述第一样本数集处理结果和所述第二样本数集处理结果之间的乘积,以及计算所述乘积的数学期望得到的。
6.如权利要求1所述特征数据处理方法,其特征在于,所述获取第一样本数集,对所述第一样本数集进行归一化处理和随机数处理,获得第一样本数集处理结果的步骤之前包括:
与所述第二设备进行样本对齐,获得第一样本对齐结果,其中,所述第二设备用于与所述第一设备进行样本对齐,获得第二样本对齐结果,所述第二样本对齐结果用于基于预设纵向联邦数据特征获取第二样本数集;
基于所述预设纵向联邦数据特征,在所述第一样本对齐结果中进行数据选取,获得第一样本数集。
7.如权利要求1所述特征数据处理方法,其特征在于,所述特征相关性通过相关系数进行表示,所述相关系数为皮尔逊系数,所述第一样本数集包括多个第一特征数据,所述第二样本数集包括多个第二特征数据,所述皮尔逊系数用于与预设皮尔逊系数阀值进行比对,若所述皮尔逊系数小于所述预设皮尔逊系数阀值,则判定可基于所述第一特征数据和所述第二特征数据进行预设纵向联邦学习操作,若所述皮尔逊系数大于或者等于所述预设皮尔逊系数阀值,则判定不可基于所述第一特征数据和所述第二特征数据进行所述预设纵向联邦学习操作。
8.一种特征数据处理装置,其特征在于,所述特征数据处理装置应用于特征数据处理设备,所述特征数据处理装置包括:
数据处理模块,用于所述获取第一样本数集,对所述第一样本数集进行归一化处理和随机数处理,获得第一样本数集处理结果;
第二数据处理模块,用于所述将所述第一样本数集处理结果发送给所述纵向联邦学习的第二设备,其中,所述第二设备用于获取第二样本数集,对所述第二样本数集进行所述归一化处理,获得第二样本数集处理结果,并基于所述第一样本数集处理结果和所述第二样本数集处理结果,确定所述第一样本数集和所述第二样本数集之间的特征相关性。
9.一种特征数据处理设备,其特征在于,所述特征数据处理设备包括:存储器、处理器以及存储在存储器上的用于实现所述特征数据处理方法的程序,
所述存储器用于存储实现特征数据处理方法的程序;
所述处理器用于执行实现所述特征数据处理方法的程序,以实现如权利要求1至7中任一项所述特征数据处理方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有实现特征数据处理方法的程序,所述实现特征数据处理方法的程序被处理器执行以实现如权利要求1至7中任一项所述特征数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911014572.4A CN110750520A (zh) | 2019-10-23 | 2019-10-23 | 特征数据处理方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911014572.4A CN110750520A (zh) | 2019-10-23 | 2019-10-23 | 特征数据处理方法、装置、设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110750520A true CN110750520A (zh) | 2020-02-04 |
Family
ID=69279606
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911014572.4A Pending CN110750520A (zh) | 2019-10-23 | 2019-10-23 | 特征数据处理方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110750520A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111444527A (zh) * | 2020-03-30 | 2020-07-24 | 腾讯云计算(北京)有限责任公司 | 不同应用程序之间数据的相关系数确定方法、装置及介质 |
CN111460511A (zh) * | 2020-04-17 | 2020-07-28 | 支付宝(杭州)信息技术有限公司 | 基于隐私保护的联邦学习、虚拟对象分配方法和装置 |
WO2021244035A1 (en) * | 2020-06-03 | 2021-12-09 | Huawei Technologies Co., Ltd. | Methods and apparatuses for defense against adversarial attacks on federated learning systems |
WO2022022024A1 (zh) * | 2020-07-27 | 2022-02-03 | 深圳前海微众银行股份有限公司 | 训练样本构建方法、装置、设备及计算机可读存储介质 |
CN118246524A (zh) * | 2024-05-24 | 2024-06-25 | 蓝象智联(杭州)科技有限公司 | 一种用于联邦学习的多重共线性分析方法及电子设备 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0518441D0 (en) * | 2005-09-09 | 2005-10-19 | Snell & Wilcox Ltd | Method of and apparatus for image analysis |
US20050234632A1 (en) * | 2004-04-15 | 2005-10-20 | Satoshi Masuda | Apparatus and method for controlling internal combustion engine |
US9311403B1 (en) * | 2010-06-16 | 2016-04-12 | Google Inc. | Hashing techniques for data set similarity determination |
CN105703901A (zh) * | 2016-03-25 | 2016-06-22 | 广东欧珀移动通信有限公司 | 加密数据输入方法及加密数据输入装置 |
CN106549979A (zh) * | 2016-12-23 | 2017-03-29 | 成都鼎安华物联网工程应用有限公司 | 一种轻量化物联网数据的加解密传输方法 |
US20170169241A1 (en) * | 2015-12-14 | 2017-06-15 | Panasonic Intellectual Property Corporation Of America | Search method, search device, search system, and program |
CN107038383A (zh) * | 2016-02-03 | 2017-08-11 | 华为技术有限公司 | 一种数据处理的方法和设备 |
CN107256411A (zh) * | 2017-05-27 | 2017-10-17 | 南京师范大学 | 特征选择和标记相关性联合学习的多标记数据分类方法 |
CN107330555A (zh) * | 2017-06-30 | 2017-11-07 | 红云红河烟草(集团)有限责任公司 | 一种基于随机森林回归的制丝过程参数赋权方法 |
CN108171076A (zh) * | 2017-12-22 | 2018-06-15 | 湖北工业大学 | 保护电子交易中消费者隐私的大数据相关性分析方法及系统 |
CN110245510A (zh) * | 2019-06-19 | 2019-09-17 | 北京百度网讯科技有限公司 | 用于预测信息的方法和装置 |
-
2019
- 2019-10-23 CN CN201911014572.4A patent/CN110750520A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050234632A1 (en) * | 2004-04-15 | 2005-10-20 | Satoshi Masuda | Apparatus and method for controlling internal combustion engine |
GB0518441D0 (en) * | 2005-09-09 | 2005-10-19 | Snell & Wilcox Ltd | Method of and apparatus for image analysis |
US9311403B1 (en) * | 2010-06-16 | 2016-04-12 | Google Inc. | Hashing techniques for data set similarity determination |
US20170169241A1 (en) * | 2015-12-14 | 2017-06-15 | Panasonic Intellectual Property Corporation Of America | Search method, search device, search system, and program |
CN107038383A (zh) * | 2016-02-03 | 2017-08-11 | 华为技术有限公司 | 一种数据处理的方法和设备 |
CN105703901A (zh) * | 2016-03-25 | 2016-06-22 | 广东欧珀移动通信有限公司 | 加密数据输入方法及加密数据输入装置 |
CN106549979A (zh) * | 2016-12-23 | 2017-03-29 | 成都鼎安华物联网工程应用有限公司 | 一种轻量化物联网数据的加解密传输方法 |
CN107256411A (zh) * | 2017-05-27 | 2017-10-17 | 南京师范大学 | 特征选择和标记相关性联合学习的多标记数据分类方法 |
CN107330555A (zh) * | 2017-06-30 | 2017-11-07 | 红云红河烟草(集团)有限责任公司 | 一种基于随机森林回归的制丝过程参数赋权方法 |
CN108171076A (zh) * | 2017-12-22 | 2018-06-15 | 湖北工业大学 | 保护电子交易中消费者隐私的大数据相关性分析方法及系统 |
CN110245510A (zh) * | 2019-06-19 | 2019-09-17 | 北京百度网讯科技有限公司 | 用于预测信息的方法和装置 |
Non-Patent Citations (1)
Title |
---|
李尚洁;李明诗;沈文娟;: "多时相Landsat遥感影像相对辐射归一化方法的性能比较", 西南林业大学学报(自然科学), no. 03, 15 May 2019 (2019-05-15), pages 115 - 122 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111444527A (zh) * | 2020-03-30 | 2020-07-24 | 腾讯云计算(北京)有限责任公司 | 不同应用程序之间数据的相关系数确定方法、装置及介质 |
CN111444527B (zh) * | 2020-03-30 | 2023-08-11 | 腾讯云计算(北京)有限责任公司 | 不同应用程序之间数据的相关系数确定方法、装置及介质 |
CN111460511A (zh) * | 2020-04-17 | 2020-07-28 | 支付宝(杭州)信息技术有限公司 | 基于隐私保护的联邦学习、虚拟对象分配方法和装置 |
CN111460511B (zh) * | 2020-04-17 | 2023-05-02 | 支付宝(杭州)信息技术有限公司 | 基于隐私保护的联邦学习、虚拟对象分配方法和装置 |
WO2021244035A1 (en) * | 2020-06-03 | 2021-12-09 | Huawei Technologies Co., Ltd. | Methods and apparatuses for defense against adversarial attacks on federated learning systems |
US11651292B2 (en) | 2020-06-03 | 2023-05-16 | Huawei Technologies Co., Ltd. | Methods and apparatuses for defense against adversarial attacks on federated learning systems |
WO2022022024A1 (zh) * | 2020-07-27 | 2022-02-03 | 深圳前海微众银行股份有限公司 | 训练样本构建方法、装置、设备及计算机可读存储介质 |
CN118246524A (zh) * | 2024-05-24 | 2024-06-25 | 蓝象智联(杭州)科技有限公司 | 一种用于联邦学习的多重共线性分析方法及电子设备 |
CN118246524B (zh) * | 2024-05-24 | 2024-07-26 | 蓝象智联(杭州)科技有限公司 | 一种用于联邦学习的多重共线性分析方法及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110750520A (zh) | 特征数据处理方法、装置、设备及可读存储介质 | |
WO2020177392A1 (zh) | 基于联邦学习的模型参数训练方法、装置、设备及介质 | |
CN110851869B (zh) | 敏感信息处理方法、设备及可读存储介质 | |
CN111598254A (zh) | 联邦学习建模方法、设备及可读存储介质 | |
US20180212759A1 (en) | Secure Probabilistic Analytics Using Homomorphic Encryption | |
CN111340247B (zh) | 纵向联邦学习系统优化方法、设备及可读存储介质 | |
US20190050398A1 (en) | File storage method, file search method and file storage system based on public-key encryption with keyword search | |
CN111898137A (zh) | 一种联邦学习的隐私数据处理方法、设备及系统 | |
US8712047B2 (en) | Visual universal decryption apparatus and methods | |
CN110807528A (zh) | 特征相关性计算方法、设备及计算机可读存储介质 | |
WO2024060666A1 (zh) | 人脸图像的加密/解密方法、装置、电子设备及存储介质 | |
WO2024082514A1 (zh) | 一种业务指标预测方法、装置、设备和存储介质 | |
CN111079164B (zh) | 特征相关性计算方法、装置、设备及计算机可读存储介质 | |
Krishnamoorthi et al. | A selective image encryption based on square-wave shuffling with orthogonal polynomials transformation suitable for mobile devices | |
CN114417364A (zh) | 一种数据加密方法、联邦建模方法、装置及计算机设备 | |
US20130305321A1 (en) | Methods for confirming user interaction in response to a request for a computer provided service and devices thereof | |
CN111523679A (zh) | 特征分箱方法、设备及可读存储介质 | |
CN114143000B (zh) | 基于不经意传输协议与秘密分享的匿踪查询方法及装置 | |
WO2019076002A1 (zh) | 用于终端设备的权限控制方法和装置 | |
CN112001452B (zh) | 特征选择方法、装置、设备及可读存储介质 | |
CN111414636A (zh) | 识别模型的更新方法、装置、设备及存储介质 | |
CN116432040B (zh) | 基于联邦学习的模型训练方法、装置、介质以及电子设备 | |
CN114638274A (zh) | 特征选择方法、设备、可读存储介质及计算机程序产品 | |
US10402555B2 (en) | Browser attestation challenge and response system | |
KR20150115762A (ko) | 호기심 많은 추천자로부터의 프라이버시 보호 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |