CN110969261B - 基于加密算法的模型构建方法及相关设备 - Google Patents
基于加密算法的模型构建方法及相关设备 Download PDFInfo
- Publication number
- CN110969261B CN110969261B CN201911199932.2A CN201911199932A CN110969261B CN 110969261 B CN110969261 B CN 110969261B CN 201911199932 A CN201911199932 A CN 201911199932A CN 110969261 B CN110969261 B CN 110969261B
- Authority
- CN
- China
- Prior art keywords
- data
- original data
- original
- training
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 111
- 238000013507 mapping Methods 0.000 claims abstract description 63
- 238000007781 pre-processing Methods 0.000 claims abstract description 25
- 238000000034 method Methods 0.000 claims description 75
- 238000011550 data transformation method Methods 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 20
- 230000002159 abnormal effect Effects 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 8
- 238000011426 transformation method Methods 0.000 claims description 6
- 238000010801 machine learning Methods 0.000 abstract description 8
- 230000007547 defect Effects 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000013501 data transformation Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Complex Calculations (AREA)
Abstract
本发明提供了一种基于加密算法的模型构建方法及相关设备,涉及机器学习技术领域,通过获取原始数据集,原始数据集包含多个原始数据,每个原始数据包含多维特征;确定原始数据集对应的数据分布特性,数据分布特性表征各个原始数据中每一维特征的分布状况;依据数据分布特性,确定原始数据集对应的映射规则;对原始数据集中的各个原始数据进行预处理,并应用映射规则对预处理后的各个原始数据进行映射,得到各个原始数据对应的训练数据;应用预先设置的全同态加密算法对各个训练数据进行加密;应用加密后的训练数据对初始模型进行训练,得到目标模型,所述初始模型为待训练模型。能够避免密文膨胀的缺陷,提升模型的训练效率。
Description
技术领域
本发明涉及机器学习技术领域,特别涉及一种基于加密算法的模型构建方法及相关设备。
背景技术
随着科学技术的快速发展,机器学习也越来越广泛的应用在人们的生活中的方方面面,例如语音识别、面部识别等等,给人们带来了极大的便利,然而,在进行机器学习模型训练过程中,往往会应用到用户的数据,容易导致用户的隐私泄露,用户数据的隐私问题成为人们关注的重点。
现有技术中,为了保护用户数据的隐私,在利用用户数据进行机器学习模型训练的过程中,往往应采用全同态加密算法对用户数据进行加密,应用全同态加密算法对数据进行加密,不仅能够保障用户数据的隐私,还能保持数据的分布特性,使得密文数据能够达到明文数据相同的模型训练效果。然而,采用全同态加密算法对用户数据进行加密后,后续对密文数据进行处理过程中,会出现密文膨胀的缺陷,进而导致模型的训练效果差。
发明内容
本发明所要解决的技术问题是提供一种基于加密算法的模型构建方法,能够避免密文膨胀的缺陷,提升模型的训练效率。
本发明还提供了一种基于加密算法的模型构建装置,用以保证上述方法在实际中的实现及应用。
一种基于加密算法的模型构建方法,包括:
获取原始数据集,所述原始数据集包含多个原始数据,每个所述原始数据包含多维特征;
确定所述原始数据集对应的数据分布特性,所述数据分布特性表征各个所述原始数据中每一维特征的分布状况;
依据所述数据分布特性,确定所述原始数据集对应的映射规则;
对所述原始数据集中的各个原始数据进行预处理,并应用所述映射规则对预处理后的各个原始数据进行映射,得到各个原始数据对应的训练数据;
应用预先设置的全同态加密算法对各个所述训练数据进行加密;
应用加密后的训练数据对初始模型进行训练,得到目标模型,所述初始模型为待训练模型。
上述的方法,可选的,所述确定所述原始数据集对应的数据分布特性,包括:
对于每个所述原始数据,计算所述原始数据中每一维特征的集中状况参数以及离散程度参数,所述集中状况参数包括中位数和众数,所述离散程度参数包括方差和标准差;
依据每个所述原始数据的集中状况参数以及离散程度参数,确定所述原始数据集的数据分布特性。
上述的方法,可选的,所述依据所述数据分布特性,确定所述原始数据集对应的映射规则,包括:
依据所述数据分布特性,确定所述原始数据集中各个原始数据中每一维度对应的数据变换方法,所述变换方法为线性变换或非线性变换;
依据各个维度的数据变换方法,组成所述原始数据集对应的映射规则。
上述的方法,可选的,所述对所述原始数据集中的各个原始数据进行预处理,包括:
对于每个所述原始数据,判断所述原始数据中的每一维特征是否存在异常值,若存在,则将所述异常值进行清除;
判断所述原始数据中的每一维特征是否存在空缺值,若存在,则将预设的字符填充至所述空缺值所处的位置。
上述的方法,可选的,所述应用加密后的训练数据对初始进行训练,得到目标模型,包括:
确定各个所述训练数据对应的结果标签;
将加密后的训练数据依次输入至所述初始模型,直至所述初始模型的网络参数满足预先设置的训练条件;
其中,将每个所述加密后的训练数据输入至所述初始模型时,得到当前输入至所述初始模型的加密后的训练数据对应的识别结果;调用预先设置的损失函数,对所述识别结果以及当前输入至所述初始模型的加密后的训练数据对应的结果标签进行计算,得到损失函数值;依据所述损失函数值,判断所述初始模型的网络参数是否满足所述训练条件;若不满足,则依据所述损失函数值调整所述初始模型的网络参数;若满足,则将所述初始模型确定为目标模型。
上述的方法,可选的,还包括:
接收到用户的业务办理请求时,获取所述用户的原始信用数据,所述原始信用数据至少包括所述用户的基本信息、收入程度以及交易流水;
对所述原始信用数据进行预处理,并应用所述映射规则对预处理后的原始信用数据进行映射,得到所述原始信用数据对应的待识别数据;
将所述待识别数据输入至所述目标模型中,得到所述用户的对应的识别结果,所述识别结果表征所述用户的信用评分;
基于所述识别结果,判断所述用户是否满足所述业务办理请求对应的业务办理条件;
若满足,则执行所述业务办理请求对应的业务办理操作。
一种基于加密算法的模型构建装置,包括:
获取单元,用于获取原始数据集,所述原始数据集包含多个原始数据,每个所述原始数据包含多维特征;
第一确定单元,用于确定所述原始数据集对应的数据分布特性,所述数据分布特性表征各个所述原始数据中每一维特征的分布状况;
第二确定单元,用于依据所述数据分布特性,确定所述原始数据集对应的映射规则;
映射单元,用于对所述原始数据集中的各个原始数据进行预处理,并应用所述映射规则对预处理后的各个原始数据进行映射,得到各个原始数据对应的训练数据;
加密单元,用于应用预先设置的全同态加密算法对各个所述训练数据进行加密;
训练单元,用于应用加密后的训练数据对初始模型进行训练,得到目标模型,所述初始模型为待训练模型。
上述的装置,可选的,所述第一确定单元,包括:
执行子单元,用于对于每个所述原始数据,计算所述原始数据中每一维特征的集中状况参数以及离散程度参数,所述集中状况参数包括中位数和众数,所述离散程度参数包括方差和标准差;
确定子单元,用于依据每个所述原始数据的集中状况参数以及离散程度参数,确定所述原始数据集的数据分布特性。
一种存储介质,所述存储介质包括存储指令,其中,在所述指令运行时控制所述存储介质所在的设备执行如上所述的基于加密算法的模型构建方法。
一种电子设备,包括存储器,以及一个或者一个以上的指令,其中一个或一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行如上所述的基于加密算法的模型构建方法。
与现有技术相比,本发明包括以下优点:
本发明提供了一种基于加密算法的模型构建方法,包括:获取原始数据集,所述原始数据集包含多个原始数据,每个所述原始数据包含多维特征;确定所述原始数据集对应的数据分布特性,所述数据分布特性表征各个所述原始数据中每一维特征的分布状况;依据所述数据分布特性,确定所述原始数据集对应的映射规则;对所述原始数据集中的各个原始数据进行预处理,并应用所述映射规则对预处理后的各个原始数据进行映射,得到各个原始数据对应的训练数据;应用预先设置的全同态加密算法对各个所述训练数据进行加密;应用加密后的训练数据对初始模型进行训练,得到目标模型,所述初始模型为待训练模型。应用本发明实施例提供的方法,在对原始数据预处理之前,采用映射规则对数据进行映射,能够保障原始数据的分布特性,也能保障用户数据的隐私,对映射后的数据进行预处理,能够避免密文膨胀的缺陷,提高了模型的训练效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种基于加密算法的模型构建的方法流程图;
图2为本发明提供的一种基于加密算法的模型构建方法的又一方法流程图;
图3为本发明提供的一种基于加密算法的模型构建方法的又一方法流程图;
图4为本发明提供的一种基于加密算法的模型构建方法的又一方法流程图;
图5为本发明提供的一种基于加密算法的模型构建方法的一示例图;
图6为本发明提供的一种基于加密算法的模型构建装置的结构示意图;
图7为本发明提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明可用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。
本发明实施例提供了一种基于加密算法的模型构建方法,该方法可以应用在多种系统平台,其执行主体可以为服务器的处理器,所述服务器可以为计算机终端或各种移动设备,所述方法的方法流程图如图1所示,具体包括:
S101:获取原始数据集,所述原始数据集包含多个原始数据,每个所述原始数据包含多维特征。
本发明实施例提供的方法中,该原始数据集可以是在与该服务器相连接的上游系统服务器中的系统表中获取的,可以是通过kafka队列实时采集得到的;所述该原始数据可以包括个人信息、交易行为数据、浏览记录数据以及资产负债数据等等,每个所述原始数据包含多维特征,即该原始数据为包含多维特征的向量数据。
S102:确定所述原始数据集对应的数据分布特性,所述数据分布特性表征各个所述原始数据中每一维特征的分布状况。
本发明实施例提供的方法中,通过对原始数据集中的每一原始数据的各维特征进行分析计算,可以得到各维特征的分布状况,依据各维特征的分布状况,可以获得该原始数据集的数据分布特性。
S103:依据所述数据分布特性,确定所述原始数据集对应的映射规则。
具体的,在预先建立的数据变换方法集合中,确定能够保持该数据分布特性的映射规则,即,映射规则由多个数据变换方法组成,一个映射规则包含多种数据变换方法,一种数据变换方法对应原始数据的每一维特征,原始数据的各维特征对应的数据变换方法可以相同或不同。
S104:对所述原始数据集中的各个原始数据进行预处理,并应用所述映射规则对预处理后的各个原始数据进行映射,得到各个原始数据对应的训练数据。
本发明实施例提供的方法中,对各个原始数据进行预处理,即,判断原始数据的每一维特征中是否存在异常值或空缺值,对异常值进行清洗,对空缺值进行补齐,以实现对原始数据的预处理。
S105:应用预先设置的全同态加密算法对各个所述训练数据进行加密。
本发明实施例提供的方法中,应用全同态加密算法对各个所述训练数据进行加密时,获取该全同态加密算法的加密密钥,并存储该加密密钥,应用同态加密算法对训练数据进行加密,即可以保持训练数据的分布特性,又可以保护数据的隐私。
S106:应用加密后的训练数据对初始模型进行训练,得到目标模型,所述初始模型为待训练模型。
本发明实施例提供的方法中,将该映射规则、全同态加密算法的加密密钥与该目标模型进行关联保存,以便于后续的应用该映射规则和全同态加密算法处理待预测数据,应用目标模型对处理后的待预测数据进行预测,该初始模型可以为线性回归模型、逻辑回归模型以及决策树模型等。
本发明提供了一种基于加密算法的模型构建方法,包括:获取原始数据集,所述原始数据集包含多个原始数据,每个所述原始数据包含多维特征;确定所述原始数据集对应的数据分布特性,所述数据分布特性表征各个所述原始数据中每一维特征的分布状况;依据所述数据分布特性,确定所述原始数据集对应的映射规则;对所述原始数据集中的各个原始数据进行预处理,并应用所述映射规则对预处理后的各个原始数据进行映射,得到各个原始数据对应的训练数据;应用预先设置的全同态加密算法对各个所述训练数据进行加密;应用加密后的训练数据对初始模型进行训练,得到目标模型,所述初始模型为待训练模型。应用本发明实施例提供的方法,在对原始数据预处理之前,采用映射规则对数据进行映射,能够保障原始数据的分布特性,也能保障用户数据的隐私,对映射后的数据进行预处理,能够避免密文膨胀的缺陷,提高了模型的训练效率,对预处理后的数据进行全同态加密,能进一步的保障用户的隐私。
本发明实施例提供的基于加密算法的模型构建方法中,基于上述的实施过程,具体的,所述确定所述原始数据集对应的数据分布特性的过程,如图2所示,具体包括:
S201:对于每个所述原始数据,计算所述原始数据中每一维特征的集中状况参数以及离散程度参数,所述集中状况参数包括中位数和众数,所述离散程度参数包括方差和标准差。
本发明实施例提供的方法中,每个所述原始数据包含多维特征,其中,原始数据的特征维度可以50维,具体的数目可以有技术人员依据实际需求进行设定。
S202:依据每个所述原始数据的集中状况参数以及离散程度参数,确定所述原始数据集的数据分布特性。
本发明实施例提供的方法中,该原始数据集的数据分布特性由各原始数据中各维度特征的集中状况参数以及离散程度参数进行确定,即,对各个原始数据中相同维度对应的集中状况参数以及离散程度参数进行分析,可以得到每一维度的分布状况;依据各个维度的分布状况组成数据分布特征。
应用本发明实施例提供的方法,通过原始数据集的集中状况参数能够准确的确定原始数据集的数据分布特性,进而能够保障模型的训练效果。
本发明实施例提供的基于加密算法的模型构建方法中,基于上述的实施过程,具体的,所述依据所述数据分布特性,确定所述原始数据集对应的映射规则的过程,如图3所示,具体包括:
S301:依据所述数据分布特性,确定所述原始数据集中各个原始数据中每一维度对应的数据变换方法,所述变换方法为线性变换或非线性变换。
本发明实施例提供的方法中,依据数据分布特性表征的原始数据集中各个原始数据的每一维度的特征分布状况,确定该维度特征对应的数据变换方法。
其中,各维度的对应的数据变换方法可以相同或不同,该数据变换方法可以各种线性变换方法或各种非线性变换方法,具体由维度特征对应的特征分布状况进行决定。
S302:依据各个维度的数据变换方法,组成所述原始数据集对应的映射规则。
本发明实施例提供的方法中,将各个维度特征的数据变换方法按各个维度的维度顺序进行排列,得到原始数据集对应的映射规则,或者,为每一维度对应的数据变换方法添加该维度对应的标识,以便于在该原始数据集中确定每一维度特征对应的数据变换方法。
应用本发明实施例提供的方法,通过数据分布特性确定映射规则,能够保障应用该映射规则进行映射后的每一维特征数据都能保持其数据分布特性。
本发明实施例提供的基于加密算法的模型构建方法中,基于上述的实施过程,具体的,所述应用所述映射规则对预处理后的各个原始数据进行映射,得到各个原始数据对应的训练数据,包括:
在所述映射规则中,确定所述预处理后的原始数据中每一维特征对应的数据变换方法;
应用各个所述原始数据中的每一维特征对应的数据变换方法对该维特征进行映射,得到各个原始数据对应的训练数据。
本发明实施例提供的方法中,依据映射规则中各个数据变换方法的排序顺序确定每一维特征对应的数据变换方法,也可以是依据各个数据变换方法中的标识号确定该特征对应的数据变换方法。
具体的,将每一维特征代入至与其对应的数据变换方法表征的数据变换公式中,以实现对原始数据的映射。
应用本发明实施例提供的方法,通过对每一维特征数据进行映射,能够保障每一维特征数据的数据分布特征不会被破坏,进而保障模型的训练效果。
本发明实施例提供的基于加密算法的模型构建方法中,基于上述的实施过程,具体的,所述对所述原始数据集中的各个原始数据进行预处理,包括:
对于每个所述原始数据,判断所述原始数据中的每一维特征是否存在异常值,若存在,则将所述异常值进行清除;
判断所述原始数据中的每一维特征是否存在空缺值,若存在,则将预设的字符填充至所述空缺值所处的位置。
本发明实施例提供的方法中,各个原始数据中可能异常值或者是空缺值,因此需要对原始数据进行预处理,以保证后续的模型训练效果。
本发明实施例提供的基于加密算法的模型构建方法中,基于上述的实施过程,具体的,应用加密后的训练数据对初始进行训练,得到目标模型,如图4所示,具体包括:
S401:确定各个所述训练数据对应的结果标签。
本发明实施例提供的方法中,该结果标签可以为该训练数据对应的真实结果。
S402:将加密后的训练数据依次输入至所述初始模型,直至所述初始模型的网络参数满足预先设置的训练条件。
其中,将每个所述加密后的训练数据输入至所述初始模型时,得到当前输入至所述初始模型的加密后的训练数据对应的识别结果;调用预先设置的损失函数,对所述识别结果以及当前输入至所述初始模型的加密后的训练数据对应的结果标签进行计算,得到损失函数值;依据所述损失函数值,判断所述初始模型的网络参数是否满足所述训练条件;若不满足,则依据所述损失函数值调整所述初始模型的网络参数;若满足,则将所述初始模型确定为目标模型。
本发明实施例提供的方法中,还可以将该训练条件设置为初始模型的训练次数满足预设的训练次数阈值;即,依次将各个加密后的训练数据输入至初始模型,直到输入至所述初始模型的加密后的训练数据的数量满足预设的数量阈值时,将当前所述初始模型确定为目标模型;
其中,将每个加密后的训练数据输入至初始模型时,得到当前输入至所述初始模型的加密后的训练数据的识别结果;调用预先设置的损失函数,对所述识别结果与当前输入至初始模型对应的结果标签进行计算,得到损失函数值;依据损失函数值调整初始模型的网络参数。
应用本发明实施例提供的方法,通过不断对模型的网络参数调优,能够不断的提高模型的预测准确率。
本发明实施例提供的基于加密算法的模型构建方法中,基于上述的实施过程,具体的,还包括:
接收到用户的业务办理请求时,获取所述用户的原始信用数据,所述原始信用数据至少包括所述用户的基本信息、收入程度以及交易流水;
对所述原始信用数据进行预处理,并应用所述映射规则对预处理后的原始信用数据进行映射,得到所述原始信用数据对应的待识别数据;
将所述待识别数据输入至所述目标模型中,得到所述用户的对应的识别结果,所述识别结果表征所述用户的信用评分;
判断所述识别结果是否满足所述业务办理请求对应的业务办理条件;
若满足,则执行所述业务办理请求对应的业务办理操作。
本发明实施例提供的方法中,该原始信用数据可以包括用户的年龄、学历程度、存款余额、固定资产信息、交易流水信息、浏览记录、交易行为信息以及收入程度信息等等,该原始信用数据可以为上述的原始数据;该业务办理操作可以是申请贷款等;获取该业务办理请求包含的申请贷款额度,确定该贷款额度所需的信用评分阈值;判断所述识别结果表征的信用评分是否大于等于该信用评分阈值,若是,则执行该办理请求对应的业务办理操作。
参见图5,为本发明实施例提供的一示例图,示出了模型的训练过程以及应用过程,具体如下:
训练过程包括:
步骤a1:获取原始训练数据。
步骤a2:选择该原始训练数据对应映射规则,应用该映射规则对该原始训练数据进行映射。
步骤a3:对映射后的数据进行预处理。
步骤a4:应用预先设置的同态加密算法对对预处理后的数据进行加密,并保存密钥。
步骤a5:应用加密后的数据训练机器学习模型。
应用过程包括:
步骤b1:获取原始预测数据。
步骤b2:应用该映射规则对该原始训练数据进行映射。
步骤b3:对映射后的数据进行预处理,得到待识别数据。
步骤b4:应用训练好的机器学习模型对该待识别数据进行预测,得到预测结果。
上述各个具体的实现方式,及各个实现方式的衍生过程,均在本发明保护范围内。
与图1所述的方法相对应,本发明实施例还提供了一种基于加密算法的模型构建装置,用于对图1中方法的具体实现,本发明实施例提供的基于加密算法的模型构建装置可以应用计算机终端或各种移动设备中,其结构示意图如图6所示,具体包括:
获取单元601,用于获取原始数据集,所述原始数据集包含多个原始数据,每个所述原始数据包含多维特征。
第一确定单元602,用于确定所述原始数据集对应的数据分布特性,所述数据分布特性表征各个所述原始数据中每一维特征的分布状况。
第二确定单元603,用于依据所述数据分布特性,确定所述原始数据集对应的映射规则。
映射单元604,用于对所述原始数据集中的各个原始数据进行预处理,并应用所述映射规则对预处理后的各个原始数据进行映射,得到各个原始数据对应的训练数据。
加密单元605,用于应用预先设置的全同态加密算法对各个所述训练数据进行加密。
训练单元606,用于应用加密后的训练数据对初始模型进行训练,得到目标模型,所述初始模型为待训练模型。
本发明提供了一种基于加密算法的模型构建装置,通过获取原始数据集,所述原始数据集包含多个原始数据,每个所述原始数据包含多维特征;确定所述原始数据集对应的数据分布特性,所述数据分布特性表征各个所述原始数据中每一维特征的分布状况;依据所述数据分布特性,确定所述原始数据集对应的映射规则;对所述原始数据集中的各个原始数据进行预处理,并应用所述映射规则对预处理后的各个原始数据进行映射,得到各个原始数据对应的训练数据;应用预先设置的全同态加密算法对各个所述训练数据进行加密;应用加密后的训练数据对初始模型进行训练,得到目标模型,所述初始模型为待训练模型。应用本发明实施例提供的方法,在对原始数据预处理之前,采用映射规则对数据进行映射,能够保障原始数据的分布特性,也能保障用户数据的隐私,对映射后的数据进行预处理,提高了模型的训练效率,对预处理后的数据进行全同态加密,能进一步的保障用户的隐私。
在本发明提供的一实施例中,基于上述的方案,具体的,所述第一确定单元602,包括:
执行子单元,用于对于每个所述原始数据,计算所述原始数据中每一维特征的集中状况参数以及离散程度参数,所述集中状况参数包括中位数和众数,所述离散程度参数包括方差和标准差;
确定子单元,用于依据每个所述原始数据的集中状况参数以及离散程度参数,确定所述原始数据集的数据分布特性。
在本发明提供的一实施例中,基于上述的方案,具体的,所述第二确定单元603,包括:
第一处理子单元,用于依据所述数据分布特性,确定所述原始数据集中各个原始数据中每一维度对应的数据变换方法,所述变换方法为线性变换或非线性变换;
生成子单元,用于依据各个维度的数据变换方法,组成所述原始数据集对应的映射规则。
在本发明提供的一实施例中,基于上述的方案,具体的,所述对所述原始数据集中的各个原始数据进行预处理的映射单元604,包括:
第一判断子单元,用于对于每个所述原始数据,判断所述原始数据中的每一维特征是否存在异常值,若存在,则将所述异常值进行清除;
第二判断子单元,用于判断所述原始数据中的每一维特征是否存在空缺值,若存在,则将预设的字符填充至所述空缺值所处的位置。
在本发明提供的一实施例中,基于上述的方案,具体的,所述训练单元606,包括:
第二处理子单元,用于确定各个所述训练数据对应的结果标签;
输入单元,用于将加密后的训练数据依次输入至所述初始模型,直至所述初始模型的网络参数满足预先设置的训练条件;
其中,将每个所述加密后的训练数据输入至所述初始模型时,得到当前输入至所述初始模型的加密后的训练数据对应的识别结果;调用预先设置的损失函数,对所述识别结果以及当前输入至所述初始模型的加密后的训练数据对应的结果标签进行计算,得到损失函数值;依据所述损失函数值,判断所述初始模型的网络参数是否满足所述训练条件;若不满足,则依据所述损失函数值调整所述初始模型的网络参数;若满足,则将所述初始模型确定为目标模型。
在本发明提供的一实施例中,基于上述的方案,具体的,还包括:
接收单元,用于接收到用户的业务办理请求时,获取所述用户的原始信用数据,所述原始信用数据至少包括所述用户的收入程度以及交易流水;
处理单元,用于对所述原始信用数据进行预处理,并应用所述映射规则对预处理后的原始信用数据进行映射,得到所述原始信用数据对应的待识别数据;
生成单元,用于将所述待识别数据输入至所述目标模型中,得到所述用户的对应的识别结果,所述识别结果表征所述用户的信用评分;
判断单元,用于判断所述识别结果是否满足所述业务办理请求对应的业务办理条件;
执行单元,用于当满足所述业务办理条件时,则执行所述业务办理请求对应的业务办理操作。
本发明实施例还提供了一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行上述基于加密算法的模型构建方法。
本发明实施例还提供了一种电子设备,其结构示意图如图7所示,具体包括存储器701,以及一个或者一个以上的指令702,其中一个或者一个以上指令702存储于存储器701中,且经配置以由一个或者一个以上处理器703执行所述一个或者一个以上指令702进行以下操作:
获取原始数据集,所述原始数据集包含多个原始数据,每个所述原始数据包含多维特征;
确定所述原始数据集对应的数据分布特性,所述数据分布特性表征各个所述原始数据中每一维特征的分布状况;
依据所述数据分布特性,确定所述原始数据集对应的映射规则;
对所述原始数据集中的各个原始数据进行预处理,并应用所述映射规则对预处理后的各个原始数据进行映射,得到各个原始数据对应的训练数据;
应用预先设置的全同态加密算法对各个所述训练数据进行加密;
应用加密后的训练数据对初始模型进行训练,得到目标模型,所述初始模型为待训练模型。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上对本发明所提供的一种于加密算法的模型构建方法及相关设备进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种基于加密算法的模型构建方法,其特征在于,包括:
获取原始数据集,所述原始数据集包含多个原始数据,每个所述原始数据包含多维特征;
确定所述原始数据集对应的数据分布特性,所述数据分布特性表征各个所述原始数据中每一维特征的分布状况;
依据所述数据分布特性,确定所述原始数据集对应的映射规则,能够保障应用该映射规则进行映射后的每一维特征数据都能保持其数据分布特性;
对所述原始数据集中的各个原始数据进行预处理,并应用所述映射规则对预处理后的各个原始数据进行映射,得到各个原始数据对应的训练数据;
应用预先设置的全同态加密算法对各个所述训练数据进行加密;
应用加密后的训练数据对初始模型进行训练,得到目标模型,所述初始模型为待训练模型。
2.根据权利要求1所述的方法,其特征在于,所述确定所述原始数据集对应的数据分布特性,包括:
对于每个所述原始数据,计算所述原始数据中每一维特征的集中状况参数以及离散程度参数,所述集中状况参数包括中位数和众数,所述离散程度参数包括方差和标准差;
依据每个所述原始数据的集中状况参数以及离散程度参数,确定所述原始数据集的数据分布特性。
3.根据权利要求1所述的方法,其特征在于,所述依据所述数据分布特性,确定所述原始数据集对应的映射规则,包括:
依据所述数据分布特性,确定所述原始数据集中各个原始数据中每一维度对应的数据变换方法,所述变换方法为线性变换或非线性变换;
依据各个维度的数据变换方法,组成所述原始数据集对应的映射规则。
4.根据权利要求1所述的方法,其特征在于,所述对所述原始数据集中的各个原始数据进行预处理,包括:
对于每个所述原始数据,判断所述原始数据中的每一维特征是否存在异常值,若存在,则将所述异常值进行清除;
判断所述原始数据中的每一维特征是否存在空缺值,若存在,则将预设的字符填充至所述空缺值所处的位置。
5.根据权利要求1所述的方法,其特征在于,所述应用加密后的训练数据对初始进行训练,得到目标模型,包括:
确定各个所述训练数据对应的结果标签;
将加密后的训练数据依次输入至所述初始模型,直至所述初始模型的网络参数满足预先设置的训练条件;
其中,将每个所述加密后的训练数据输入至所述初始模型时,得到当前输入至所述初始模型的加密后的训练数据对应的识别结果;调用预先设置的损失函数,对所述识别结果以及当前输入至所述初始模型的加密后的训练数据对应的结果标签进行计算,得到损失函数值;依据所述损失函数值,判断所述初始模型的网络参数是否满足所述训练条件;若不满足,则依据所述损失函数值调整所述初始模型的网络参数;若满足,则将所述初始模型确定为目标模型。
6.根据权利要求1所述的方法,其特征在于,还包括:
接收到用户的业务办理请求时,获取所述用户的原始信用数据,所述原始信用数据至少包括所述用户的基本信息、收入程度以及交易流水;
对所述原始信用数据进行预处理,并应用所述映射规则对预处理后的原始信用数据进行映射,得到所述原始信用数据对应的待识别数据;
将所述待识别数据输入至所述目标模型中,得到所述用户的对应的识别结果,所述识别结果表征所述用户的信用评分;
判断所述识别结果是否满足所述业务办理请求对应的业务办理条件;
若满足,则执行所述业务办理请求对应的业务办理操作。
7.一种基于加密算法的模型构建装置,其特征在于,包括:
获取单元,用于获取原始数据集,所述原始数据集包含多个原始数据,每个所述原始数据包含多维特征;
第一确定单元,用于确定所述原始数据集对应的数据分布特性,所述数据分布特性表征各个所述原始数据中每一维特征的分布状况;
第二确定单元,用于依据所述数据分布特性,确定所述原始数据集对应的映射规则,能够保障应用该映射规则进行映射后的每一维特征数据都能保持其数据分布特性;
映射单元,用于对所述原始数据集中的各个原始数据进行预处理,并应用所述映射规则对预处理后的各个原始数据进行映射,得到各个原始数据对应的训练数据;
加密单元,用于应用预先设置的全同态加密算法对各个所述训练数据进行加密;
训练单元,用于应用加密后的训练数据对初始模型进行训练,得到目标模型,所述初始模型为待训练模型。
8.根据权利要求7所述的装置,其特征在于,所述第一确定单元,包括:
执行子单元,用于对于每个所述原始数据,计算所述原始数据中每一维特征的集中状况参数以及离散程度参数,所述集中状况参数包括中位数和众数,所述离散程度参数包括方差和标准差;
确定子单元,用于依据每个所述原始数据的集中状况参数以及离散程度参数,确定所述原始数据集的数据分布特性。
9.一种存储介质,其特征在于,所述存储介质包括存储指令,其中,在所述指令运行时控制所述存储介质所在的设备执行如权利要求1~6任意一项所述的基于加密算法的模型构建方法。
10.一种电子设备,其特征在于,包括存储器,以及一个或者一个以上的指令,其中一个或一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行如权利要求1~6任意一项所述的基于加密算法的模型构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911199932.2A CN110969261B (zh) | 2019-11-29 | 2019-11-29 | 基于加密算法的模型构建方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911199932.2A CN110969261B (zh) | 2019-11-29 | 2019-11-29 | 基于加密算法的模型构建方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110969261A CN110969261A (zh) | 2020-04-07 |
CN110969261B true CN110969261B (zh) | 2023-11-28 |
Family
ID=70032072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911199932.2A Active CN110969261B (zh) | 2019-11-29 | 2019-11-29 | 基于加密算法的模型构建方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110969261B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11599806B2 (en) | 2020-06-22 | 2023-03-07 | International Business Machines Corporation | Depth-constrained knowledge distillation for inference on encrypted data |
CN112989606B (zh) * | 2021-03-16 | 2023-06-16 | 上海哥瑞利软件股份有限公司 | 数据算法模型检验方法、系统及计算机存储介质 |
CN114093465A (zh) * | 2021-10-28 | 2022-02-25 | 广东珠江智联信息科技股份有限公司 | 基于同态加密的医疗图像标注系统及其数据处理方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107612675A (zh) * | 2017-09-20 | 2018-01-19 | 电子科技大学 | 一种隐私保护下的广义线性回归方法 |
CN108133294A (zh) * | 2018-01-10 | 2018-06-08 | 阳光财产保险股份有限公司 | 基于信息共享的预测方法及装置 |
CN108804931A (zh) * | 2018-05-24 | 2018-11-13 | 成都大象分形智能科技有限公司 | 涉及域变换数据加密的神经网络模型加密保护系统及方法 |
CN109241749A (zh) * | 2017-07-04 | 2019-01-18 | 阿里巴巴集团控股有限公司 | 数据加密、机器学习模型训练方法、装置以及电子设备 |
CN110490128A (zh) * | 2019-08-16 | 2019-11-22 | 南京邮电大学 | 一种基于加密神经网络的手写识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10749665B2 (en) * | 2017-06-29 | 2020-08-18 | Microsoft Technology Licensing, Llc | High-precision rational number arithmetic in homomorphic encryption |
-
2019
- 2019-11-29 CN CN201911199932.2A patent/CN110969261B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241749A (zh) * | 2017-07-04 | 2019-01-18 | 阿里巴巴集团控股有限公司 | 数据加密、机器学习模型训练方法、装置以及电子设备 |
CN107612675A (zh) * | 2017-09-20 | 2018-01-19 | 电子科技大学 | 一种隐私保护下的广义线性回归方法 |
CN108133294A (zh) * | 2018-01-10 | 2018-06-08 | 阳光财产保险股份有限公司 | 基于信息共享的预测方法及装置 |
CN108804931A (zh) * | 2018-05-24 | 2018-11-13 | 成都大象分形智能科技有限公司 | 涉及域变换数据加密的神经网络模型加密保护系统及方法 |
CN110490128A (zh) * | 2019-08-16 | 2019-11-22 | 南京邮电大学 | 一种基于加密神经网络的手写识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110969261A (zh) | 2020-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110969261B (zh) | 基于加密算法的模型构建方法及相关设备 | |
CN112508118B (zh) | 针对数据偏移的目标对象行为预测方法及其相关设备 | |
CN111181757B (zh) | 信息安全风险预测方法、装置以及计算设备、存储介质 | |
CN112861662B (zh) | 基于人脸和交互文本的目标对象行为预测方法及相关设备 | |
CN112288163A (zh) | 目标对象的目标因子预测方法及相关设备 | |
WO2023071105A1 (zh) | 一种特征变量的分析方法、装置、计算机设备及存储介质 | |
CN112468658B (zh) | 语音质量检测方法、装置、计算机设备及存储介质 | |
CN113326991A (zh) | 自动授权方法、装置、计算机设备及存储介质 | |
CN111368196A (zh) | 模型参数的更新方法、装置、设备及可读存储介质 | |
CN112990583B (zh) | 一种数据预测模型的入模特征确定方法及设备 | |
CN112995414B (zh) | 基于语音通话的行为质检方法、装置、设备及存储介质 | |
CN112887371B (zh) | 边缘计算方法、装置、计算机设备及存储介质 | |
CN114265835A (zh) | 基于图挖掘的数据分析方法、装置及相关设备 | |
CN113506023A (zh) | 工作行为数据分析方法、装置、设备及存储介质 | |
CN112100491A (zh) | 基于用户数据的信息推荐方法、装置、设备及存储介质 | |
CN115936895A (zh) | 基于人工智能的风险评估方法、装置、设备及存储介质 | |
CN115828901A (zh) | 敏感信息识别方法、装置、电子设备及存储介质 | |
CN114925275A (zh) | 产品推荐方法、装置、计算机设备及存储介质 | |
CN112085469B (zh) | 基于向量机模型的数据审批方法、装置、设备及存储介质 | |
CN113792342B (zh) | 一种脱敏数据还原的方法、装置、计算机设备及存储介质 | |
CN113761577B (zh) | 一种大数据脱敏的方法、装置、计算机设备及存储介质 | |
US9600770B1 (en) | Method for determining expertise of users in a knowledge management system | |
US11868337B2 (en) | Systems and methods for correcting label bias in data | |
US11252160B1 (en) | Artificial intelligence software access bundling | |
CN111327513B (zh) | 消息数据的推送方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |